Go to file

Floke d245d43182 Feat: Matching-Logik mit gewichtetem Scoring & Interaktiv-Modus (v3.0)

Diese Version überarbeitet den Kern des Matching-Algorithmus grundlegend, um die Genauigkeit drastisch zu erhöhen und die manuelle Nachbearbeitung zu reduzieren. Die Änderungen basieren auf der Analyse eines umfangreichen Testdatensatzes und setzen die neue Philosophie des "großzügigen Matchens" von wirtschaftlichen Einheiten um.

Gewichtetes Namens-Scoring (TF-IDF):
- Einzigartige Namensbestandteile (z.B. "Warema") erhalten nun ein höheres Gewicht als generische Füllwörter (z.B. "Stadtwerke", "Gruppe").
- Dies löst das Problem von Fehlzuordnungen bei häufig vorkommenden, aber nicht-identifizierenden Begriffen und verbessert die Treffsicherheit bei unklaren Firmennamen signifikant.

Golden-Rule für exakte Namens-Matches:
- Eine Namensübereinstimmung von >98% führt zu einem sofortigen "Golden Match" mit einem sehr hohen Score.
- Damit wird verhindert, dass klare Treffer durch abweichende Signale (z.B. unterschiedliche URLs von Tochterfirmen) fälschlicherweise bestraft werden.

Optionaler Interaktiver Modus:
- Kann mit dem Flag --interactive gestartet werden.
- Bei uneindeutigen Ergebnissen, bei denen die Top-Kandidaten sehr ähnliche Scores haben, hält das Skript an und ermöglicht dem Benutzer die direkte Auswahl des korrekten Matches aus einer übersichtlichen Liste.

Überarbeitete Scoring-Formel:
- Die Gesamtbewertung wurde neu balanciert, um dem jetzt deutlich aussagekräftigeren Namens-Score mehr Gewicht zu verleihen.

2025-09-04 14:34:28 +00:00

@eaDir

Erste Version

2025-03-29 18:47:15 +01:00

templates

templates/index.html hinzugefügt

2025-05-27 12:29:05 +00:00

api_key.txt

Erste Version

2025-03-29 18:47:15 +01:00

app.py

app.py aktualisiert

2025-08-21 10:58:01 +00:00

Bestandsfirmen.xlsx

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung2.py

brancheneinstufung2.py aktualisiert

2025-08-29 06:20:48 +00:00

brancheneinstufung - Kopie.py

Erste Version

2025-03-29 18:47:15 +01:00

build_knowledge_base.py

build_knowledge_base.py hinzugefügt

2025-07-29 11:27:23 +00:00

Cloudflare_token.txt

Cloudflare_token.txt aktualisiert

2025-08-21 15:15:08 +00:00

config.py

config.py aktualisiert

2025-08-28 09:20:27 +00:00

data_processor.py

data_processor.py aktualisiert

2025-08-22 12:02:17 +00:00

dealfront_credentials.json

dealfront_credentials.json hinzugefügt

2025-07-03 04:54:42 +00:00

dealfront_enrichment.py

dealfront_enrichment.py aktualisiert

2025-07-14 08:17:41 +00:00

debug_screenshot.py

debug_screenshot.py aktualisiert

2025-07-05 21:15:45 +00:00

Dockerfile

Dockerfile aktualisiert

2025-07-16 12:58:47 +00:00

Dockerfile.brancheneinstufung

Dockerfile.brancheneinstufung aktualisiert

2025-08-21 14:49:11 +00:00

duplicate_checker.py

Feat: Matching-Logik mit gewichtetem Scoring & Interaktiv-Modus (v3.0)

2025-09-04 14:34:28 +00:00

expand_knowledge_base.py

Anpassung Extraction Prompt

2025-07-23 15:26:23 +00:00

extract_insights.py

extract_insights.py aktualisiert

2025-07-16 08:06:30 +00:00

fotograf_credentials

fotograf_credentials aktualisiert

2025-07-16 11:54:23 +00:00

fotograf_credentials.json

fotograf_credentials.json aktualisiert

2025-07-16 14:42:35 +00:00

genderize_API_Key.txt

genderize_API_Key.txt hinzugefügt

2025-07-01 05:14:52 +00:00

generate_knowledge_base.py

generate_knowledge_base.py hinzugefügt

2025-07-15 19:32:00 +00:00

generate_marketing_text.py

Fallback wenn keine Referenzen vorhanden

2025-07-31 09:30:51 +00:00

google_sheet_handler.py

google_sheet_handler.py aktualisiert

2025-08-28 05:14:40 +00:00

HA_automations.yaml

HA_automations.yaml aktualisiert

2025-07-23 10:10:59 +00:00

HA_configuration.yaml

HA_configuration.yaml hinzugefügt

2025-07-23 10:10:39 +00:00

HA_jbd_bms.yaml

HA_jbd_bms.yaml hinzugefügt

2025-07-23 10:19:02 +00:00

helpers.py

helpers.py aktualisiert

2025-08-25 18:19:45 +00:00

Labyrinth.py

Font changed

2025-04-04 17:04:06 +00:00

list_generator.py

list_generator.py aktualisiert

2025-06-29 14:53:15 +00:00

marketing_wissen.yaml

marketing_wissen.yaml aktualisiert

2025-07-21 16:03:05 +00:00

ngrok_authtoken.txt

ngrok_authtoken.txt hinzugefügt

2025-08-18 06:26:31 +00:00

old_brancheneinstufung.py

old_brancheneinstufung.py aktualisiert

2025-08-04 12:02:19 +00:00

planning.md

planning.md aktualisiert

2025-08-29 08:34:07 +00:00

readme.md

readme.md aktualisiert

2025-08-29 08:32:40 +00:00

reindent.py

Add reindent.py script

2025-06-27 11:08:42 +02:00

requirements.txt

requirements.txt aktualisiert

2025-08-25 07:30:01 +00:00

scrape_fotograf.py

Code-Karte beim Zählen der Downloads ausgeschlossen

2025-07-17 11:11:34 +00:00

serpApiKey.txt

serpApiKey.txt hinzugefügt

2025-07-01 05:15:47 +00:00

service_account.json

Erste Version

2025-03-29 18:47:15 +01:00

start.sh

start.sh aktualisiert

2025-08-22 06:59:56 +00:00

sync_manager.py

sync_manager.py aktualisiert

2025-08-29 07:11:48 +00:00

take_screenshot.sh

take_screenshot.sh hinzugefügt

2025-07-05 20:37:16 +00:00

tasks.md

tasks.md aktualisiert

2025-08-29 08:33:31 +00:00

test_core_functionality.py

test_core_functionality.py hinzugefügt

2025-08-04 09:37:04 +00:00

test_pytube.py

test_pytube.py aktualisiert

2025-05-27 12:48:05 +00:00

test_selenium.py

test_selenium.py hinzugefügt

2025-07-14 08:36:01 +00:00

update.log

Erste Version

2025-03-29 18:47:15 +01:00

wikipedia_scraper.py

v2.0.2: feat: Implement Google-First Wikipedia Search

2025-08-04 18:39:16 +00:00

readme.md

Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.2.1

1. Projektübersicht

Dieses Repository enthält eine Suite von Python-Skripten zur automatisierten Anreicherung und Analyse von Unternehmensdaten. Das System ist modular aufgebaut und für den Betrieb in einem Docker-Container ausgelegt.

brancheneinstufung.py: Das Kernmodul zur Datenanreicherung (Web, Wikipedia, KI-Analyse).
duplicate_checker.py: Ein Modul zur intelligenten Duplikatsprüfung.
generate_marketing_text.py: Eine Engine zur Erstellung personalisierter Marketing-Texte.
app.py & Docker: Eine fernsteuerbare Schnittstelle via Google Sheets.

2. Aktueller Status: KRITISCHER FEHLER (BLOCKER)

Das gesamte System ist derzeit nicht lauffähig. Ein Inkompatibilitätsproblem zwischen dem bestehenden Code und der installierten Version der openai-Python-Bibliothek führt zu einem ModuleNotFoundError bei jedem Versuch, eine KI-Funktion aufzurufen. Dies verhindert jegliche Weiterentwicklung und Nutzung.

3. Nächster Schritt

Priorität 1: Behebung des openai-Abhängigkeitskonflikts. Die gewählte Strategie ist ein gezieltes Downgrade der openai-Bibliothek auf eine mit dem Code kompatible Version, um die Funktionalität schnellstmöglich wiederherzustellen. planning.md (v2.2.1) code Markdown

Projektplanung v2.2.1

1. Aktueller Stand

[X] Architektur & Module: Alle Kernmodule sind konzipiert und implementiert.
[!] System-Blocker: Ein Versionskonflikt der openai-Bibliothek legt das gesamte System lahm. Alle Funktionen, die auf die KI zugreifen, stürzen mit einem ModuleNotFoundError ab.

2. Strategischer Plan

Phase 1: Stabilität wiederherstellen (Hotfix)

[ ] Schritt 1.1 (Analyse): Überprüfung aller Code-Stellen, die openai-Fehlerklassen importieren oder verwenden, um den Umfang des Problems zu bestätigen.
[ ] Schritt 1.2 (Downgrade): Modifikation der requirements.txt, um die openai-Bibliothek auf eine stabile, kompatible Version (z.B. 0.28.0) festzuschreiben.
[ ] Schritt 1.3 (Anwendung): Neubau des Docker-Images (docker build), um die Installation der korrekten Bibliotheksversion zu erzwingen.
[ ] Schritt 1.4 (Validierung): Durchführung eines Testlaufs (z.B. reclassify_branches), um zu bestätigen, dass der ModuleNotFoundError behoben ist und die KI-Aufrufe wieder funktionieren.

Phase 2: Geplante Weiterentwicklung (nach Hotfix)

[ ] Finalisierung des Duplikats-Checks.
[ ] Vervollständigung der Wissensbasis und Generierung aller Marketing-Texte.
[ ] (Zukünftig) Planung des Code-Refactorings, um die neue openai v1.x API zu unterstützen.

Automatisierte Unternehmensbewertung & Lead-Generierung

Version: 2.1.0 (nach Implementierung des Sync-Moduls)

Projektbeschreibung

Dieses Projekt automatisiert die Anreicherung von Unternehmensdaten aus einem D365-CRM-System. Es nutzt externe APIs (Google, Wikipedia, OpenAI) und Web-Scraping, um Stammdaten zu validieren, zu ergänzen und neue, marketing-relevante Informationen (z.B. FSM-Pitches) zu generieren. Die Verarbeitung und Speicherung der angereicherten Daten erfolgt in einem Google Sheet.

Aktueller Status (August 2025)

Systemstabilität: Das System ist nach der Behebung von Inkompatibilitäten mit der OpenAI-Bibliothek stabil und voll lauffähig.
Daten-Import: Ein robuster, intelligenter Synchronisations-Mechanismus (sync_manager.py) wurde implementiert. Er gleicht einen vollständigen D365-Excel-Export mit dem Google Sheet ab, aktualisiert Stammdaten nach definierten Fachregeln und markiert Datensätze für die Neu-Anreicherung.
Kernfunktionen: Datenanreicherung (Wikipedia, Website-Scraping) und KI-basierte Analysen (Brancheneinstufung, Text-Zusammenfassungen) sind operational.
Nächster Schritt: Implementierung des Daten-Exports aus dem Google Sheet zur Aktualisierung des D365-Systems.

Languages

Python 61.8%

TypeScript 20.2%

JavaScript 14.5%

HTML 2.5%

Dockerfile 0.4%

Other 0.6%