Diese Version überarbeitet den Kern des Matching-Algorithmus grundlegend, um die Genauigkeit drastisch zu erhöhen und die manuelle Nachbearbeitung zu reduzieren. Die Änderungen basieren auf der Analyse eines umfangreichen Testdatensatzes und setzen die neue Philosophie des "großzügigen Matchens" von wirtschaftlichen Einheiten um. Gewichtetes Namens-Scoring (TF-IDF): - Einzigartige Namensbestandteile (z.B. "Warema") erhalten nun ein höheres Gewicht als generische Füllwörter (z.B. "Stadtwerke", "Gruppe"). - Dies löst das Problem von Fehlzuordnungen bei häufig vorkommenden, aber nicht-identifizierenden Begriffen und verbessert die Treffsicherheit bei unklaren Firmennamen signifikant. Golden-Rule für exakte Namens-Matches: - Eine Namensübereinstimmung von >98% führt zu einem sofortigen "Golden Match" mit einem sehr hohen Score. - Damit wird verhindert, dass klare Treffer durch abweichende Signale (z.B. unterschiedliche URLs von Tochterfirmen) fälschlicherweise bestraft werden. Optionaler Interaktiver Modus: - Kann mit dem Flag --interactive gestartet werden. - Bei uneindeutigen Ergebnissen, bei denen die Top-Kandidaten sehr ähnliche Scores haben, hält das Skript an und ermöglicht dem Benutzer die direkte Auswahl des korrekten Matches aus einer übersichtlichen Liste. Überarbeitete Scoring-Formel: - Die Gesamtbewertung wurde neu balanciert, um dem jetzt deutlich aussagekräftigeren Namens-Score mehr Gewicht zu verleihen.
Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.2.1
1. Projektübersicht
Dieses Repository enthält eine Suite von Python-Skripten zur automatisierten Anreicherung und Analyse von Unternehmensdaten. Das System ist modular aufgebaut und für den Betrieb in einem Docker-Container ausgelegt.
brancheneinstufung.py: Das Kernmodul zur Datenanreicherung (Web, Wikipedia, KI-Analyse).duplicate_checker.py: Ein Modul zur intelligenten Duplikatsprüfung.generate_marketing_text.py: Eine Engine zur Erstellung personalisierter Marketing-Texte.app.py& Docker: Eine fernsteuerbare Schnittstelle via Google Sheets.
2. Aktueller Status: KRITISCHER FEHLER (BLOCKER)
Das gesamte System ist derzeit nicht lauffähig. Ein Inkompatibilitätsproblem zwischen dem bestehenden Code und der installierten Version der openai-Python-Bibliothek führt zu einem ModuleNotFoundError bei jedem Versuch, eine KI-Funktion aufzurufen. Dies verhindert jegliche Weiterentwicklung und Nutzung.
3. Nächster Schritt
Priorität 1: Behebung des openai-Abhängigkeitskonflikts. Die gewählte Strategie ist ein gezieltes Downgrade der openai-Bibliothek auf eine mit dem Code kompatible Version, um die Funktionalität schnellstmöglich wiederherzustellen.
planning.md (v2.2.1)
code
Markdown
Projektplanung v2.2.1
1. Aktueller Stand
- [X] Architektur & Module: Alle Kernmodule sind konzipiert und implementiert.
- [!] System-Blocker: Ein Versionskonflikt der
openai-Bibliothek legt das gesamte System lahm. Alle Funktionen, die auf die KI zugreifen, stürzen mit einemModuleNotFoundErrorab.
2. Strategischer Plan
Phase 1: Stabilität wiederherstellen (Hotfix)
- [ ] Schritt 1.1 (Analyse): Überprüfung aller Code-Stellen, die
openai-Fehlerklassen importieren oder verwenden, um den Umfang des Problems zu bestätigen. - [ ] Schritt 1.2 (Downgrade): Modifikation der
requirements.txt, um dieopenai-Bibliothek auf eine stabile, kompatible Version (z.B.0.28.0) festzuschreiben. - [ ] Schritt 1.3 (Anwendung): Neubau des Docker-Images (
docker build), um die Installation der korrekten Bibliotheksversion zu erzwingen. - [ ] Schritt 1.4 (Validierung): Durchführung eines Testlaufs (z.B.
reclassify_branches), um zu bestätigen, dass derModuleNotFoundErrorbehoben ist und die KI-Aufrufe wieder funktionieren.
Phase 2: Geplante Weiterentwicklung (nach Hotfix)
- [ ] Finalisierung des Duplikats-Checks.
- [ ] Vervollständigung der Wissensbasis und Generierung aller Marketing-Texte.
- [ ] (Zukünftig) Planung des Code-Refactorings, um die neue
openaiv1.x API zu unterstützen.
Automatisierte Unternehmensbewertung & Lead-Generierung
Version: 2.1.0 (nach Implementierung des Sync-Moduls)
Projektbeschreibung
Dieses Projekt automatisiert die Anreicherung von Unternehmensdaten aus einem D365-CRM-System. Es nutzt externe APIs (Google, Wikipedia, OpenAI) und Web-Scraping, um Stammdaten zu validieren, zu ergänzen und neue, marketing-relevante Informationen (z.B. FSM-Pitches) zu generieren. Die Verarbeitung und Speicherung der angereicherten Daten erfolgt in einem Google Sheet.
Aktueller Status (August 2025)
- Systemstabilität: Das System ist nach der Behebung von Inkompatibilitäten mit der OpenAI-Bibliothek stabil und voll lauffähig.
- Daten-Import: Ein robuster, intelligenter Synchronisations-Mechanismus (
sync_manager.py) wurde implementiert. Er gleicht einen vollständigen D365-Excel-Export mit dem Google Sheet ab, aktualisiert Stammdaten nach definierten Fachregeln und markiert Datensätze für die Neu-Anreicherung. - Kernfunktionen: Datenanreicherung (Wikipedia, Website-Scraping) und KI-basierte Analysen (Brancheneinstufung, Text-Zusammenfassungen) sind operational.
- Nächster Schritt: Implementierung des Daten-Exports aus dem Google Sheet zur Aktualisierung des D365-Systems.