diff --git a/readme.md b/readme.md index 2eb9a75e..ed192181 100644 --- a/readme.md +++ b/readme.md @@ -1,37 +1,30 @@ -# Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.1.1 +# Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.2.0 ## 1. Projektübersicht -Dieses Repository enthält Python-Skripte zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten. Das Projekt ist in mehrere logische Module aufgeteilt: +Dieses Repository enthält eine Suite von Python-Skripten zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten, die über eine Weboberfläche in Google Sheets gesteuert werden können. 1. **Bestandsanreicherung (`brancheneinstufung.py`):** - * **Ziel:** Systematische Anreicherung von Unternehmensdaten in einem zentralen Google Sheet. - * **Kernfunktionen:** Sammeln von Daten via Web- und Wikipedia-Scraping, KI-gestützte Zusammenfassung, kontextbasierte Brancheneinstufung, und ML-basierte Schätzung von Kennzahlen (z.B. Technikeranzahl). - * **Aktueller Status:** **Instabil.** Kernfunktionen wie die Brancheneinstufung und das ML-Training werfen Fehler und müssen auf der neuen modularen Architektur stabilisiert werden. + * **Ziel:** Systematische Anreicherung von Unternehmensdaten. + * **Kernfunktionen:** Web/Wikipedia-Scraping, KI-Zusammenfassung, kontextbasierte Brancheneinstufung 2.0 (Batch-fähig & kostenoptimiert), ML-basierte Schätzung der Technikeranzahl. + * **Status:** Weitgehend stabil. Die neue Brancheneinstufung 2.0 ist implementiert. 2. **Duplikats-Check (`duplicate_checker.py`):** - * **Ziel:** Intelligenter Abgleich einer neuen Firmenliste gegen den CRM-Bestand, um Duplikate zu identifizieren. - * **Methode:** Regelbasiertes, mehrstufiges Matching, das Firmennamen, Website-Domains und Standorte berücksichtigt. - * **Aktueller Status:** **In Entwicklung.** Mehrere Algorithmen wurden getestet, aber eine finale, stabile Version, die sowohl präzise als auch sensitiv ist, muss noch finalisiert werden. + * **Ziel:** Intelligenter Abgleich neuer Firmenlisten gegen den CRM-Bestand. + * **Methode:** Robuster, transparenter "Brute-Force"-Abgleich mit gewichtetem Scoring basierend auf Name, Domain und Standort. + * **Status:** **Kritischer Fehler.** Der Prozess läuft durch, aber der finale Schreibvorgang der Ergebnisse ins Google Sheet schlägt fehl. **Dies ist der unmittelbar zu behebende Blocker.** 3. **Marketing-Content-Generierung (`generate_marketing_text.py`):** - * **Ziel:** Automatische Erstellung von hochpersonalisierten Textbausteinen für Marketing-Automations-Kampagnen. - * **Methode:** Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (`marketing_wissen.yaml`), um branchen- und positionsspezifische Texte (Betreff, Einleitung, Referenzen) zu erstellen. - * **Aktueller Status:** **Fortgeschritten, aber blockiert.** Die Engine zur Textgenerierung ist entwickelt, hängt aber von einer stabilen Datenbasis und Brancheneinstufung ab. + * **Ziel:** Automatische Erstellung von hochpersonalisierten E-Mail-Textbausteinen. + * **Methode:** Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (`marketing_wissen.yaml`), um branchen- und positionsspezifische Texte zu erstellen. + * **Status:** Funktional. Die Wissensbasis muss noch für alle Branchen vervollständigt werden. -## 2. Technische Struktur (v2.1.1) +4. **Remote-Steuerung (`app.py` & Docker):** + * **Ziel:** Bereitstellung einer benutzerfreundlichen Oberfläche in Google Sheets. + * **Methode:** Ein Docker-Container betreibt einen Flask-Webserver und einen `ngrok`-Tunnel, der Anfragen aus einem Google Apps Script empfängt und die lokalen Python-Skripte startet. + * **Status:** Funktional. Für den produktiven Einsatz ist eine permanente `ngrok`-URL (Paid Plan) erforderlich. -Das Projekt ist in wiederverwendbare Python-Module aufgeteilt: -* `config.py`: Zentrale Konfiguration (API-Keys, URLs, Branchen-Mapping). -* `helpers.py`: Globale Hilfsfunktionen (API-Wrapper, Normalisierungsroutinen). -* `google_sheet_handler.py`: Klasse zur Kapselung der Google Sheets API-Interaktion. -* `wikipedia_scraper.py`: Klasse für das Suchen und Extrahieren von Wikipedia-Daten. -* `data_processor.py`: Zentrale Klasse zur Orchestrierung der Datenverarbeitung. -* `brancheneinstufung.py`: Hauptskript für die Datenanreicherung. -* `duplicate_checker.py`: Hauptskript für den Duplikats-Check. -* `generate_marketing_text.py`: Hauptskript zur Textgenerierung. -* `expand_knowledge_base.py`: Hilfsskript zum Aufbau der Wissensbasis. - -## 3. Nächster Schritt - -Ein **vollständiger Code-Review und eine Stabilisierungsphase** sind erforderlich. Der nächste Chat wird mit der Übergabe des gesamten Projektstandes beginnen, um eine stabile Baseline wiederherzustellen. \ No newline at end of file +## 2. Nächste Schritte +**Priorität 1:** Behebung des Schreibfehlers im `duplicate_checker.py`. +**Priorität 2:** Finalisierung der Wissensbasis und Generierung aller Marketing-Texte. +**Priorität 3:** Umstellung auf eine permanente `ngrok`-URL für den produktiven Betrieb. \ No newline at end of file