diff --git a/readme.md b/readme.md new file mode 100644 index 00000000..2eb9a75e --- /dev/null +++ b/readme.md @@ -0,0 +1,37 @@ +# Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.1.1 + +## 1. Projektübersicht + +Dieses Repository enthält Python-Skripte zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten. Das Projekt ist in mehrere logische Module aufgeteilt: + +1. **Bestandsanreicherung (`brancheneinstufung.py`):** + * **Ziel:** Systematische Anreicherung von Unternehmensdaten in einem zentralen Google Sheet. + * **Kernfunktionen:** Sammeln von Daten via Web- und Wikipedia-Scraping, KI-gestützte Zusammenfassung, kontextbasierte Brancheneinstufung, und ML-basierte Schätzung von Kennzahlen (z.B. Technikeranzahl). + * **Aktueller Status:** **Instabil.** Kernfunktionen wie die Brancheneinstufung und das ML-Training werfen Fehler und müssen auf der neuen modularen Architektur stabilisiert werden. + +2. **Duplikats-Check (`duplicate_checker.py`):** + * **Ziel:** Intelligenter Abgleich einer neuen Firmenliste gegen den CRM-Bestand, um Duplikate zu identifizieren. + * **Methode:** Regelbasiertes, mehrstufiges Matching, das Firmennamen, Website-Domains und Standorte berücksichtigt. + * **Aktueller Status:** **In Entwicklung.** Mehrere Algorithmen wurden getestet, aber eine finale, stabile Version, die sowohl präzise als auch sensitiv ist, muss noch finalisiert werden. + +3. **Marketing-Content-Generierung (`generate_marketing_text.py`):** + * **Ziel:** Automatische Erstellung von hochpersonalisierten Textbausteinen für Marketing-Automations-Kampagnen. + * **Methode:** Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (`marketing_wissen.yaml`), um branchen- und positionsspezifische Texte (Betreff, Einleitung, Referenzen) zu erstellen. + * **Aktueller Status:** **Fortgeschritten, aber blockiert.** Die Engine zur Textgenerierung ist entwickelt, hängt aber von einer stabilen Datenbasis und Brancheneinstufung ab. + +## 2. Technische Struktur (v2.1.1) + +Das Projekt ist in wiederverwendbare Python-Module aufgeteilt: +* `config.py`: Zentrale Konfiguration (API-Keys, URLs, Branchen-Mapping). +* `helpers.py`: Globale Hilfsfunktionen (API-Wrapper, Normalisierungsroutinen). +* `google_sheet_handler.py`: Klasse zur Kapselung der Google Sheets API-Interaktion. +* `wikipedia_scraper.py`: Klasse für das Suchen und Extrahieren von Wikipedia-Daten. +* `data_processor.py`: Zentrale Klasse zur Orchestrierung der Datenverarbeitung. +* `brancheneinstufung.py`: Hauptskript für die Datenanreicherung. +* `duplicate_checker.py`: Hauptskript für den Duplikats-Check. +* `generate_marketing_text.py`: Hauptskript zur Textgenerierung. +* `expand_knowledge_base.py`: Hilfsskript zum Aufbau der Wissensbasis. + +## 3. Nächster Schritt + +Ein **vollständiger Code-Review und eine Stabilisierungsphase** sind erforderlich. Der nächste Chat wird mit der Übergabe des gesamten Projektstandes beginnen, um eine stabile Baseline wiederherzustellen. \ No newline at end of file