Files
Brancheneinstufung2/readme.md
2025-08-04 09:00:38 +00:00

2.8 KiB

Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.1.1

1. Projektübersicht

Dieses Repository enthält Python-Skripte zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten. Das Projekt ist in mehrere logische Module aufgeteilt:

  1. Bestandsanreicherung (brancheneinstufung.py):

    • Ziel: Systematische Anreicherung von Unternehmensdaten in einem zentralen Google Sheet.
    • Kernfunktionen: Sammeln von Daten via Web- und Wikipedia-Scraping, KI-gestützte Zusammenfassung, kontextbasierte Brancheneinstufung, und ML-basierte Schätzung von Kennzahlen (z.B. Technikeranzahl).
    • Aktueller Status: Instabil. Kernfunktionen wie die Brancheneinstufung und das ML-Training werfen Fehler und müssen auf der neuen modularen Architektur stabilisiert werden.
  2. Duplikats-Check (duplicate_checker.py):

    • Ziel: Intelligenter Abgleich einer neuen Firmenliste gegen den CRM-Bestand, um Duplikate zu identifizieren.
    • Methode: Regelbasiertes, mehrstufiges Matching, das Firmennamen, Website-Domains und Standorte berücksichtigt.
    • Aktueller Status: In Entwicklung. Mehrere Algorithmen wurden getestet, aber eine finale, stabile Version, die sowohl präzise als auch sensitiv ist, muss noch finalisiert werden.
  3. Marketing-Content-Generierung (generate_marketing_text.py):

    • Ziel: Automatische Erstellung von hochpersonalisierten Textbausteinen für Marketing-Automations-Kampagnen.
    • Methode: Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (marketing_wissen.yaml), um branchen- und positionsspezifische Texte (Betreff, Einleitung, Referenzen) zu erstellen.
    • Aktueller Status: Fortgeschritten, aber blockiert. Die Engine zur Textgenerierung ist entwickelt, hängt aber von einer stabilen Datenbasis und Brancheneinstufung ab.

2. Technische Struktur (v2.1.1)

Das Projekt ist in wiederverwendbare Python-Module aufgeteilt:

  • config.py: Zentrale Konfiguration (API-Keys, URLs, Branchen-Mapping).
  • helpers.py: Globale Hilfsfunktionen (API-Wrapper, Normalisierungsroutinen).
  • google_sheet_handler.py: Klasse zur Kapselung der Google Sheets API-Interaktion.
  • wikipedia_scraper.py: Klasse für das Suchen und Extrahieren von Wikipedia-Daten.
  • data_processor.py: Zentrale Klasse zur Orchestrierung der Datenverarbeitung.
  • brancheneinstufung.py: Hauptskript für die Datenanreicherung.
  • duplicate_checker.py: Hauptskript für den Duplikats-Check.
  • generate_marketing_text.py: Hauptskript zur Textgenerierung.
  • expand_knowledge_base.py: Hilfsskript zum Aufbau der Wissensbasis.

3. Nächster Schritt

Ein vollständiger Code-Review und eine Stabilisierungsphase sind erforderlich. Der nächste Chat wird mit der Übergabe des gesamten Projektstandes beginnen, um eine stabile Baseline wiederherzustellen.