aea5d45c7d7906c04d5f39d4d88953d355c72fca
- Domain-Gate: Domain-Score (100) nur, wenn Name >= MIN_NAME_FOR_DOMAIN (default 70) ODER Ort+Land exakt matchen
- Location-Penalties: City-Mismatch -30, Country-Mismatch -40 (wenn Felder befüllt)
- Smart Blocking: Domain-Index -> seltenster Name-Token (Stopwörter gefiltert) -> Prefilter (partial_ratio >= 60, Top 50)
- Name-Score: max(token_set_ratio, partial_ratio, token_sort_ratio) + Name-only Bonus (+20) bei starken Namen
- SerpAPI nur für Matching-Accounts: schreibt "Gefundene Website"; Domain wird NUR bei Vertrauen=hoch genutzt
- Serp-Trust: hoch/mittel/niedrig (Token-Check gegen Domain)
- Transparenz: neue Spalten "Match", "Score", "Match_Grund", "Gefundene Website", "Serp Vertrauen"
- Safe Writeback: Originalspalten bleiben erhalten; interne Felder werden vor Write entfernt
- Logs: Log/{$timestamp}_duplicate_check_v2.13.txt, Summary-Metriken am Ende
- Backup: Log/{$timestamp}_backup_Matching_Accounts.csv
BREAKING CHANGES: none
Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.1.1
1. Projektübersicht
Dieses Repository enthält Python-Skripte zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten. Das Projekt ist in mehrere logische Module aufgeteilt:
-
Bestandsanreicherung (
brancheneinstufung.py):- Ziel: Systematische Anreicherung von Unternehmensdaten in einem zentralen Google Sheet.
- Kernfunktionen: Sammeln von Daten via Web- und Wikipedia-Scraping, KI-gestützte Zusammenfassung, kontextbasierte Brancheneinstufung, und ML-basierte Schätzung von Kennzahlen (z.B. Technikeranzahl).
- Aktueller Status: Instabil. Kernfunktionen wie die Brancheneinstufung und das ML-Training werfen Fehler und müssen auf der neuen modularen Architektur stabilisiert werden.
-
Duplikats-Check (
duplicate_checker.py):- Ziel: Intelligenter Abgleich einer neuen Firmenliste gegen den CRM-Bestand, um Duplikate zu identifizieren.
- Methode: Regelbasiertes, mehrstufiges Matching, das Firmennamen, Website-Domains und Standorte berücksichtigt.
- Aktueller Status: In Entwicklung. Mehrere Algorithmen wurden getestet, aber eine finale, stabile Version, die sowohl präzise als auch sensitiv ist, muss noch finalisiert werden.
-
Marketing-Content-Generierung (
generate_marketing_text.py):- Ziel: Automatische Erstellung von hochpersonalisierten Textbausteinen für Marketing-Automations-Kampagnen.
- Methode: Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (
marketing_wissen.yaml), um branchen- und positionsspezifische Texte (Betreff, Einleitung, Referenzen) zu erstellen. - Aktueller Status: Fortgeschritten, aber blockiert. Die Engine zur Textgenerierung ist entwickelt, hängt aber von einer stabilen Datenbasis und Brancheneinstufung ab.
2. Technische Struktur (v2.1.1)
Das Projekt ist in wiederverwendbare Python-Module aufgeteilt:
config.py: Zentrale Konfiguration (API-Keys, URLs, Branchen-Mapping).helpers.py: Globale Hilfsfunktionen (API-Wrapper, Normalisierungsroutinen).google_sheet_handler.py: Klasse zur Kapselung der Google Sheets API-Interaktion.wikipedia_scraper.py: Klasse für das Suchen und Extrahieren von Wikipedia-Daten.data_processor.py: Zentrale Klasse zur Orchestrierung der Datenverarbeitung.brancheneinstufung.py: Hauptskript für die Datenanreicherung.duplicate_checker.py: Hauptskript für den Duplikats-Check.generate_marketing_text.py: Hauptskript zur Textgenerierung.expand_knowledge_base.py: Hilfsskript zum Aufbau der Wissensbasis.
3. Nächster Schritt
Ein vollständiger Code-Review und eine Stabilisierungsphase sind erforderlich. Der nächste Chat wird mit der Übergabe des gesamten Projektstandes beginnen, um eine stabile Baseline wiederherzustellen.
Description
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%