Floke aea5d45c7d feat(duplicate-checker): quality-first Matching (Domain-Gate, Location-Penalties, Smart Blocking)
- Domain-Gate: Domain-Score (100) nur, wenn Name >= MIN_NAME_FOR_DOMAIN (default 70) ODER Ort+Land exakt matchen
- Location-Penalties: City-Mismatch -30, Country-Mismatch -40 (wenn Felder befüllt)
- Smart Blocking: Domain-Index -> seltenster Name-Token (Stopwörter gefiltert) -> Prefilter (partial_ratio >= 60, Top 50)
- Name-Score: max(token_set_ratio, partial_ratio, token_sort_ratio) + Name-only Bonus (+20) bei starken Namen
- SerpAPI nur für Matching-Accounts: schreibt "Gefundene Website"; Domain wird NUR bei Vertrauen=hoch genutzt
- Serp-Trust: hoch/mittel/niedrig (Token-Check gegen Domain)
- Transparenz: neue Spalten "Match", "Score", "Match_Grund", "Gefundene Website", "Serp Vertrauen"
- Safe Writeback: Originalspalten bleiben erhalten; interne Felder werden vor Write entfernt
- Logs: Log/{$timestamp}_duplicate_check_v2.13.txt, Summary-Metriken am Ende
- Backup: Log/{$timestamp}_backup_Matching_Accounts.csv

BREAKING CHANGES: none
2025-08-08 06:28:35 +00:00
2025-03-29 18:47:15 +01:00
2025-05-27 12:39:45 +00:00
2025-03-29 18:47:15 +01:00
2025-08-04 12:04:18 +00:00
2025-03-29 18:47:15 +01:00
2025-07-31 09:29:37 +00:00
2025-07-16 12:58:47 +00:00
2025-07-23 10:19:02 +00:00
2025-04-04 17:04:06 +00:00
2025-08-04 09:01:03 +00:00
2025-08-04 09:00:38 +00:00
2025-06-27 11:08:42 +02:00
2025-08-01 10:49:55 +00:00
2025-03-29 18:47:15 +01:00
2025-08-04 09:01:22 +00:00
2025-05-27 12:48:05 +00:00
2025-07-14 08:36:01 +00:00
2025-03-29 18:47:15 +01:00

Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.1.1

1. Projektübersicht

Dieses Repository enthält Python-Skripte zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten. Das Projekt ist in mehrere logische Module aufgeteilt:

  1. Bestandsanreicherung (brancheneinstufung.py):

    • Ziel: Systematische Anreicherung von Unternehmensdaten in einem zentralen Google Sheet.
    • Kernfunktionen: Sammeln von Daten via Web- und Wikipedia-Scraping, KI-gestützte Zusammenfassung, kontextbasierte Brancheneinstufung, und ML-basierte Schätzung von Kennzahlen (z.B. Technikeranzahl).
    • Aktueller Status: Instabil. Kernfunktionen wie die Brancheneinstufung und das ML-Training werfen Fehler und müssen auf der neuen modularen Architektur stabilisiert werden.
  2. Duplikats-Check (duplicate_checker.py):

    • Ziel: Intelligenter Abgleich einer neuen Firmenliste gegen den CRM-Bestand, um Duplikate zu identifizieren.
    • Methode: Regelbasiertes, mehrstufiges Matching, das Firmennamen, Website-Domains und Standorte berücksichtigt.
    • Aktueller Status: In Entwicklung. Mehrere Algorithmen wurden getestet, aber eine finale, stabile Version, die sowohl präzise als auch sensitiv ist, muss noch finalisiert werden.
  3. Marketing-Content-Generierung (generate_marketing_text.py):

    • Ziel: Automatische Erstellung von hochpersonalisierten Textbausteinen für Marketing-Automations-Kampagnen.
    • Methode: Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (marketing_wissen.yaml), um branchen- und positionsspezifische Texte (Betreff, Einleitung, Referenzen) zu erstellen.
    • Aktueller Status: Fortgeschritten, aber blockiert. Die Engine zur Textgenerierung ist entwickelt, hängt aber von einer stabilen Datenbasis und Brancheneinstufung ab.

2. Technische Struktur (v2.1.1)

Das Projekt ist in wiederverwendbare Python-Module aufgeteilt:

  • config.py: Zentrale Konfiguration (API-Keys, URLs, Branchen-Mapping).
  • helpers.py: Globale Hilfsfunktionen (API-Wrapper, Normalisierungsroutinen).
  • google_sheet_handler.py: Klasse zur Kapselung der Google Sheets API-Interaktion.
  • wikipedia_scraper.py: Klasse für das Suchen und Extrahieren von Wikipedia-Daten.
  • data_processor.py: Zentrale Klasse zur Orchestrierung der Datenverarbeitung.
  • brancheneinstufung.py: Hauptskript für die Datenanreicherung.
  • duplicate_checker.py: Hauptskript für den Duplikats-Check.
  • generate_marketing_text.py: Hauptskript zur Textgenerierung.
  • expand_knowledge_base.py: Hilfsskript zum Aufbau der Wissensbasis.

3. Nächster Schritt

Ein vollständiger Code-Review und eine Stabilisierungsphase sind erforderlich. Der nächste Chat wird mit der Übergabe des gesamten Projektstandes beginnen, um eine stabile Baseline wiederherzustellen.

Description
No description provided
Readme 2.8 GiB
Languages
Python 63.6%
TypeScript 19.2%
JavaScript 15.6%
HTML 0.7%
Dockerfile 0.4%
Other 0.5%