Go to file

Floke aea5d45c7d feat(duplicate-checker): quality-first Matching (Domain-Gate, Location-Penalties, Smart Blocking)

- Domain-Gate: Domain-Score (100) nur, wenn Name >= MIN_NAME_FOR_DOMAIN (default 70) ODER Ort+Land exakt matchen
- Location-Penalties: City-Mismatch -30, Country-Mismatch -40 (wenn Felder befüllt)
- Smart Blocking: Domain-Index -> seltenster Name-Token (Stopwörter gefiltert) -> Prefilter (partial_ratio >= 60, Top 50)
- Name-Score: max(token_set_ratio, partial_ratio, token_sort_ratio) + Name-only Bonus (+20) bei starken Namen
- SerpAPI nur für Matching-Accounts: schreibt "Gefundene Website"; Domain wird NUR bei Vertrauen=hoch genutzt
- Serp-Trust: hoch/mittel/niedrig (Token-Check gegen Domain)
- Transparenz: neue Spalten "Match", "Score", "Match_Grund", "Gefundene Website", "Serp Vertrauen"
- Safe Writeback: Originalspalten bleiben erhalten; interne Felder werden vor Write entfernt
- Logs: Log/{$timestamp}_duplicate_check_v2.13.txt, Summary-Metriken am Ende
- Backup: Log/{$timestamp}_backup_Matching_Accounts.csv

BREAKING CHANGES: none

2025-08-08 06:28:35 +00:00

@eaDir

Erste Version

2025-03-29 18:47:15 +01:00

templates

templates/index.html hinzugefügt

2025-05-27 12:29:05 +00:00

app.py

app.py aktualisiert

2025-05-27 12:39:45 +00:00

Bestandsfirmen.xlsx

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung2.py

bugfix

2025-08-04 12:04:18 +00:00

brancheneinstufung - Kopie.py

Erste Version

2025-03-29 18:47:15 +01:00

build_knowledge_base.py

build_knowledge_base.py hinzugefügt

2025-07-29 11:27:23 +00:00

config.py

Ergänzung Fallback

2025-07-31 09:29:37 +00:00

data_processor.py

added Is part of a group to reeval

2025-08-05 06:06:32 +00:00

dealfront_enrichment.py

dealfront_enrichment.py aktualisiert

2025-07-14 08:17:41 +00:00

debug_screenshot.py

debug_screenshot.py aktualisiert

2025-07-05 21:15:45 +00:00

Dockerfile

Dockerfile aktualisiert

2025-07-16 12:58:47 +00:00

duplicate_checker.py

feat(duplicate-checker): quality-first Matching (Domain-Gate, Location-Penalties, Smart Blocking)

2025-08-08 06:28:35 +00:00

expand_knowledge_base.py

Anpassung Extraction Prompt

2025-07-23 15:26:23 +00:00

extract_insights.py

extract_insights.py aktualisiert

2025-07-16 08:06:30 +00:00

generate_knowledge_base.py

generate_knowledge_base.py hinzugefügt

2025-07-15 19:32:00 +00:00

generate_marketing_text.py

Fallback wenn keine Referenzen vorhanden

2025-07-31 09:30:51 +00:00

google_sheet_handler.py

v2.0.1: feat: Implement modular versioning

2025-08-04 09:48:16 +00:00

HA_automations.yaml

HA_automations.yaml aktualisiert

2025-07-23 10:10:59 +00:00

HA_configuration.yaml

HA_configuration.yaml hinzugefügt

2025-07-23 10:10:39 +00:00

HA_jbd_bms.yaml

HA_jbd_bms.yaml hinzugefügt

2025-07-23 10:19:02 +00:00

helpers.py

evaluate_branche_chatgpt wieder ergänzt

2025-08-04 17:28:12 +00:00

Labyrinth.py

Font changed

2025-04-04 17:04:06 +00:00

list_generator.py

list_generator.py aktualisiert

2025-06-29 14:53:15 +00:00

marketing_wissen.yaml

marketing_wissen.yaml aktualisiert

2025-07-21 16:03:05 +00:00

old_brancheneinstufung.py

old_brancheneinstufung.py aktualisiert

2025-08-04 12:02:19 +00:00

planning.md

planning.md hinzugefügt

2025-08-04 09:01:03 +00:00

readme.md

readme.md hinzugefügt

2025-08-04 09:00:38 +00:00

reindent.py

Add reindent.py script

2025-06-27 11:08:42 +02:00

requirements.txt

requirements.txt aktualisiert

2025-08-01 10:49:55 +00:00

scrape_fotograf.py

Code-Karte beim Zählen der Downloads ausgeschlossen

2025-07-17 11:11:34 +00:00

service_account.json

Erste Version

2025-03-29 18:47:15 +01:00

take_screenshot.sh

take_screenshot.sh hinzugefügt

2025-07-05 20:37:16 +00:00

tasks.md

tasks.md hinzugefügt

2025-08-04 09:01:22 +00:00

test_core_functionality.py

test_core_functionality.py hinzugefügt

2025-08-04 09:37:04 +00:00

test_pytube.py

test_pytube.py aktualisiert

2025-05-27 12:48:05 +00:00

test_selenium.py

test_selenium.py hinzugefügt

2025-07-14 08:36:01 +00:00

update.log

Erste Version

2025-03-29 18:47:15 +01:00

wikipedia_scraper.py

v2.0.2: feat: Implement Google-First Wikipedia Search

2025-08-04 18:39:16 +00:00

readme.md

Projekt: Automatisierte Unternehmensbewertung & Lead-Generierung v2.1.1

1. Projektübersicht

Dieses Repository enthält Python-Skripte zur automatisierten Anreicherung, Analyse und Nutzung von Unternehmensdaten. Das Projekt ist in mehrere logische Module aufgeteilt:

Bestandsanreicherung (brancheneinstufung.py):
- Ziel: Systematische Anreicherung von Unternehmensdaten in einem zentralen Google Sheet.
- Kernfunktionen: Sammeln von Daten via Web- und Wikipedia-Scraping, KI-gestützte Zusammenfassung, kontextbasierte Brancheneinstufung, und ML-basierte Schätzung von Kennzahlen (z.B. Technikeranzahl).
- Aktueller Status: Instabil. Kernfunktionen wie die Brancheneinstufung und das ML-Training werfen Fehler und müssen auf der neuen modularen Architektur stabilisiert werden.
Duplikats-Check (duplicate_checker.py):
- Ziel: Intelligenter Abgleich einer neuen Firmenliste gegen den CRM-Bestand, um Duplikate zu identifizieren.
- Methode: Regelbasiertes, mehrstufiges Matching, das Firmennamen, Website-Domains und Standorte berücksichtigt.
- Aktueller Status: In Entwicklung. Mehrere Algorithmen wurden getestet, aber eine finale, stabile Version, die sowohl präzise als auch sensitiv ist, muss noch finalisiert werden.
Marketing-Content-Generierung (generate_marketing_text.py):
- Ziel: Automatische Erstellung von hochpersonalisierten Textbausteinen für Marketing-Automations-Kampagnen.
- Methode: Nutzt eine reichhaltige, teils KI-generierte Wissensbasis (marketing_wissen.yaml), um branchen- und positionsspezifische Texte (Betreff, Einleitung, Referenzen) zu erstellen.
- Aktueller Status: Fortgeschritten, aber blockiert. Die Engine zur Textgenerierung ist entwickelt, hängt aber von einer stabilen Datenbasis und Brancheneinstufung ab.

2. Technische Struktur (v2.1.1)

Das Projekt ist in wiederverwendbare Python-Module aufgeteilt:

config.py: Zentrale Konfiguration (API-Keys, URLs, Branchen-Mapping).
helpers.py: Globale Hilfsfunktionen (API-Wrapper, Normalisierungsroutinen).
google_sheet_handler.py: Klasse zur Kapselung der Google Sheets API-Interaktion.
wikipedia_scraper.py: Klasse für das Suchen und Extrahieren von Wikipedia-Daten.
data_processor.py: Zentrale Klasse zur Orchestrierung der Datenverarbeitung.
brancheneinstufung.py: Hauptskript für die Datenanreicherung.
duplicate_checker.py: Hauptskript für den Duplikats-Check.
generate_marketing_text.py: Hauptskript zur Textgenerierung.
expand_knowledge_base.py: Hilfsskript zum Aufbau der Wissensbasis.

3. Nächster Schritt

Ein vollständiger Code-Review und eine Stabilisierungsphase sind erforderlich. Der nächste Chat wird mit der Übergabe des gesamten Projektstandes beginnen, um eine stabile Baseline wiederherzustellen.

Languages

Python 61.8%

TypeScript 20.2%

JavaScript 14.5%

HTML 2.5%

Dockerfile 0.4%

Other 0.6%