Commit Graph

1267 Commits

Author SHA1 Message Date
cf0c95c63b duplicate_checker.py aktualisiert 2025-08-18 13:34:29 +00:00
a588be2ea7 tasks.md aktualisiert 2025-08-18 12:48:54 +00:00
866715e3f5 planning.md aktualisiert 2025-08-18 12:48:37 +00:00
6b38938d5d readme.md aktualisiert 2025-08-18 12:48:19 +00:00
0c8a0582af duplicate_checker.py aktualisiert 2025-08-18 12:48:05 +00:00
f1161d258a duplicate_checker.py aktualisiert 2025-08-18 12:27:31 +00:00
1739bdb294 duplicate_checker.py aktualisiert 2025-08-18 12:11:35 +00:00
3dc48870be duplicate_checker.py aktualisiert 2025-08-18 11:32:37 +00:00
75015b1ead app.py aktualisiert 2025-08-18 11:25:50 +00:00
11380cdb61 Dockerfile.brancheneinstufung aktualisiert 2025-08-18 11:08:39 +00:00
8ce80f2d91 start.sh hinzugefügt 2025-08-18 11:04:28 +00:00
7bfbc36c46 app.py aktualisiert 2025-08-18 10:58:02 +00:00
333571405a Dockerfile.brancheneinstufung aktualisiert 2025-08-18 10:38:34 +00:00
99dba80f5c app.py aktualisiert 2025-08-18 10:09:10 +00:00
e4a3815c8e Dockerfile.brancheneinstufung aktualisiert 2025-08-18 10:03:15 +00:00
792604be59 app.py aktualisiert 2025-08-18 09:45:15 +00:00
ff340fa8af app.py aktualisiert 2025-08-18 09:39:05 +00:00
d1444b88a5 helpers.py aktualisiert 2025-08-18 09:15:33 +00:00
9e74e6fa5f duplicate_checker.py aktualisiert 2025-08-18 08:39:27 +00:00
ae78da320a app.py aktualisiert 2025-08-18 08:28:26 +00:00
00f3dde9e0 Dockerfile.brancheneinstufung aktualisiert 2025-08-18 07:22:58 +00:00
fd80c5ad27 app.py aktualisiert 2025-08-18 07:20:29 +00:00
c111136f57 requirements.txt aktualisiert 2025-08-18 07:19:27 +00:00
665fca8fa7 Dockerfile.brancheneinstufung aktualisiert 2025-08-18 06:38:00 +00:00
d62a8e8804 ngrok_authtoken.txt hinzugefügt 2025-08-18 06:26:31 +00:00
7029b6feff requirements.txt aktualisiert 2025-08-18 06:09:39 +00:00
91c9e23253 Dockerfile.brancheneinstufung hinzugefügt 2025-08-18 06:08:54 +00:00
253a10dc29 app.py aktualisiert 2025-08-08 12:17:55 +00:00
5cf6b69729 app.py aktualisiert 2025-08-08 12:07:11 +00:00
b168a081af app.py aktualisiert 2025-08-08 08:40:10 +00:00
f378546787 feat(duplicate-checker): Quality-first++ – Domain-Gate, Location-Penalties, Smart Blocking (IDF-ligh
- Domain-Gate: Domain (100) zählt nur, wenn Name >= MIN_NAME_FOR_DOMAIN (70) ODER (City & Country) matchen
- Location-Penalties: City-Mismatch -30, Country-Mismatch -40 (nur wenn Felder befüllt)
- Name-Scoring: max(token_set, partial, token_sort) auf bereinigten Tokens (Stopwörter + City-Tokens)
- City-Bias-Guard: City-only Overlap -> Name-Score Cap auf 70
- Rare-Token-Check (IDF-light): Name-only-Matches brauchen seltenen Token-Overlap
- Weak-Threshold: 95, wenn weder Domain_used noch (City & Country) matchen
- Smart Blocking: Domain-Index -> seltenster Token -> Prefilter (partial>=70, Top 30, nur wenn seltenster Token im Kandidaten vorkommt)
- SerpAPI: nur für Matching-Accounts und nur wenn B/E leer; schreibt „Gefundene Website“ + „Serp Vertrauen“, Domain-100 nur bei Vertrauen=hoch
- Output: neue Spalten „Gefundene Website“, „Serp Vertrauen“, „Match“, „Score“, „Match_Grund“
- Writeback: SAFE (alle Originalspalten), interne Felder werden gedroppt + CSV-Backup
- Logging: Log/{timestamp}_duplicate_check_v2.15.txt, Summary-Metriken am Ende
2025-08-08 07:40:50 +00:00
4a38edacc0 duplicate_checker.py aktualisiert 2025-08-08 06:35:24 +00:00
9539fa1fb9 duplicate_checker.py aktualisiert 2025-08-08 06:31:57 +00:00
8f6dae18dd feat(duplicate-checker): quality-first Matching (Domain-Gate, Location-Penalties, Smart Blocking)
- Domain-Gate: Domain-Score (100) nur, wenn Name >= MIN_NAME_FOR_DOMAIN (default 70) ODER Ort+Land exakt matchen
- Location-Penalties: City-Mismatch -30, Country-Mismatch -40 (wenn Felder befüllt)
- Smart Blocking: Domain-Index -> seltenster Name-Token (Stopwörter gefiltert) -> Prefilter (partial_ratio >= 60, Top 50)
- Name-Score: max(token_set_ratio, partial_ratio, token_sort_ratio) + Name-only Bonus (+20) bei starken Namen
- SerpAPI nur für Matching-Accounts: schreibt "Gefundene Website"; Domain wird NUR bei Vertrauen=hoch genutzt
- Serp-Trust: hoch/mittel/niedrig (Token-Check gegen Domain)
- Transparenz: neue Spalten "Match", "Score", "Match_Grund", "Gefundene Website", "Serp Vertrauen"
- Safe Writeback: Originalspalten bleiben erhalten; interne Felder werden vor Write entfernt
- Logs: Log/{$timestamp}_duplicate_check_v2.13.txt, Summary-Metriken am Ende
- Backup: Log/{$timestamp}_backup_Matching_Accounts.csv

BREAKING CHANGES: none
2025-08-08 06:28:35 +00:00
090733ea58 duplicate_checker.py aktualisiert 2025-08-08 06:11:37 +00:00
a080d7328b duplicate_checker.py aktualisiert 2025-08-08 06:07:04 +00:00
8fa0c0f37b duplicate_checker.py aktualisiert 2025-08-08 06:00:19 +00:00
106a015acf url_check nur für matching 2025-08-08 05:43:45 +00:00
8b5148c59e url check ergänzt 2025-08-08 05:34:32 +00:00
b9bbab59bf duplicate_checker.py aktualisiert 2025-08-06 14:04:03 +00:00
65c3f4dd85 duplicate_checker.py aktualisiert 2025-08-06 13:50:38 +00:00
9b8bcf292d duplicate_checker.py aktualisiert 2025-08-06 13:39:30 +00:00
f594a54fbf duplicate_checker.py aktualisiert 2025-08-06 13:35:25 +00:00
4c38af9781 duplicate_checker.py aktualisiert 2025-08-06 13:28:50 +00:00
695973e679 duplicate_checker.py aktualisiert 2025-08-06 13:19:44 +00:00
9b1a869c74 duplicate_checker.py aktualisiert 2025-08-06 13:11:09 +00:00
1a84e10c6c duplicate_checker.py aktualisiert 2025-08-06 12:50:12 +00:00
4a015844f7 duplicate_checker.py aktualisiert 2025-08-06 12:42:02 +00:00
c216b24024 duplicate_checker.py aktualisiert 2025-08-06 11:37:35 +00:00
786086a6e9 duplicate_checker.py aktualisiert 2025-08-06 10:32:38 +00:00