bb7710d8a1
duplicate_checker.py aktualisiert
2025-08-08 06:31:57 +00:00
2a7d546713
feat(duplicate-checker): quality-first Matching (Domain-Gate, Location-Penalties, Smart Blocking)
...
- Domain-Gate: Domain-Score (100) nur, wenn Name >= MIN_NAME_FOR_DOMAIN (default 70) ODER Ort+Land exakt matchen
- Location-Penalties: City-Mismatch -30, Country-Mismatch -40 (wenn Felder befüllt)
- Smart Blocking: Domain-Index -> seltenster Name-Token (Stopwörter gefiltert) -> Prefilter (partial_ratio >= 60, Top 50)
- Name-Score: max(token_set_ratio, partial_ratio, token_sort_ratio) + Name-only Bonus (+20) bei starken Namen
- SerpAPI nur für Matching-Accounts: schreibt "Gefundene Website"; Domain wird NUR bei Vertrauen=hoch genutzt
- Serp-Trust: hoch/mittel/niedrig (Token-Check gegen Domain)
- Transparenz: neue Spalten "Match", "Score", "Match_Grund", "Gefundene Website", "Serp Vertrauen"
- Safe Writeback: Originalspalten bleiben erhalten; interne Felder werden vor Write entfernt
- Logs: Log/{$timestamp}_duplicate_check_v2.13.txt, Summary-Metriken am Ende
- Backup: Log/{$timestamp}_backup_Matching_Accounts.csv
BREAKING CHANGES: none
2025-08-08 06:28:35 +00:00
07630e4de1
duplicate_checker.py aktualisiert
2025-08-08 06:11:37 +00:00
526302c96f
duplicate_checker.py aktualisiert
2025-08-08 06:07:04 +00:00
0ecf8aa9f4
duplicate_checker.py aktualisiert
2025-08-08 06:00:19 +00:00
ec4fc642ff
url_check nur für matching
2025-08-08 05:43:45 +00:00
d607e442f1
url check ergänzt
2025-08-08 05:34:32 +00:00
6b7d321811
duplicate_checker.py aktualisiert
2025-08-06 14:04:03 +00:00
6e5e4364c0
duplicate_checker.py aktualisiert
2025-08-06 13:50:38 +00:00
7263755f83
duplicate_checker.py aktualisiert
2025-08-06 13:39:30 +00:00
3f8a05f349
duplicate_checker.py aktualisiert
2025-08-06 13:35:25 +00:00
9362c47ab7
duplicate_checker.py aktualisiert
2025-08-06 13:28:50 +00:00
e11b96aee3
duplicate_checker.py aktualisiert
2025-08-06 13:19:44 +00:00
f890eebaa1
duplicate_checker.py aktualisiert
2025-08-06 13:11:09 +00:00
39016bff94
duplicate_checker.py aktualisiert
2025-08-06 12:50:12 +00:00
33c4ee187a
duplicate_checker.py aktualisiert
2025-08-06 12:42:02 +00:00
97b640fff5
duplicate_checker.py aktualisiert
2025-08-06 11:37:35 +00:00
1d8a067746
duplicate_checker.py aktualisiert
2025-08-06 10:32:38 +00:00
722fd8fb9a
Add Logging
2025-08-06 09:31:33 +00:00
555d9dcbfc
duplicate_checker.py aktualisiert
2025-08-06 09:08:12 +00:00
42e09ed7ad
duplicate_checker.py aktualisiert
2025-08-06 09:07:10 +00:00
1c55039404
duplicate_checker.py aktualisiert
2025-08-06 09:06:07 +00:00
8cf8929308
duplicate_checker.py aktualisiert
2025-08-06 05:59:05 +00:00
f96ceb65f9
duplicate_checker.py aktualisiert
2025-08-06 05:45:15 +00:00
dedb647e19
duplicate_checker.py aktualisiert
2025-08-05 15:54:08 +00:00
6cf123d98e
duplicate_checker.py aktualisiert
2025-08-05 14:38:52 +00:00
4cb3e12c21
duplicate_checker.py aktualisiert
2025-08-05 14:36:25 +00:00
0bdea85563
duplicate_checker.py aktualisiert
2025-08-05 14:34:08 +00:00
a933423638
duplicate_checker.py aktualisiert
2025-08-05 14:30:02 +00:00
dc8c338b96
chat GPT version
2025-08-05 14:27:07 +00:00
fcf05cd2a6
added Is part of a group to reeval
2025-08-05 06:06:32 +00:00
5018d2c819
v2.0.4: refactor: Integrate Google-First Wikipedia logic
...
- Umbau von `_process_single_row` im DataProcessor zur Nutzung der neuen Such- und Validierungslogik.
- Anpassung der an `search_company_article` übergebenen Parameter.
- Härtung der Wikipedia-Pipeline gegen fehlgeschlagene Suchen oder Validierungen.
2025-08-04 18:43:16 +00:00
5137e5d22e
v2.0.2: feat: Implement Google-First Wikipedia Search
...
- Erstellung einer robusten `serp_wikipedia_lookup`-Funktion im WikipediaScraper.
- Verbesserung der `_validate_article`-Logik um harte Fakten (Domain, Sitz).
- Anpassung von `search_company_article` zur Nutzung der neuen "Google-First"-Strategie.
2025-08-04 18:39:16 +00:00
4e67a07c58
data_processor.py aktualisiert
2025-08-04 17:52:51 +00:00
2d8427d7f4
data_processor.py aktualisiert
2025-08-04 17:35:18 +00:00
cd515feaa2
data_processor.py aktualisiert
2025-08-04 17:32:23 +00:00
fa4f64dadd
data_processor.py aktualisiert
2025-08-04 17:29:55 +00:00
aad8e81150
evaluate_branche_chatgpt wieder ergänzt
2025-08-04 17:28:12 +00:00
aaa6db7873
entferne def evaluate_branche_chatgpt
2025-08-04 17:19:21 +00:00
34ce2c5d32
data_processor.py aktualisiert
...
Regex suche "self\.sheet_handler\._get_col_letter" replace by "_get_col_letter"
2025-08-04 17:07:07 +00:00
459acedcb1
data_processor.py aktualisiert
2025-08-04 16:44:27 +00:00
928ec894c9
data_processor.py aktualisiert
2025-08-04 15:19:32 +00:00
63db586211
data_processor.py aktualisiert
2025-08-04 15:13:08 +00:00
bdc6c4e7b4
data_processor.py aktualisiert
2025-08-04 14:29:46 +00:00
d0c66f9115
data_processor.py aktualisiert
2025-08-04 14:28:30 +00:00
f4e02b26a4
data_processor.py aktualisiert
2025-08-04 14:24:59 +00:00
87d434db8e
data_processor.py aktualisiert
2025-08-04 14:23:29 +00:00
7f38767eac
data_processor.py aktualisiert
2025-08-04 14:13:50 +00:00
fc19359709
data_processor.py aktualisiert
2025-08-04 14:13:15 +00:00
a8b6e50c7f
data_processor.py aktualisiert
2025-08-04 14:12:29 +00:00