- Spalte 'Parent Account' wird geladen und normalisiert
- 'calculate_similarity' erkennt Parent-Child-Beziehungen und markiert diese
- 'run_internal_deduplication' ignoriert bekannte Hierarchien bei der Duplikatsfindung
- Neue Spalte 'Duplicate_Hint' für Hinweise auf fehlende Parent Accounts hinzugefügt
- Skript zu company_deduplicator.py umbenannt mit Erhalt der Git-Historie
- Hauptlogik in externen und internen Modus refaktorisiert
- Interaktive Modus-Auswahl für den Benutzer hinzugefügt
- Interne Deduplizierung zum Finden von Duplikaten innerhalb der CRM-Liste implementiert
- Logik zur Gruppierung von Duplikatspaaren zu eindeutigen Clustern hinzugefügt
- Eindeutige Dup_XXXX IDs den Duplikatsgruppen zugewiesen
- Neue Spalte Duplicate_ID zurück in das Google Sheet geschrieben
- Ersetzt starre Namensprüfung durch flexible Token-basierte Validierung
- Erhöht die Trefferquote für Firmennamen, die nicht exakt im Suchergebnis erscheinen
- Löst das Problem, dass für bekannte Firmen wie 'Rohde & Schwarz' keine Website gefunden wurde
- Kandidatensuche sammelt Treffer aus allen Quellen (Domain, Token, Name)
- Exakte Namens-Matches werden durch einen hohen Score priorisiert
- Verhindert, dass Domain-Matches exaktere Namens-Matches überschatten
- Das Priorisierungsmodell wurde grundlegend überarbeitet und orientiert sich nun an der tatsächlichen Häufigkeit und Relevanz der Departments, anstatt an semantischer Eindeutigkeit.
- Die `STOP_WORDS`-Liste wurde signifikant angepasst. Wichtige Signalwörter wie 'service', 'customer', 'care' und 'support' wurden entfernt, um die Erkennungsrate für 'Field Service Management' drastisch zu verbessern.
- Dies korrigiert systematische Fehlzuordnungen und stellt sicher, dass die generierte Wissensbasis die Geschäftsrealität korrekt abbildet.
- Bugfix: Behebt einen `SyntaxError: invalid syntax` in der Funktion `_generate_ai_examples`.
- Die fehlerhafte f-String-Formatierung, die einen Backslash innerhalb eines Ausdrucks enthielt, wurde durch eine robuste String-Verkettung ersetzt.
- Dies stellt die Lauffähigkeit des Skripts auf allen Python-Versionen sicher.