Brancheneinstufung2

Author	SHA1	Message	Date
Floke	cd9a2ffc55	contact_grouping.py aktualisiert - Detailliertere Log-Ausgaben während des gesamten Prozesses für eine bessere Nachvollziehbarkeit. - Loggt die Anzahl der Zeilen direkt nach dem erfolgreichen Laden aus dem Google Sheet. - Fügt explizite Start- und End-Meldungen für die regel-basierte Zuordnung (Stufe 1 & 2) hinzu. - Loggt die genaue Anzahl der 'Undefined'-Fälle, die an die KI zur Klassifizierung gesendet werden. - Gibt eine klare Meldung aus, wenn keine KI-Anfrage nötig ist, weil alle Fälle durch Regeln gelöst wurden. - Verbessert die allgemeine Klarheit der Log-Nachrichten, um die Analyse von Laufzeitverhalten und potenziellen Fehlern zu erleichtern. - Bugfix: Behebt einen kritischen APIError [400] 'Invalid list_value', der beim Zurückschreiben der Daten in das Google Sheet auftrat. - Die Funktion `_find_best_match` gab in manchen Fällen fälschlicherweise eine Liste anstelle eines einzelnen Strings als Department zurück. - Die Rückgabewerte der Funktion wurden korrigiert, um sicherzustellen, dass immer ein String übergeben wird. - Dies stellt die Kompatibilität mit der Google Sheets API wieder her und macht den Schreibvorgang robust.	2025-09-18 07:59:31 +00:00
Floke	59d5b1394e	v1.1.3 - Bugfix Robuste KI-Antwortverarbeitung - Bugfix: Behebt einen `JSONDecodeError`, der auftrat, wenn die OpenAI API eine Antwort mit einleitendem Text oder ohne JSON-Array zurückgab. - Die JSON-Extraktion in der KI-Klassifizierung wurde von einer einfachen String-Suche auf eine robuste Regex-Suche umgestellt. - Verbessertes Fehler-Logging: Bei einem Fehler bei der KI-Klassifizierung wird nun die vollständige, rohe API-Antwort ins Log geschrieben, um die Fehlersuche zu erleichtern.	2025-09-18 07:54:18 +00:00
Floke	83a5d181e7	v1.1.2 - Bugfix Startup-Verhalten & verbessertes Feedback - Bugfix: Behebt ein Problem, bei dem das Skript beim Start zu hängen schien, weil große Wissensbasis-Dateien blockierend geladen wurden. - Die Initialisierung der `ContactGrouper`-Klasse wurde verschlankt und lädt die JSON-Dateien nicht mehr automatisch. - Eine neue Methode `load_knowledge_base()` wurde eingeführt, um das Laden der Dateien explizit und mit Logging-Feedback zu steuern. - Das Skript gibt nun sofort nach dem Start eine Rückmeldung auf der Konsole und im Logfile, bevor zeitaufwändige Operationen beginnen. - Verbesserte Fehlerbehandlung, falls die Wissensbasis nicht geladen werden kann.	2025-09-18 07:50:40 +00:00
Floke	ac62a3a8a8	contact_grouping.py aktualisiert	2025-09-18 07:44:30 +00:00
Floke	2615203b62	v1.1.0 - Intelligente Lernfunktion & Verbessertes Logging - Erweitertes Logging mit DEBUG-Level und Logfile-Erstellung. - Zusammenfassende Statistik der Department-Zuweisungen am Ende des Laufs. - NEU: Stufe 3 - KI-Klassifizierung für unklare Fälle ('Undefined'). - Jobtitel, die nicht durch Stufe 1 oder 2 zugeordnet werden können, werden an die OpenAI API zur Klassifizierung gesendet. - NEU: Lern-Mechanismus - Die von der KI ermittelten Zuordnungen werden automatisch in das 'CRM_Jobtitles'-Sheet zurückgeschrieben. - Das System verbessert sich dadurch selbst für zukünftige Durchläufe.	2025-09-18 07:37:16 +00:00
Floke	63d2388bf8	contact_grouping.py hinzugefügt	2025-09-18 07:28:31 +00:00
Floke	248ab1787b	knowledge_base_builder.py aktualisiert	2025-09-18 07:12:43 +00:00
Floke	e73cd71617	knowledge_base_builder.py hinzugefügt	2025-09-17 12:47:27 +00:00
Floke	8e5d0350c8	requirements.txt aktualisiert	2025-09-10 20:03:36 +00:00
Floke	5fa5a29250	duplicate_checker.py aktualisiert	2025-09-10 11:26:28 +00:00
Floke	601d1ab848	train_model.py aktualisiert	2025-09-10 08:25:50 +00:00
Floke	db6965927f	duplicate_checker.py aktualisiert	2025-09-10 08:13:02 +00:00
Floke	2254409f26	train_model.py aktualisiert	2025-09-10 08:12:31 +00:00
Floke	b13b610be4	train_model.py aktualisiert	2025-09-08 18:36:52 +00:00
Floke	b8d491f0fc	train_model.py aktualisiert	2025-09-08 18:27:12 +00:00
Floke	c1867fa2f1	train_model.py aktualisiert	2025-09-08 18:04:36 +00:00
Floke	1b29cfb6a3	train_model.py aktualisiert	2025-09-08 12:29:47 +00:00
Floke	a3a5bb049f	train_model.py hinzugefügt	2025-09-08 12:27:57 +00:00
Floke	804b40d6c2	create_weights.py hinzugefügt	2025-09-08 11:31:53 +00:00
Floke	27bc508b86	xgb_model.json hinzugefügt	2025-09-08 11:30:45 +00:00
Floke	ae975367ad	NEU: Integration eines trainierten Machine-Learning-Modells (XGBoost) für die Match-Entscheidung --- FEATURES v5.0 --- - NEU: Integration eines trainierten Machine-Learning-Modells (XGBoost) für die Match-Entscheidung. - Das Modell wurde auf dem vom Benutzer bereitgestellten "Gold-Standard"-Datensatz trainiert. - Feature Engineering: Für jeden Vergleich werden ~15 Merkmale berechnet, die dem Modell als Input dienen. - Die alte, heuristische Scoring-Logik wurde vollständig durch das ML-Modell ersetzt. - Ergebnis ist eine datengetriebene, hochpräzise Duplikatserkennung mit >80% Trefferquote.	2025-09-08 11:24:01 +00:00
Floke	24e32da53c	duplicate_checker.py aktualisiert - NEU: Mehrstufiges Entscheidungsmodell für höhere Präzision und "Großzügigkeit". - Stufe 1: "Golden Match" für exakte Treffer. - Stufe 2: "Kernidentitäts-Bonus & Tie-Breaker" zur korrekten Zuordnung von Konzerngesellschaften. - Stufe 3: Neu kalibrierter, gewichteter Score für alle anderen Fälle. - Intelligenter Tie-Breaker, der nur bei wirklich guten und engen Kandidaten greift.	2025-09-05 11:40:52 +00:00
Floke	f5af3023f8	duplicate_checker.py aktualisiert --- FEATURES v4.0 --- - NEU: "Kernidentitäts-Bonus": Ein hoher Bonus wird vergeben, wenn das seltenste (wichtigste) Token übereinstimmt. Dies fördert das "großzügige Matchen" auf Basis der Kernmarke (z.B. "ANDRITZ AG" vs. "ANDRITZ HYDRO"). - NEU: Intelligenter "Shortest Name Tie-Breaker": Wird nur noch bei sehr hohen und sehr ähnlichen Scores angewendet. - Finale Kalibrierung der Score-Berechnung und Schwellenwerte für optimale Balance. - Golden-Rule für exakte Matches und Interaktiver Modus beibehalten.	2025-09-05 09:39:56 +00:00
Floke	7a273bf25a	duplicate_checker.py aktualisiert - NEU: "Shortest Name Tie-Breaker": Bei sehr ähnlichen Scores wird der Kandidat mit dem kürzeren Namen bevorzugt, um das Prinzip der "wirtschaftlichen Einheit" (z.B. Holding) besser abzubilden. - Scoring-Formel und Schwellenwerte erneut feinjustiert für finale Balance. - Golden-Rule und Interaktiver Modus beibehalten.	2025-09-05 08:59:05 +00:00
Floke	538a0f2885	duplicate_checker.py aktualisiert - Scoring-Formel und Multiplikatoren neu gewichtet, um einzigartige Namens-Tokens stärker zu bewerten ("Großzügigkeits-Boost"). - Schwellenwerte (Thresholds) erneut feinjustiert, um die Balance zwischen korrekten und falschen Treffern zu optimieren. - Logik des Domain-Gates beibehalten und sichergestellt, dass es korrekt greift. - Golden-Rule und Interaktiver Modus unverändert.	2025-09-05 08:10:28 +00:00
Floke	f160fc0fc5	duplicate_checker.py aktualisiert - Dynamische Stopword-Erkennung entfernt, da sie zu aggressiv war. Häufige Wörter erhalten nun nur ein niedriges Gewicht. - Score-Berechnung und Schwellenwerte (Thresholds) komplett neu kalibriert für bessere Balance und Treffsicherheit. - "Domain-Gate" wieder eingeführt: Ein Domain-Match zählt nur dann stark, wenn auch eine minimale Namensähnlichkeit besteht. - Golden-Rule und Interaktiver Modus beibehalten.	2025-09-05 07:34:23 +00:00
Floke	491254a84e	Feat: Matching-Logik mit gewichtetem Scoring & Interaktiv-Modus (v3.0) Diese Version überarbeitet den Kern des Matching-Algorithmus grundlegend, um die Genauigkeit drastisch zu erhöhen und die manuelle Nachbearbeitung zu reduzieren. Die Änderungen basieren auf der Analyse eines umfangreichen Testdatensatzes und setzen die neue Philosophie des "großzügigen Matchens" von wirtschaftlichen Einheiten um. Gewichtetes Namens-Scoring (TF-IDF): - Einzigartige Namensbestandteile (z.B. "Warema") erhalten nun ein höheres Gewicht als generische Füllwörter (z.B. "Stadtwerke", "Gruppe"). - Dies löst das Problem von Fehlzuordnungen bei häufig vorkommenden, aber nicht-identifizierenden Begriffen und verbessert die Treffsicherheit bei unklaren Firmennamen signifikant. Golden-Rule für exakte Namens-Matches: - Eine Namensübereinstimmung von >98% führt zu einem sofortigen "Golden Match" mit einem sehr hohen Score. - Damit wird verhindert, dass klare Treffer durch abweichende Signale (z.B. unterschiedliche URLs von Tochterfirmen) fälschlicherweise bestraft werden. Optionaler Interaktiver Modus: - Kann mit dem Flag --interactive gestartet werden. - Bei uneindeutigen Ergebnissen, bei denen die Top-Kandidaten sehr ähnliche Scores haben, hält das Skript an und ermöglicht dem Benutzer die direkte Auswahl des korrekten Matches aus einer übersichtlichen Liste. Überarbeitete Scoring-Formel: - Die Gesamtbewertung wurde neu balanciert, um dem jetzt deutlich aussagekräftigeren Namens-Score mehr Gewicht zu verleihen.	2025-09-04 14:34:28 +00:00
Floke	fc3e90ac83	planning.md aktualisiert	2025-08-29 08:34:07 +00:00
Floke	49f935ea9d	tasks.md aktualisiert	2025-08-29 08:33:31 +00:00
Floke	3e545fe5a6	readme.md aktualisiert	2025-08-29 08:32:40 +00:00
Floke	7c9db71c77	sync_manager.py aktualisiert	2025-08-29 07:11:48 +00:00
Floke	4ada486206	sync_manager.py aktualisiert	2025-08-29 06:33:12 +00:00
Floke	6189d64b38	sync_manager.py aktualisiert	2025-08-29 06:30:08 +00:00
Floke	0319833c20	brancheneinstufung2.py aktualisiert	2025-08-29 06:20:48 +00:00
Floke	9628e8f181	sync_manager.py aktualisiert	2025-08-29 06:12:03 +00:00
Floke	f36816f49a	brancheneinstufung2.py aktualisiert	2025-08-29 06:11:04 +00:00
Floke	f5c6e87ae3	sync_manager.py aktualisiert	2025-08-28 19:02:12 +00:00
Floke	e9e33d7cfe	sync_manager.py aktualisiert	2025-08-28 18:42:36 +00:00
Floke	22f873e1dc	sync_manager.py aktualisiert	2025-08-28 18:37:36 +00:00
Floke	edec30652d	sync_manager.py aktualisiert	2025-08-28 18:22:42 +00:00
Floke	0273174a57	sync_manager.py aktualisiert	2025-08-28 18:07:17 +00:00
Floke	cf4a0178d6	sync_manager.py aktualisiert	2025-08-28 18:04:19 +00:00
Floke	a5e4a21580	sync_manager.py aktualisiert	2025-08-28 18:01:24 +00:00
Floke	e71c11c432	sync_manager.py aktualisiert	2025-08-28 17:57:44 +00:00
Floke	1068243ca9	sync_manager.py aktualisiert	2025-08-28 17:44:31 +00:00
Floke	123a48f53e	brancheneinstufung2.py aktualisiert	2025-08-28 17:38:25 +00:00
Floke	f90618e722	sync_manager.py aktualisiert	2025-08-28 17:34:52 +00:00
Floke	f1b18ddde4	sync_manager.py aktualisiert	2025-08-28 14:40:02 +00:00
Floke	59bba0276d	sync_manager.py aktualisiert	2025-08-28 14:22:48 +00:00
Floke	ad7618dff9	sync_manager.py aktualisiert	2025-08-28 14:18:24 +00:00

1 2 3 4 5 ...

1394 Commits