Brancheneinstufung2

Author	SHA1	Message	Date
Floke	06bf4d0bd0	bugfix	2025-06-19 19:42:05 +00:00
Floke	a2b8f0710c	bugfix	2025-06-19 19:27:39 +00:00
Floke	9373799352	Refactor: Robuste Initialisierungs- und Konfigurationslogik in main() - Umstrukturierung der `main()`-Funktion für eine saubere und robuste Initialisierungsreihenfolge: 1. Argumente parsen, 2. Logging einrichten, 3. Konfigurationsdaten laden, 4. Klassen initialisieren, 5. Modus ausführen. - Fehlerbehebung `NameError`: Die Funktion `parse_arguments()` wurde außerhalb von `main()` platziert und greift für Default-Werte nun korrekt auf die zuvor definierte `Config`-Klasse zu. Alle Aufrufe im Skript sind auf die zentrale `Config`-Klasse umgestellt. - Fehlerbehebung `TypeError`: Die Funktionen `load_target_schema()` und `load_branch_mapping()` geben jetzt in Fehlerfällen leere, aber typkorrekte Tupel/Dictionaries zurück, um Abstürze beim Entpacken der Rückgabewerte zu verhindern. - Verbessertes Logging: Das Logging wird nun zweistufig initialisiert, um auch die interaktive Modus- und Limit-Auswahl korrekt zu protokollieren. - Code-Konsolidierung: Die gesamte Logik zur Modus- und Parameter-Verarbeitung wurde innerhalb der neuen `main()`-Struktur bereinigt und zentralisiert.	2025-06-19 19:22:55 +00:00
Floke	bf9c36cbfb	bugfix	2025-06-19 18:38:43 +00:00
Floke	f5e47f5af8	bugfix	2025-06-19 18:24:41 +00:00
Floke	be4a56c3a7	bugfix	2025-06-19 18:12:50 +00:00
Floke	b6a995f9ef	bugfix	2025-06-19 18:06:22 +00:00
Floke	14f76ad882	bugfix	2025-06-19 18:01:38 +00:00
Floke	0a05497db1	bugfix	2025-06-19 17:58:23 +00:00
Floke	c1ec9770bc	bugfix	2025-06-19 17:46:59 +00:00
Floke	1364a4e46b	bugfix	2025-06-19 17:07:50 +00:00
Floke	422ba0a8c4	bugfix	2025-06-19 16:30:12 +00:00
Floke	3123b062bd	bugfix	2025-06-19 14:27:34 +00:00
Floke	69b83df0ca	bugfix	2025-06-19 14:04:15 +00:00
Floke	9350690c9d	bugfix	2025-06-19 10:13:35 +00:00
Floke	69349a3abe	bugfix	2025-06-19 09:54:59 +00:00
Floke	3953eaffe1	bugfix	2025-06-19 09:44:33 +00:00
Floke	d190a8b35e	bugfix	2025-06-19 09:39:12 +00:00
Floke	bc83894b65	bugfix	2025-06-19 09:33:22 +00:00
Floke	779c1b77ae	bugfix	2025-06-19 09:25:07 +00:00
Floke	678788186b	bugfix	2025-06-19 09:07:56 +00:00
Floke	3622b821ef	bugfix	2025-06-19 09:00:13 +00:00
Floke	0c195cf385	bugfix	2025-06-19 06:55:05 +00:00
Floke	8291d29184	bugfix	2025-06-19 06:34:10 +00:00
Floke	888f61790d	Umstellung auf Branchen-Gruppen für ML-Features - Feature Engineering: Der ML-Prozess verwendet nun übergeordnete Branchen-Gruppen anstelle der detaillierten Einzelbranchen als kategoriales Feature. - Branchen-Mapping: Eine neue Logik liest eine externe Mapping-Datei (`Branchen.csv`), um die vom KI-System vorgeschlagenen Detailbranchen (aus Spalte AL) ihren jeweiligen Branchen-Gruppen zuzuordnen. - Reduzierte Dimensionalität: Durch das Clustering der Branchen wird die Anzahl der One-Hot-encodierten Features signifikant reduziert. Dies erhöht die statistische Aussagekraft jeder Kategorie und soll die Generalisierungsfähigkeit und Genauigkeit des Modells verbessern. - Code-Anpassungen: Die Methode `prepare_data_for_modeling` wurde angepasst, um das Branchen-Mapping durchzuführen und das One-Hot-Encoding auf den neuen Branchen-Gruppen anzuwenden. Die Methode `_predict_technician_bucket` muss entsprechend angepasst werden, um dieselbe Logik für die Vorhersage zu spiegeln.	2025-06-19 06:23:16 +00:00
Floke	c8d7dd3fc0	bugfix	2025-06-18 14:40:12 +00:00
Floke	e0be87e658	bugfix	2025-06-18 14:31:08 +00:00
Floke	c5ecb5e124	Feat: Hyperparameter-Tuning mit GridSearchCV und SMOTE-Pipeline für ML - Implementierung von Hyperparameter-Tuning: Der Trainingsprozess (`train_technician_model`) verwendet nun `GridSearchCV` von scikit-learn, um systematisch die besten Hyperparameter für das RandomForest-Modell zu finden. - Integration einer imblearn-Pipeline: SMOTE (zur Klassen-Balancierung) und der RandomForestClassifier wurden in eine `imblearn.pipeline.Pipeline` integriert. Dies stellt sicher, dass das Oversampling bei der Kreuzvalidierung korrekt nur auf den Trainings-Folds angewendet wird, um Datenlecks zu vermeiden. - Erweiterte Modellevaluation: Der beste durch GridSearchCV gefundene Estimator wird nun für die finale Evaluation auf dem Testset verwendet und als finales Modell gespeichert. Die besten gefundenen Parameter und die Cross-Validation-Genauigkeit werden geloggt. - Code-Struktur: Die `train_technician_model`-Methode wurde umfassend überarbeitet, um die neue Pipeline- und GridSearchCV-Logik zu implementieren. Entsprechende Imports (`GridSearchCV`, `ImbPipeline`) wurden hinzugefügt.	2025-06-18 14:22:35 +00:00
Floke	d99dfb5fce	bugfix	2025-06-18 13:56:32 +00:00
Floke	411f33ac4f	Änderung ML auf neue Branche	2025-06-18 13:40:52 +00:00
Floke	106bfd5b15	bugfix	2025-06-18 12:17:59 +00:00
Floke	7e1f39618c	Feat: Umstellung von Decision Tree auf RandomForest für ML-Technikerschätzung - Umstellung des ML-Modells: Der Algorithmus zur Schätzung der Servicetechniker-Buckets wurde von einem einzelnen Decision Tree auf einen RandomForestClassifier umgestellt. Ziel ist eine höhere Vorhersagegenauigkeit und bessere Generalisierungsfähigkeit durch die Nutzung eines Ensemble-Modells. - Verbesserte Modellevaluation: Die Ausgabe der Baumregeln (spezifisch für Decision Trees) wurde durch die Analyse und Ausgabe der Feature Importance ersetzt. Dies gibt Aufschluss darüber, welche Features (z.B. Log-Umsatz, Branche, Gruppenzugehörigkeit) den größten Einfluss auf die Vorhersagen des RandomForest-Modells haben. - Code-Anpassungen: Die Methode `train_technician_model` wurde entsprechend überarbeitet, um den RandomForestClassifier zu instanziieren, zu trainieren, zu speichern und zu evaluieren. Der `import` für `RandomForestClassifier` wurde hinzugefügt.	2025-06-18 12:12:08 +00:00
Floke	724d073f31	bugfix	2025-06-18 09:34:59 +00:00
Floke	8d2674bcef	Refactor: ML-Datenvorbereitung mit neuen Features & Klassen, Bugfixes - Refactoring der Funktion `prepare_data_for_modeling`: - Neue Bucket-Einteilung: Die Anzahl der Zielklassen (Techniker-Buckets) wurde zur Verbesserung der Robustheit von 7 auf 3 Klassen reduziert ('Klein', 'Mittel', 'Gross'). - Feature Engineering: Zusätzliche Features (`Umsatz_pro_MA`, `Log_Umsatz`, `Log_Mitarbeiter`) werden nun dynamisch erstellt und für das Training verwendet, um die Vorhersagekraft zu erhöhen. - Feature-Auswahl: Die finalen Features für das Modelltraining wurden auf die neuen, transformierten numerischen Features umgestellt. - Datenfilterung: Filter für DACH-Region und Plausibilität (Ausschluss von `FEHLER`-Fällen) wurden direkt in die Datenvorbereitung integriert. - Bugfix: Ein `NameError` in `prepare_data_for_modeling` wurde behoben. Der Code zur Erstellung des 'is_part_of_group'-Features greift nun korrekt auf die Spalten des Pandas DataFrames statt auf eine nicht existierende `row_data`-Variable zu. - Bugfix: Ein `SyntaxError` im `col_keys_mapping`-Dictionary wurde durch ein fehlendes Komma behoben. - Code-Struktur: Der gesamte Datenverarbeitungsfluss innerhalb von `prepare_data_for_modeling` wurde für bessere Lesbarkeit und Konsistenz überarbeitet.	2025-06-18 08:32:29 +00:00
Floke	20bcbf1fd4	bugfix	2025-06-17 18:11:58 +00:00
Floke	8ab7040df7	bugfix	2025-06-02 14:06:07 +00:00
Floke	9a8754d670	bugfix	2025-06-02 13:54:55 +00:00
Floke	e861ff4fb0	bugfix	2025-06-02 13:43:24 +00:00
Floke	9b468d7892	bugfix	2025-06-02 13:31:06 +00:00
Floke	5f14385dce	bugfix	2025-06-02 13:28:39 +00:00
Floke	c0fefbe85d	bugfix	2025-06-02 13:16:12 +00:00
Floke	cca4b1cdb0	bugfix	2025-06-01 19:38:50 +00:00
Floke	af653a1004	bugfix	2025-06-01 15:14:06 +00:00
Floke	1aecded2d8	bugfix	2025-06-01 15:10:50 +00:00
Floke	0d2d76eff3	bugfix	2025-06-01 14:54:18 +00:00
Floke	1159249d91	bugfix	2025-06-01 14:47:26 +00:00
Floke	298ac5f056	bugfix	2025-06-01 14:44:48 +00:00
Floke	f4f354de7a	bugfix	2025-06-01 14:35:35 +00:00
Floke	38e28832e0	v1.7.8: Feature 'is_part_of_group' für ML & erweiterte Konzernlogik Plausi - Feature Engineering: Dynamische Erstellung des Features 'is_part_of_group' in `prepare_data_for_modeling` und `_predict_technician_bucket` basierend auf Spalten D (Parent Account Name) sowie O (System Vorschlag Parent Account) und P (Parent Vorschlag Status). Dieses Feature wird nun für das ML-Training und die Vorhersage verwendet. - Plausibilitäts-Logik erweitert: `_check_financial_plausibility` berücksichtigt jetzt nicht nur Spalte D, sondern auch einen bestätigten Parent-Vorschlag aus Spalte O (mit P='x'), um die `INFO_KONZERN_LOGIK` für die Abweichungsflags (BJ, BK) anzuwenden. Die aufrufenden Stellen in `_process_single_row` und `run_plausibility_checks_batch` wurden angepasst, um die notwendigen Daten (O, P) an die Plausi-Funktion zu übergeben. - Bugfix: `UnboundLocalError` für die Variable `bonus` in `serp_wikipedia_lookup` durch korrekte Initialisierung behoben. - Bugfix: `KeyError` für "Timestamp letzte Pruefung" in `_process_single_row` durch korrekte Schreibweise des Spaltennamens-Schlüssels (mit "ue") behoben. - Bugfix: `NameError` für `source_of_wiki_data_origin` im Konsolidierungs-Log-String in `_process_single_row` durch Verwendung eines Fallback-Wertes behoben. - Code-Struktur: Debug-Logausgabe für den Inhalt von `current_wiki_url_r` in `_process_single_row` vor der Parent-Prüfung hinzugefügt. - Code-Struktur: Korrektur der Limit-Anwendung und Entfernung eines fehlerhaften Code-Blocks in `run_plausibility_checks_batch`.	2025-06-01 14:04:44 +00:00
Floke	267d034feb	bugfix	2025-05-31 17:09:22 +00:00

1 2 3 4 5 ...

614 Commits