Commit Graph

628 Commits

Author SHA1 Message Date
9ca3f9796a bugfix 2025-06-27 08:37:23 +00:00
476c6a7e70 bugfix 2025-06-27 08:28:40 +00:00
5d68d94944 config.py aktualisiert 2025-06-27 08:23:12 +00:00
6349fb66e1 requirements.txt hinzugefügt 2025-06-27 08:12:27 +00:00
e22721cc7b brancheneinstufung2.py hinzugefügt 2025-06-27 08:11:43 +00:00
3c0477788e data_processor.py aktualisiert 2025-06-27 07:59:15 +00:00
83738b8bc1 data_processor.py hinzugefügt 2025-06-26 14:50:35 +00:00
3bfa192426 wikipedia_scraper.py hinzugefügt 2025-06-26 14:40:13 +00:00
9397699224 google_sheet_handler.py hinzugefügt 2025-06-26 14:39:25 +00:00
439860a334 helpers.py hinzugefügt 2025-06-26 14:38:51 +00:00
047f3914b3 config.py hinzugefügt 2025-06-26 14:35:40 +00:00
b94039374f bugfix 2025-06-20 16:20:54 +00:00
901925651b Refactor: Reset auf v1.7.8 & Implementierung von Branchen-Gruppen für ML
- Code-Basis zurückgesetzt: Der Code wurde auf einen stabilen Stand (entsprechend der Diskussion um v1.7.8) zurückgesetzt, um persistente Initialisierungsfehler zu beheben und eine saubere Grundlage für weitere Verbesserungen zu schaffen.
- Branchen-Clustering implementiert: Um die Qualität der Features für das ML-Modell zu verbessern, wird nun nicht mehr die detaillierte Einzelbranche, sondern eine übergeordnete Branchen-Gruppe als Feature verwendet.
- Hartcodiertes Branchen-Mapping: Anstatt die Gruppen aus einer externen CSV-Datei zu laden (was zu Fehlern führte), ist das Mapping von Detail-Branche zu Branchen-Gruppe jetzt als statisches Dictionary direkt in der `Config`-Klasse hinterlegt. Dies eliminiert eine externe Abhängigkeit und erhöht die Stabilität.
- Angepasste Datenvorbereitung: Die Funktion `prepare_data_for_modeling` wurde überarbeitet. Sie führt nun das Mapping auf die Branchen-Gruppen durch und verwendet das Ergebnis für das One-Hot-Encoding. Die finale Feature-Liste wurde entsprechend angepasst.
- Code-Vereinfachung: Die Funktion `load_branch_mapping()` und zugehörige Logik wurden entfernt, da sie durch das hartcodierte Mapping obsolet geworden sind.
2025-06-20 16:16:15 +00:00
278c48ce21 bugfix 2025-06-19 19:49:04 +00:00
06bf4d0bd0 bugfix 2025-06-19 19:42:05 +00:00
a2b8f0710c bugfix 2025-06-19 19:27:39 +00:00
9373799352 Refactor: Robuste Initialisierungs- und Konfigurationslogik in main()
- Umstrukturierung der `main()`-Funktion für eine saubere und robuste Initialisierungsreihenfolge: 1. Argumente parsen, 2. Logging einrichten, 3. Konfigurationsdaten laden, 4. Klassen initialisieren, 5. Modus ausführen.
- Fehlerbehebung `NameError`: Die Funktion `parse_arguments()` wurde außerhalb von `main()` platziert und greift für Default-Werte nun korrekt auf die zuvor definierte `Config`-Klasse zu. Alle Aufrufe im Skript sind auf die zentrale `Config`-Klasse umgestellt.
- Fehlerbehebung `TypeError`: Die Funktionen `load_target_schema()` und `load_branch_mapping()` geben jetzt in Fehlerfällen leere, aber typkorrekte Tupel/Dictionaries zurück, um Abstürze beim Entpacken der Rückgabewerte zu verhindern.
- Verbessertes Logging: Das Logging wird nun zweistufig initialisiert, um auch die interaktive Modus- und Limit-Auswahl korrekt zu protokollieren.
- Code-Konsolidierung: Die gesamte Logik zur Modus- und Parameter-Verarbeitung wurde innerhalb der neuen `main()`-Struktur bereinigt und zentralisiert.
2025-06-19 19:22:55 +00:00
bf9c36cbfb bugfix 2025-06-19 18:38:43 +00:00
f5e47f5af8 bugfix 2025-06-19 18:24:41 +00:00
be4a56c3a7 bugfix 2025-06-19 18:12:50 +00:00
b6a995f9ef bugfix 2025-06-19 18:06:22 +00:00
14f76ad882 bugfix 2025-06-19 18:01:38 +00:00
0a05497db1 bugfix 2025-06-19 17:58:23 +00:00
c1ec9770bc bugfix 2025-06-19 17:46:59 +00:00
1364a4e46b bugfix 2025-06-19 17:07:50 +00:00
422ba0a8c4 bugfix 2025-06-19 16:30:12 +00:00
3123b062bd bugfix 2025-06-19 14:27:34 +00:00
69b83df0ca bugfix 2025-06-19 14:04:15 +00:00
9350690c9d bugfix 2025-06-19 10:13:35 +00:00
69349a3abe bugfix 2025-06-19 09:54:59 +00:00
3953eaffe1 bugfix 2025-06-19 09:44:33 +00:00
d190a8b35e bugfix 2025-06-19 09:39:12 +00:00
bc83894b65 bugfix 2025-06-19 09:33:22 +00:00
779c1b77ae bugfix 2025-06-19 09:25:07 +00:00
678788186b bugfix 2025-06-19 09:07:56 +00:00
3622b821ef bugfix 2025-06-19 09:00:13 +00:00
0c195cf385 bugfix 2025-06-19 06:55:05 +00:00
8291d29184 bugfix 2025-06-19 06:34:10 +00:00
888f61790d Umstellung auf Branchen-Gruppen für ML-Features
- Feature Engineering: Der ML-Prozess verwendet nun übergeordnete Branchen-Gruppen anstelle der detaillierten Einzelbranchen als kategoriales Feature.
- Branchen-Mapping: Eine neue Logik liest eine externe Mapping-Datei (`Branchen.csv`), um die vom KI-System vorgeschlagenen Detailbranchen (aus Spalte AL) ihren jeweiligen Branchen-Gruppen zuzuordnen.
- Reduzierte Dimensionalität: Durch das Clustering der Branchen wird die Anzahl der One-Hot-encodierten Features signifikant reduziert. Dies erhöht die statistische Aussagekraft jeder Kategorie und soll die Generalisierungsfähigkeit und Genauigkeit des Modells verbessern.
- Code-Anpassungen: Die Methode `prepare_data_for_modeling` wurde angepasst, um das Branchen-Mapping durchzuführen und das One-Hot-Encoding auf den neuen Branchen-Gruppen anzuwenden. Die Methode `_predict_technician_bucket` muss entsprechend angepasst werden, um dieselbe Logik für die Vorhersage zu spiegeln.
2025-06-19 06:23:16 +00:00
c8d7dd3fc0 bugfix 2025-06-18 14:40:12 +00:00
e0be87e658 bugfix 2025-06-18 14:31:08 +00:00
c5ecb5e124 Feat: Hyperparameter-Tuning mit GridSearchCV und SMOTE-Pipeline für ML
- Implementierung von Hyperparameter-Tuning: Der Trainingsprozess (`train_technician_model`) verwendet nun `GridSearchCV` von scikit-learn, um systematisch die besten Hyperparameter für das RandomForest-Modell zu finden.
- Integration einer imblearn-Pipeline: SMOTE (zur Klassen-Balancierung) und der RandomForestClassifier wurden in eine `imblearn.pipeline.Pipeline` integriert. Dies stellt sicher, dass das Oversampling bei der Kreuzvalidierung korrekt nur auf den Trainings-Folds angewendet wird, um Datenlecks zu vermeiden.
- Erweiterte Modellevaluation: Der beste durch GridSearchCV gefundene Estimator wird nun für die finale Evaluation auf dem Testset verwendet und als finales Modell gespeichert. Die besten gefundenen Parameter und die Cross-Validation-Genauigkeit werden geloggt.
- Code-Struktur: Die `train_technician_model`-Methode wurde umfassend überarbeitet, um die neue Pipeline- und GridSearchCV-Logik zu implementieren. Entsprechende Imports (`GridSearchCV`, `ImbPipeline`) wurden hinzugefügt.
2025-06-18 14:22:35 +00:00
d99dfb5fce bugfix 2025-06-18 13:56:32 +00:00
411f33ac4f Änderung ML auf neue Branche 2025-06-18 13:40:52 +00:00
106bfd5b15 bugfix 2025-06-18 12:17:59 +00:00
7e1f39618c Feat: Umstellung von Decision Tree auf RandomForest für ML-Technikerschätzung
- Umstellung des ML-Modells: Der Algorithmus zur Schätzung der Servicetechniker-Buckets wurde von einem einzelnen Decision Tree auf einen RandomForestClassifier umgestellt. Ziel ist eine höhere Vorhersagegenauigkeit und bessere Generalisierungsfähigkeit durch die Nutzung eines Ensemble-Modells.
- Verbesserte Modellevaluation: Die Ausgabe der Baumregeln (spezifisch für Decision Trees) wurde durch die Analyse und Ausgabe der Feature Importance ersetzt. Dies gibt Aufschluss darüber, welche Features (z.B. Log-Umsatz, Branche, Gruppenzugehörigkeit) den größten Einfluss auf die Vorhersagen des RandomForest-Modells haben.
- Code-Anpassungen: Die Methode `train_technician_model` wurde entsprechend überarbeitet, um den RandomForestClassifier zu instanziieren, zu trainieren, zu speichern und zu evaluieren. Der `import` für `RandomForestClassifier` wurde hinzugefügt.
2025-06-18 12:12:08 +00:00
724d073f31 bugfix 2025-06-18 09:34:59 +00:00
8d2674bcef Refactor: ML-Datenvorbereitung mit neuen Features & Klassen, Bugfixes
- Refactoring der Funktion `prepare_data_for_modeling`:
  - Neue Bucket-Einteilung: Die Anzahl der Zielklassen (Techniker-Buckets) wurde zur Verbesserung der Robustheit von 7 auf 3 Klassen reduziert ('Klein', 'Mittel', 'Gross').
  - Feature Engineering: Zusätzliche Features (`Umsatz_pro_MA`, `Log_Umsatz`, `Log_Mitarbeiter`) werden nun dynamisch erstellt und für das Training verwendet, um die Vorhersagekraft zu erhöhen.
  - Feature-Auswahl: Die finalen Features für das Modelltraining wurden auf die neuen, transformierten numerischen Features umgestellt.
  - Datenfilterung: Filter für DACH-Region und Plausibilität (Ausschluss von `FEHLER`-Fällen) wurden direkt in die Datenvorbereitung integriert.
- Bugfix: Ein `NameError` in `prepare_data_for_modeling` wurde behoben. Der Code zur Erstellung des 'is_part_of_group'-Features greift nun korrekt auf die Spalten des Pandas DataFrames statt auf eine nicht existierende `row_data`-Variable zu.
- Bugfix: Ein `SyntaxError` im `col_keys_mapping`-Dictionary wurde durch ein fehlendes Komma behoben.
- Code-Struktur: Der gesamte Datenverarbeitungsfluss innerhalb von `prepare_data_for_modeling` wurde für bessere Lesbarkeit und Konsistenz überarbeitet.
2025-06-18 08:32:29 +00:00
20bcbf1fd4 bugfix 2025-06-17 18:11:58 +00:00
8ab7040df7 bugfix 2025-06-02 14:06:07 +00:00