8d2674bcefd242f075a787cffb5713745ff665b5
- Refactoring der Funktion `prepare_data_for_modeling`:
- Neue Bucket-Einteilung: Die Anzahl der Zielklassen (Techniker-Buckets) wurde zur Verbesserung der Robustheit von 7 auf 3 Klassen reduziert ('Klein', 'Mittel', 'Gross').
- Feature Engineering: Zusätzliche Features (`Umsatz_pro_MA`, `Log_Umsatz`, `Log_Mitarbeiter`) werden nun dynamisch erstellt und für das Training verwendet, um die Vorhersagekraft zu erhöhen.
- Feature-Auswahl: Die finalen Features für das Modelltraining wurden auf die neuen, transformierten numerischen Features umgestellt.
- Datenfilterung: Filter für DACH-Region und Plausibilität (Ausschluss von `FEHLER`-Fällen) wurden direkt in die Datenvorbereitung integriert.
- Bugfix: Ein `NameError` in `prepare_data_for_modeling` wurde behoben. Der Code zur Erstellung des 'is_part_of_group'-Features greift nun korrekt auf die Spalten des Pandas DataFrames statt auf eine nicht existierende `row_data`-Variable zu.
- Bugfix: Ein `SyntaxError` im `col_keys_mapping`-Dictionary wurde durch ein fehlendes Komma behoben.
- Code-Struktur: Der gesamte Datenverarbeitungsfluss innerhalb von `prepare_data_for_modeling` wurde für bessere Lesbarkeit und Konsistenz überarbeitet.
Description
No description provided
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%