bugfix
This commit is contained in:
@@ -9173,6 +9173,35 @@ class DataProcessor:
|
|||||||
df_filtered.loc[:, 'Branchen_Gruppe'] = cleaned_branches.str.lower().map(mapping_lower).fillna('Sonstige')
|
df_filtered.loc[:, 'Branchen_Gruppe'] = cleaned_branches.str.lower().map(mapping_lower).fillna('Sonstige')
|
||||||
|
|
||||||
self.logger.info("Mapping zu 'Branchen_Gruppe' durchgeführt.")
|
self.logger.info("Mapping zu 'Branchen_Gruppe' durchgeführt.")
|
||||||
|
|
||||||
|
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
|
# +++ NEUER, ERWEITERTER DEBUGGING-BLOCK ++++++++++++++++++++++++++++++++
|
||||||
|
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
|
# Finde heraus, welche Branchen nicht gemappt werden konnten
|
||||||
|
unmapped_df = df_filtered[df_filtered['Branchen_Gruppe'] == 'Sonstige']
|
||||||
|
|
||||||
|
if not unmapped_df.empty:
|
||||||
|
unmapped_branches = unmapped_df[branche_col_internal].value_counts()
|
||||||
|
self.logger.warning(f"KONNTE MAPPING NICHT DURCHFÜHREN! {len(unmapped_branches)} verschiedene Detail-Branchen wurden als 'Sonstige' klassifiziert.")
|
||||||
|
self.logger.warning("Überprüfen Sie auf Unterschiede in Schreibweise, Leerzeichen oder Sonderzeichen.")
|
||||||
|
|
||||||
|
# Zeige die Top 10 nicht gemappten Branchen mit ihrer Häufigkeit
|
||||||
|
self.logger.warning("Top 10 nicht gemappte Branchen aus dem Google Sheet:")
|
||||||
|
for branch_name, count in unmapped_branches.head(10).items():
|
||||||
|
# Zeige den Wert exakt so an, wie er in der Spalte steht, in Anführungszeichen
|
||||||
|
self.logger.warning(f" -> '{branch_name}' (kam {count} mal vor)")
|
||||||
|
|
||||||
|
# Zeige einige Beispiele der normalisierten Schlüssel aus dem Mapping-File zum Vergleich
|
||||||
|
if mapping_lower:
|
||||||
|
self.logger.warning("Beispiele für normalisierte Schlüssel aus der Branchen.csv:")
|
||||||
|
# .keys() ist eine Ansicht, konvertiere zu Liste für Slicing
|
||||||
|
example_keys = list(mapping_lower.keys())
|
||||||
|
for i in range(min(10, len(example_keys))):
|
||||||
|
self.logger.warning(f" -> '{example_keys[i]}'")
|
||||||
|
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
|
# +++ ENDE DEBUGGING-BLOCK ++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
|
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
|
|
||||||
self.logger.debug(f"Verteilung der Branchen-Gruppen:\n{df_filtered['Branchen_Gruppe'].value_counts(normalize=True).sort_index().round(3)}")
|
self.logger.debug(f"Verteilung der Branchen-Gruppen:\n{df_filtered['Branchen_Gruppe'].value_counts(normalize=True).sort_index().round(3)}")
|
||||||
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
# +++ ENDE NEUER BLOCK ++++++++++++++++++++++++++++++++++++++++++++++++++++
|
# +++ ENDE NEUER BLOCK ++++++++++++++++++++++++++++++++++++++++++++++++++++
|
||||||
|
|||||||
Reference in New Issue
Block a user