This commit is contained in:
2025-06-02 13:43:24 +00:00
parent 9b468d7892
commit e861ff4fb0

View File

@@ -9016,9 +9016,6 @@ class DataProcessor:
self.logger.info(f"Benötigte Spalten fuer Modellierung ausgewaehlt und umbenannt: {list(df_subset.columns)}") # <<< GEÄNDERT
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# +++ NEUER BLOCK: Erstellung des 'is_part_of_group' Features +++++++++++++
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
self.logger.info("Erstelle Feature 'is_part_of_group'...")
# Zugreifen auf die Spalten im DataFrame df_subset
@@ -9038,9 +9035,6 @@ class DataProcessor:
self.logger.info(f"Feature 'is_part_of_group' erstellt. {df_subset['is_part_of_group'].sum()} Unternehmen als Teil einer Gruppe markiert.")
self.logger.debug(f"Verteilung von 'is_part_of_group':\n{df_subset['is_part_of_group'].value_counts(normalize=True, dropna=False)}")
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# +++ ENDE NEUER BLOCK ++++++++++++++++++++++++++++++++++++++++++++++++++++
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
@@ -9161,19 +9155,6 @@ class DataProcessor:
# .str.strip() entfernt führende/endende Leerzeichen.
df_filtered[branche_col_internal] = df_filtered[branche_col_internal].astype(str).fillna('Unbekannt').str.strip()
parent_d_val = self._get_cell_value_safe(row_data, "Parent Account Name").strip().lower()
parent_o_val = self._get_cell_value_safe(row_data, "System Vorschlag Parent Account").strip().lower()
parent_p_val = self._get_cell_value_safe(row_data, "Parent Vorschlag Status").strip().lower()
cond1_pred = bool(parent_d_val and parent_d_val != 'k.a.')
cond2_o_pred = bool(parent_o_val and parent_o_val != 'k.a.')
cond2_p_pred = parent_p_val == 'x'
cond2_pred = cond2_o_pred and cond2_p_pred
# df_single_row ist hier der DataFrame mit einer Zeile
df_single_row['is_part_of_group'] = 1 if cond1_pred | cond2_pred else 0
self.logger.debug(f" ML Pred: 'is_part_of_group' gesetzt auf {df_single_row['is_part_of_group'].iloc[0]}")
# One-Hot Encoding (pd.get_dummies)
# dummy_na=False, da wir NaNs bereits mit 'Unbekannt' gefuellt haben.