bugfix
This commit is contained in:
@@ -9016,9 +9016,6 @@ class DataProcessor:
|
|||||||
self.logger.info(f"Benötigte Spalten fuer Modellierung ausgewaehlt und umbenannt: {list(df_subset.columns)}") # <<< GEÄNDERT
|
self.logger.info(f"Benötigte Spalten fuer Modellierung ausgewaehlt und umbenannt: {list(df_subset.columns)}") # <<< GEÄNDERT
|
||||||
|
|
||||||
|
|
||||||
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
|
||||||
# +++ NEUER BLOCK: Erstellung des 'is_part_of_group' Features +++++++++++++
|
|
||||||
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
|
||||||
self.logger.info("Erstelle Feature 'is_part_of_group'...")
|
self.logger.info("Erstelle Feature 'is_part_of_group'...")
|
||||||
|
|
||||||
# Zugreifen auf die Spalten im DataFrame df_subset
|
# Zugreifen auf die Spalten im DataFrame df_subset
|
||||||
@@ -9038,9 +9035,6 @@ class DataProcessor:
|
|||||||
|
|
||||||
self.logger.info(f"Feature 'is_part_of_group' erstellt. {df_subset['is_part_of_group'].sum()} Unternehmen als Teil einer Gruppe markiert.")
|
self.logger.info(f"Feature 'is_part_of_group' erstellt. {df_subset['is_part_of_group'].sum()} Unternehmen als Teil einer Gruppe markiert.")
|
||||||
self.logger.debug(f"Verteilung von 'is_part_of_group':\n{df_subset['is_part_of_group'].value_counts(normalize=True, dropna=False)}")
|
self.logger.debug(f"Verteilung von 'is_part_of_group':\n{df_subset['is_part_of_group'].value_counts(normalize=True, dropna=False)}")
|
||||||
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
|
||||||
# +++ ENDE NEUER BLOCK ++++++++++++++++++++++++++++++++++++++++++++++++++++
|
|
||||||
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
@@ -9161,19 +9155,6 @@ class DataProcessor:
|
|||||||
# .str.strip() entfernt führende/endende Leerzeichen.
|
# .str.strip() entfernt führende/endende Leerzeichen.
|
||||||
df_filtered[branche_col_internal] = df_filtered[branche_col_internal].astype(str).fillna('Unbekannt').str.strip()
|
df_filtered[branche_col_internal] = df_filtered[branche_col_internal].astype(str).fillna('Unbekannt').str.strip()
|
||||||
|
|
||||||
parent_d_val = self._get_cell_value_safe(row_data, "Parent Account Name").strip().lower()
|
|
||||||
parent_o_val = self._get_cell_value_safe(row_data, "System Vorschlag Parent Account").strip().lower()
|
|
||||||
parent_p_val = self._get_cell_value_safe(row_data, "Parent Vorschlag Status").strip().lower()
|
|
||||||
|
|
||||||
cond1_pred = bool(parent_d_val and parent_d_val != 'k.a.')
|
|
||||||
cond2_o_pred = bool(parent_o_val and parent_o_val != 'k.a.')
|
|
||||||
cond2_p_pred = parent_p_val == 'x'
|
|
||||||
cond2_pred = cond2_o_pred and cond2_p_pred
|
|
||||||
|
|
||||||
# df_single_row ist hier der DataFrame mit einer Zeile
|
|
||||||
df_single_row['is_part_of_group'] = 1 if cond1_pred | cond2_pred else 0
|
|
||||||
self.logger.debug(f" ML Pred: 'is_part_of_group' gesetzt auf {df_single_row['is_part_of_group'].iloc[0]}")
|
|
||||||
|
|
||||||
|
|
||||||
# One-Hot Encoding (pd.get_dummies)
|
# One-Hot Encoding (pd.get_dummies)
|
||||||
# dummy_na=False, da wir NaNs bereits mit 'Unbekannt' gefuellt haben.
|
# dummy_na=False, da wir NaNs bereits mit 'Unbekannt' gefuellt haben.
|
||||||
|
|||||||
Reference in New Issue
Block a user