From 8e16f0bd0f8ebbf3b7f55a0f494a382fd3987c64 Mon Sep 17 00:00:00 2001 From: Floke Date: Wed, 9 Apr 2025 09:39:28 +0000 Subject: [PATCH] bugfix --- brancheneinstufung.py | 42 +++++++++++++++++++++++------------------- 1 file changed, 23 insertions(+), 19 deletions(-) diff --git a/brancheneinstufung.py b/brancheneinstufung.py index 4c15e29e..a637d64c 100644 --- a/brancheneinstufung.py +++ b/brancheneinstufung.py @@ -1159,7 +1159,7 @@ class DataProcessor: def _process_single_row(self, row_num, row_data, process_wiki=True, process_chatgpt=True): # Hole den Firmennamen aus Spalte B company_name = row_data[1] if len(row_data) > 1 else "" - + # Hole die CRM-Website (Spalte D). Wenn diese leer ist, führe den SERP-API Lookup durch. website_url = row_data[3] if len(row_data) > 3 else "" if website_url.strip() == "" or website_url.strip().lower() == "k.a.": @@ -1173,28 +1173,35 @@ def _process_single_row(self, row_num, row_data, process_wiki=True, process_chat debug_print(f"Zeile {row_num}: Fehler beim Updaten der CRM-Website in Spalte D: {e}") else: debug_print(f"Zeile {row_num}: Keine Website gefunden für {company_name}.") - - # Unabhängig von process_wiki: Führe Website-Scraping durch, sofern ein gültiger Website-URL vorliegt. + + # Website-Scraping: Nur durchführen, wenn der Wikipedia‑Artikel (Spalte M) "k.A." ist. website_raw = "k.A." website_summary = "k.A." - if website_url.strip() != "" and website_url.strip().lower() != "k.a.": + # Hier: Falls Wiki URL (Spalte M) "k.A." ist, dann führe das Scraping durch. + wiki_url_cell = row_data[11].strip().lower() if len(row_data) > 11 else "k.a." + if wiki_url_cell == "k.a." and website_url.strip() != "" and website_url.strip().lower() != "k.a.": website_raw = get_website_raw(website_url) website_summary = summarize_website_content(website_raw) try: self.sheet_handler.sheet.update(values=[[website_raw]], range_name=f"AR{row_num}") - debug_print(f"Zeile {row_num}: Spalte AR Update erfolgreich.") + debug_print(f"Zeile {row_num}: Spalte AR (Website-Rohtext) erfolgreich aktualisiert.") except Exception as e: debug_print(f"Zeile {row_num}: Fehler beim Update von Spalte AR: {e}") try: self.sheet_handler.sheet.update(values=[[website_summary]], range_name=f"AS{row_num}") - debug_print(f"Zeile {row_num}: Spalte AS Update erfolgreich.") + debug_print(f"Zeile {row_num}: Spalte AS (Website Zusammenfassung) erfolgreich aktualisiert.") except Exception as e: debug_print(f"Zeile {row_num}: Fehler beim Update von Spalte AS: {e}") + # Falls row_data noch nicht lang genug ist, erweitere die Liste + if len(row_data) < 45: + row_data.extend([""] * (45 - len(row_data))) + row_data[43] = website_raw # Spalte AR (Index 43) + row_data[44] = website_summary # Spalte AS (Index 44) debug_print(f"Zeile {row_num}: Website-Daten gescrapt. Rohtext (Länge {len(website_raw)}): {website_raw[:100]}..., Zusammenfassung: {website_summary}") else: - debug_print(f"Zeile {row_num}: Kein gültiger Website-URL vorhanden, Website-Scraping wird übersprungen.") - - # Weiterer Verarbeitungsteil: Wikipedia-Verarbeitung (wenn process_wiki True) + debug_print(f"Zeile {row_num}: Kein gültiger Trigger für Website-Scraping (Wiki URL != 'k.A.'), überspringe Website-Scraping.") + + # --- Wikipedia-Verarbeitung (falls process_wiki True) --- wiki_update_range = f"L{row_num}:R{row_num}" dt_wiki_range = f"AN{row_num}" company_data = {} @@ -1220,19 +1227,16 @@ def _process_single_row(self, row_num, row_data, process_wiki=True, process_chat 'full_infobox': 'k.A.' } self.sheet_handler.sheet.update(values=[[ - row_data[11] if len(row_data) > 11 and row_data[11].strip() not in ["", "k.A."] else "k.A.", - company_data.get('url', 'k.A.'), - company_data.get('first_paragraph', 'k.A.'), - company_data.get('branche', 'k.A.'), - company_data.get('umsatz', 'k.A.'), - company_data.get('mitarbeiter', 'k.A.'), - company_data.get('categories', 'k.A.') + row_data[11] if len(row_data) > 11 and row_data[11].strip() not in ["", "k.A."] else "k.A." + , company_data.get('url', 'k.A.'), company_data.get('first_paragraph', 'k.A.'), + company_data.get('branche', 'k.A.'), company_data.get('umsatz', 'k.A.'), + company_data.get('mitarbeiter', 'k.A.'), company_data.get('categories', 'k.A.') ]], range_name=wiki_update_range) self.sheet_handler.sheet.update(values=[[datetime.now().strftime("%Y-%m-%d %H:%M:%S")]], range_name=dt_wiki_range) else: debug_print(f"Zeile {row_num}: Wikipedia-Timestamp bereits gesetzt – überspringe Wiki-Auswertung.") - - # ChatGPT-Verarbeitung (Umsatz, FSM, Mitarbeiter, Branchenevaluierung) + + # --- ChatGPT-Verarbeitung (Umsatz, FSM, Mitarbeiter, Branchenevaluierung) --- dt_chat_range = f"AO{row_num}" ver_range = f"AP{row_num}" if process_chatgpt: @@ -1273,7 +1277,7 @@ def _process_single_row(self, row_num, row_data, process_wiki=True, process_chat self.sheet_handler.sheet.update(values=[[datetime.now().strftime('%Y-%m-%d %H:%M:%S')]], range_name=dt_chat_range) else: debug_print(f"Zeile {row_num}: ChatGPT-Timestamp bereits gesetzt – überspringe ChatGPT-Auswertung.") - + # Aktualisiere den Timestamp für die letzte Prüfung und die Version current_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S") self.sheet_handler.sheet.update(values=[[current_dt]], range_name=ver_range)