bugfix

2025-04-09 07:31:23 +00:00
parent 3acb6cf3dc
commit 9f45231a74
1 changed files with 105 additions and 90 deletions
--- a/brancheneinstufung.py
+++ b/brancheneinstufung.py
@@ -1129,27 +1129,38 @@ class DataProcessor:
                    break
                self._process_single_row(i, row)
                rows_processed += 1
-    def _process_single_row(self, row_num, row_data, process_wiki=True, process_chatgpt=True):
+def _process_single_row(self, row_num, row_data, process_wiki=True, process_chatgpt=True):
-        # Überspringe Zeile, falls in Spalte AO (Timestamp letzte Prüfung, Index 40) bereits ein Wert steht
+    # Hole den Firmennamen aus Spalte B
        if len(row_data) > 40 and row_data[40].strip() != "":
            debug_print(f"Zeile {row_num} übersprungen: Timestamp bereits vorhanden.")
            return
    company_name = row_data[1] if len(row_data) > 1 else ""
-        website_url = row_data[3] if len(row_data) > 3 else "k.A."
+    
-        current_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+    # Hole die CRM-Website (Spalte D). Wenn diese leer ist, führe den SERP-API Lookup durch.
-        # Website-Fallback: Extrahiere Rohtext und Zusammenfassung (Spalten AR, AS)
+    website_url = row_data[3] if len(row_data) > 3 else ""
    if website_url.strip() == "" or website_url.strip().lower() == "k.a.":
        new_website = serp_website_lookup(company_name)
        if new_website != "k.A.":
            website_url = new_website
            self.sheet_handler.sheet.update(values=[[website_url]], range_name=f"D{row_num}")
            debug_print(f"Zeile {row_num}: CRM-Website war leer – neue Website gefunden und in Spalte D eingetragen: {website_url}")
        else:
            debug_print(f"Zeile {row_num}: Keine Website gefunden für {company_name}.")
    # Unabhängig vom process_wiki-Flag: Führe Website-Scraping durch, sofern eine Website vorliegt
    website_raw = "k.A."
    website_summary = "k.A."
-        if website_url != "k.A." and website_url.strip() != "":
+    if website_url.strip() != "" and website_url.strip().lower() != "k.a.":
        website_raw = get_website_raw(website_url)
        website_summary = summarize_website_content(website_raw)
        self.sheet_handler.sheet.update(values=[[website_raw]], range_name=f"AR{row_num}")
        self.sheet_handler.sheet.update(values=[[website_summary]], range_name=f"AS{row_num}")
-        company_data = {}
+        debug_print(f"Zeile {row_num}: Website-Daten gescrapt. Zusammenfassung: {website_summary}")
-        # Wikipedia-Verarbeitung (Spalten L bis R)
+    else:
        debug_print(f"Zeile {row_num}: Kein gültiger Website-URL vorhanden, Website-Scraping wird übersprungen.")
    # Nun folgt der bestehende Ablauf der weiteren Verarbeitung:
    # – Wikipedia-Verarbeitung (wenn process_wiki True)
    wiki_update_range = f"L{row_num}:R{row_num}"
    dt_wiki_range = f"AN{row_num}"
    company_data = {}
    if process_wiki:
        if len(row_data) <= 39 or row_data[39].strip() == "":
            if len(row_data) > 11 and row_data[11].strip() not in ["", "k.A."]:
@@ -1157,7 +1168,7 @@ class DataProcessor:
                try:
                    company_data = self.wiki_scraper.extract_company_data(wiki_url)
                except Exception as e:
-                        debug_print(f"Fehler beim Laden des vorgeschlagenen Wikipedia-Artikels: {e}")
+                    debug_print(f"Zeile {row_num}: Fehler beim Laden des vorgeschlagenen Wikipedia-Artikels: {e}")
                    article = self.wiki_scraper.search_company_article(company_name, website_url)
                    company_data = self.wiki_scraper.extract_company_data(article.url) if article else {
                        'url': 'k.A.', 'first_paragraph': 'k.A.', 'branche': 'k.A.',
@@ -1180,10 +1191,11 @@ class DataProcessor:
                company_data.get('mitarbeiter', 'k.A.'),
                company_data.get('categories', 'k.A.')
            ]], range_name=wiki_update_range)
-                self.sheet_handler.sheet.update(values=[[current_dt]], range_name=dt_wiki_range)
+            self.sheet_handler.sheet.update(values=[[datetime.now().strftime("%Y-%m-%d %H:%M:%S")]], range_name=dt_wiki_range)
        else:
            debug_print(f"Zeile {row_num}: Wikipedia-Timestamp bereits gesetzt – überspringe Wiki-Auswertung.")
-        # ChatGPT-Verarbeitung
+    
    # ChatGPT-Verarbeitung (z.B. Umsatz, FSM, Mitarbeiter und Branchenevaluierung)
    dt_chat_range = f"AO{row_num}"
    ver_range = f"AP{row_num}"
    if process_chatgpt:
@@ -1221,12 +1233,15 @@ class DataProcessor:
            emp_tokens = token_count(str(emp_estimate))
            total_tokens = f"Wiki: {wiki_tokens}, Chat: {chat_tokens}, Emp: {emp_tokens}"
            self.sheet_handler.sheet.update(values=[[total_tokens]], range_name=f"AQ{row_num}")
-                self.sheet_handler.sheet.update(values=[[current_dt]], range_name=dt_chat_range)
+            self.sheet_handler.sheet.update(values=[[datetime.now().strftime('%Y-%m-%d %H:%M:%S')]], range_name=dt_chat_range)
        else:
            debug_print(f"Zeile {row_num}: ChatGPT-Timestamp bereits gesetzt – überspringe ChatGPT-Auswertung.")
    # Aktualisiere den Timestamp für die letzte Prüfung und die Version
    current_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    self.sheet_handler.sheet.update(values=[[current_dt]], range_name=ver_range)
    self.sheet_handler.sheet.update(values=[[Config.VERSION]], range_name=ver_range)
-        debug_print(f"✅ Aktualisiert: URL: {company_data.get('url', 'k.A.')}, Branche: {company_data.get('branche', 'k.A.')}, Umsatz-Abgleich: {abgleich_result}, Validierung: {valid_result}, FSM: {fsm_result['suitability']}, Servicetechniker-Schätzung: {st_estimate}")
+    debug_print(f"Zeile {row_num} abgeschlossen. URL: {company_data.get('url', 'k.A.')}, Branche: {company_data.get('branche', 'k.A.')}, Umsatz-Abgleich: {abgleich_result}, Validierung: {valid_result}, FSM: {fsm_result['suitability']}, Servicetechniker-Schätzung: {st_estimate}")
    time.sleep(Config.RETRY_DELAY)
 # ==================== ALIGNMENT DEMO FÜR HAUPTBLATT UND CONTACTS ====================