From 7f8c02043f9bb0f3adeb057848da23c7ea917272 Mon Sep 17 00:00:00 2001 From: Floke Date: Sun, 30 Mar 2025 08:25:16 +0000 Subject: [PATCH] Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche. umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT). Wikipedia-URL wird garantiert in Spalte M geschrieben. get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt. GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet. --- brancheneinstufung.py | 15 ++++----------- 1 file changed, 4 insertions(+), 11 deletions(-) diff --git a/brancheneinstufung.py b/brancheneinstufung.py index bda631b3..3ba09c5c 100644 --- a/brancheneinstufung.py +++ b/brancheneinstufung.py @@ -123,15 +123,8 @@ def classify_company(row, wikipedia_url=""): return parts # === WIKIPEDIA DATEN LADEN === -# Positivliste für Wikipedia-Kategorien, die auf Unternehmen hinweisen können WHITELIST_KATEGORIEN = [ - "Unternehmen", - "Hersteller", - "Produktion", - "Industrie", - "Maschinenbau", - "Technik", - "Dienstleistungsunternehmen" + "Unternehmen", "Hersteller", "Produktion", "Industrie", "Maschinenbau", "Technik", "Dienstleistungsunternehmen" ] def get_wikipedia_data(name, website_hint=""): @@ -194,11 +187,11 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))): row = sheet_values[i] print(f"[{time.strftime('%H:%M:%S')}] Verarbeite Zeile {i+1}: {row[0]}") - url, _, _ = get_wikipedia_data(row[0], row[1]) + url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1]) wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row, wikipedia_url=url) - wiki_final = wiki - umsatz_final = umsatz_chat + wiki_final = wiki_branche if wiki_branche != "k.A." else wiki + umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat values = [ wiki_final,