Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben

wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche.

umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT).

Wikipedia-URL wird garantiert in Spalte M geschrieben.

get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt.

GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
This commit is contained in:
2025-03-30 08:25:16 +00:00
parent dbc7e05cd9
commit 7f8c02043f

View File

@@ -123,15 +123,8 @@ def classify_company(row, wikipedia_url=""):
return parts
# === WIKIPEDIA DATEN LADEN ===
# Positivliste für Wikipedia-Kategorien, die auf Unternehmen hinweisen können
WHITELIST_KATEGORIEN = [
"Unternehmen",
"Hersteller",
"Produktion",
"Industrie",
"Maschinenbau",
"Technik",
"Dienstleistungsunternehmen"
"Unternehmen", "Hersteller", "Produktion", "Industrie", "Maschinenbau", "Technik", "Dienstleistungsunternehmen"
]
def get_wikipedia_data(name, website_hint=""):
@@ -194,11 +187,11 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))):
row = sheet_values[i]
print(f"[{time.strftime('%H:%M:%S')}] Verarbeite Zeile {i+1}: {row[0]}")
url, _, _ = get_wikipedia_data(row[0], row[1])
url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1])
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row, wikipedia_url=url)
wiki_final = wiki
umsatz_final = umsatz_chat
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
values = [
wiki_final,