Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben
wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche. umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT). Wikipedia-URL wird garantiert in Spalte M geschrieben. get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt. GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
This commit is contained in:
@@ -123,15 +123,8 @@ def classify_company(row, wikipedia_url=""):
|
||||
return parts
|
||||
|
||||
# === WIKIPEDIA DATEN LADEN ===
|
||||
# Positivliste für Wikipedia-Kategorien, die auf Unternehmen hinweisen können
|
||||
WHITELIST_KATEGORIEN = [
|
||||
"Unternehmen",
|
||||
"Hersteller",
|
||||
"Produktion",
|
||||
"Industrie",
|
||||
"Maschinenbau",
|
||||
"Technik",
|
||||
"Dienstleistungsunternehmen"
|
||||
"Unternehmen", "Hersteller", "Produktion", "Industrie", "Maschinenbau", "Technik", "Dienstleistungsunternehmen"
|
||||
]
|
||||
|
||||
def get_wikipedia_data(name, website_hint=""):
|
||||
@@ -194,11 +187,11 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))):
|
||||
row = sheet_values[i]
|
||||
print(f"[{time.strftime('%H:%M:%S')}] Verarbeite Zeile {i+1}: {row[0]}")
|
||||
|
||||
url, _, _ = get_wikipedia_data(row[0], row[1])
|
||||
url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1])
|
||||
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row, wikipedia_url=url)
|
||||
|
||||
wiki_final = wiki
|
||||
umsatz_final = umsatz_chat
|
||||
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
|
||||
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
|
||||
|
||||
values = [
|
||||
wiki_final,
|
||||
|
||||
Reference in New Issue
Block a user