Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben
wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche. umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT). Wikipedia-URL wird garantiert in Spalte M geschrieben. get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt. GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
This commit is contained in:
@@ -123,15 +123,8 @@ def classify_company(row, wikipedia_url=""):
|
|||||||
return parts
|
return parts
|
||||||
|
|
||||||
# === WIKIPEDIA DATEN LADEN ===
|
# === WIKIPEDIA DATEN LADEN ===
|
||||||
# Positivliste für Wikipedia-Kategorien, die auf Unternehmen hinweisen können
|
|
||||||
WHITELIST_KATEGORIEN = [
|
WHITELIST_KATEGORIEN = [
|
||||||
"Unternehmen",
|
"Unternehmen", "Hersteller", "Produktion", "Industrie", "Maschinenbau", "Technik", "Dienstleistungsunternehmen"
|
||||||
"Hersteller",
|
|
||||||
"Produktion",
|
|
||||||
"Industrie",
|
|
||||||
"Maschinenbau",
|
|
||||||
"Technik",
|
|
||||||
"Dienstleistungsunternehmen"
|
|
||||||
]
|
]
|
||||||
|
|
||||||
def get_wikipedia_data(name, website_hint=""):
|
def get_wikipedia_data(name, website_hint=""):
|
||||||
@@ -194,11 +187,11 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))):
|
|||||||
row = sheet_values[i]
|
row = sheet_values[i]
|
||||||
print(f"[{time.strftime('%H:%M:%S')}] Verarbeite Zeile {i+1}: {row[0]}")
|
print(f"[{time.strftime('%H:%M:%S')}] Verarbeite Zeile {i+1}: {row[0]}")
|
||||||
|
|
||||||
url, _, _ = get_wikipedia_data(row[0], row[1])
|
url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1])
|
||||||
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row, wikipedia_url=url)
|
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row, wikipedia_url=url)
|
||||||
|
|
||||||
wiki_final = wiki
|
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
|
||||||
umsatz_final = umsatz_chat
|
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
|
||||||
|
|
||||||
values = [
|
values = [
|
||||||
wiki_final,
|
wiki_final,
|
||||||
|
|||||||
Reference in New Issue
Block a user