Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf - Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
This commit is contained in:
@@ -123,6 +123,7 @@ def get_wikipedia_data(name, website_hint=""):
|
||||
# Titelprüfung verbessern
|
||||
if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]):
|
||||
continue
|
||||
url = page.url
|
||||
html = requests.get(url).text
|
||||
if website_hint:
|
||||
domain_fragment = website_hint.lower().split(".")[0]
|
||||
@@ -195,7 +196,7 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))):
|
||||
url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1])
|
||||
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row)
|
||||
|
||||
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
|
||||
wiki_final = wiki_branche
|
||||
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
|
||||
|
||||
values = [
|
||||
|
||||
Reference in New Issue
Block a user