Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf - Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
This commit is contained in:
@@ -123,6 +123,7 @@ def get_wikipedia_data(name, website_hint=""):
|
|||||||
# Titelprüfung verbessern
|
# Titelprüfung verbessern
|
||||||
if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]):
|
if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]):
|
||||||
continue
|
continue
|
||||||
|
url = page.url
|
||||||
html = requests.get(url).text
|
html = requests.get(url).text
|
||||||
if website_hint:
|
if website_hint:
|
||||||
domain_fragment = website_hint.lower().split(".")[0]
|
domain_fragment = website_hint.lower().split(".")[0]
|
||||||
@@ -195,7 +196,7 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))):
|
|||||||
url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1])
|
url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1])
|
||||||
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row)
|
wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row)
|
||||||
|
|
||||||
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
|
wiki_final = wiki_branche
|
||||||
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
|
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
|
||||||
|
|
||||||
values = [
|
values = [
|
||||||
|
|||||||
Reference in New Issue
Block a user