From 74d0b405fd7078f1e59ec8c3dd62e3bced618dca Mon Sep 17 00:00:00 2001 From: Floke Date: Sun, 30 Mar 2025 07:46:05 +0000 Subject: [PATCH] =?UTF-8?q?Fix:=20Wikipedia-URL=20wurde=20nie=20gesetzt=20?= =?UTF-8?q?und=20GPT-Antwort=20f=C3=A4lschlich=20als=20Wikipedia-Branche?= =?UTF-8?q?=20=C3=BCbernommen?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf - Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT) --- brancheneinstufung.py | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/brancheneinstufung.py b/brancheneinstufung.py index 02532a25..5fe04f87 100644 --- a/brancheneinstufung.py +++ b/brancheneinstufung.py @@ -123,6 +123,7 @@ def get_wikipedia_data(name, website_hint=""): # Titelprüfung verbessern if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]): continue + url = page.url html = requests.get(url).text if website_hint: domain_fragment = website_hint.lower().split(".")[0] @@ -195,7 +196,7 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))): url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1]) wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row) - wiki_final = wiki_branche if wiki_branche != "k.A." else wiki + wiki_final = wiki_branche umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat values = [