From 38ffb826ee33f15510a73e2ba38829be507559eb Mon Sep 17 00:00:00 2001 From: Floke Date: Sun, 30 Mar 2025 07:36:34 +0000 Subject: [PATCH] =?UTF-8?q?Fix:=20Wikipedia-Artikel=20wurden=20verworfen,?= =?UTF-8?q?=20weil=20HTML=20vor=20Pr=C3=BCfung=20nicht=20geladen=20war?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife - Domainprüfung erfolgt nun korrekt im HTML-Kontext - Wikipedia-URL wird jetzt wieder korrekt ausgegeben --- brancheneinstufung.py | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/brancheneinstufung.py b/brancheneinstufung.py index fd043810..02532a25 100644 --- a/brancheneinstufung.py +++ b/brancheneinstufung.py @@ -123,13 +123,14 @@ def get_wikipedia_data(name, website_hint=""): # Titelprüfung verbessern if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]): continue + html = requests.get(url).text if website_hint: - if website_hint.lower().split(".")[0] not in html.lower(): + domain_fragment = website_hint.lower().split(".")[0] + if domain_fragment not in html.lower(): continue if name.lower().split()[0] not in page.title.lower(): continue url = page.url - html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') infobox = soup.find("table", class_=["infobox", "infobox vcard"]) if not infobox: