Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war

- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
This commit is contained in:
2025-03-30 07:36:34 +00:00
parent 85ed437297
commit 38ffb826ee

View File

@@ -123,13 +123,14 @@ def get_wikipedia_data(name, website_hint=""):
# Titelprüfung verbessern # Titelprüfung verbessern
if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]): if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]):
continue continue
html = requests.get(url).text
if website_hint: if website_hint:
if website_hint.lower().split(".")[0] not in html.lower(): domain_fragment = website_hint.lower().split(".")[0]
if domain_fragment not in html.lower():
continue continue
if name.lower().split()[0] not in page.title.lower(): if name.lower().split()[0] not in page.title.lower():
continue continue
url = page.url url = page.url
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser') soup = BeautifulSoup(html, 'html.parser')
infobox = soup.find("table", class_=["infobox", "infobox vcard"]) infobox = soup.find("table", class_=["infobox", "infobox vcard"])
if not infobox: if not infobox: