Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war

- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife - Domainprüfung erfolgt nun korrekt im HTML-Kontext - Wikipedia-URL wird jetzt wieder korrekt ausgegeben
2025-03-30 07:36:34 +00:00
parent 85ed437297
commit 38ffb826ee
1 changed files with 3 additions and 2 deletions
--- a/brancheneinstufung.py
+++ b/brancheneinstufung.py
@@ -123,13 +123,14 @@ def get_wikipedia_data(name, website_hint=""):
                # Titelprüfung verbessern
                if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]):
                    continue
                html = requests.get(url).text
                if website_hint:
-                    if website_hint.lower().split(".")[0] not in html.lower():
+                    domain_fragment = website_hint.lower().split(".")[0]
                    if domain_fragment not in html.lower():
                        continue
                if name.lower().split()[0] not in page.title.lower():
                    continue
                url = page.url
                html = requests.get(url).text
                soup = BeautifulSoup(html, 'html.parser')
                infobox = soup.find("table", class_=["infobox", "infobox vcard"])
                if not infobox: