From 38ffb826ee33f15510a73e2ba38829be507559eb Mon Sep 17 00:00:00 2001
From: Floke <floke.com@gmail.com>
Date: Sun, 30 Mar 2025 07:36:34 +0000
Subject: [PATCH] =?UTF-8?q?Fix:=20Wikipedia-Artikel=20wurden=20verworfen,?=
 =?UTF-8?q?=20weil=20HTML=20vor=20Pr=C3=BCfung=20nicht=20geladen=20war?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
---
 brancheneinstufung.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/brancheneinstufung.py b/brancheneinstufung.py
index fd043810..02532a25 100644
--- a/brancheneinstufung.py
+++ b/brancheneinstufung.py
@@ -123,13 +123,14 @@ def get_wikipedia_data(name, website_hint=""):
                 # Titelprüfung verbessern
                 if any(x in page.title.lower() for x in ["krankenkasse", "versicherung"]):
                     continue
+                html = requests.get(url).text
                 if website_hint:
-                    if website_hint.lower().split(".")[0] not in html.lower():
+                    domain_fragment = website_hint.lower().split(".")[0]
+                    if domain_fragment not in html.lower():
                         continue
                 if name.lower().split()[0] not in page.title.lower():
                     continue
                 url = page.url
-                html = requests.get(url).text
                 soup = BeautifulSoup(html, 'html.parser')
                 infobox = soup.find("table", class_=["infobox", "infobox vcard"])
                 if not infobox: