From ff386e53d49c1cde576600d84011c786f32b8fca Mon Sep 17 00:00:00 2001 From: Floke Date: Mon, 31 Mar 2025 07:49:50 +0000 Subject: [PATCH] 1.0.8-wiki-api aktualisiert. MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain) Kein Rückfall mehr auf Kategorien bei fehlender Infobox Spalte Q enthält nun die Versionsnummer --- brancheneinstufung.py | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/brancheneinstufung.py b/brancheneinstufung.py index ac1f31f7..6e9bf2b3 100644 --- a/brancheneinstufung.py +++ b/brancheneinstufung.py @@ -15,7 +15,7 @@ from difflib import SequenceMatcher from lxml import html as lh # === KONFIGURATION === -VERSION = "1.0.5-xpath" +VERSION = "1.0.8-wiki-api" LANG = "de" CREDENTIALS = "service_account.json" SHEET_URL = "https://docs.google.com/spreadsheets/d/1u_gHr9JUfmV1-iviRzbSe3575QEp7KLhK5jFV_gJcgo" @@ -55,8 +55,8 @@ def parse_infobox_xpath(html_text): branche = "k.A." umsatz = "k.A." try: - branche_xpath = doc.xpath("//table[contains(@class, 'infobox')]//tr[th[contains(text(), 'Branche')]]/td/text()") - umsatz_xpath = doc.xpath("//table[contains(@class, 'infobox')]//tr[th[contains(translate(text(),'UMSATZ','umsatz'), 'umsatz')]]/td/text()") + branche_xpath = doc.xpath("//table[contains(@class, 'infobox')]//tr[th[contains(normalize-space(), 'Branche') or contains(normalize-space(), 'Tätigkeitsfeld')]]/td/text()") + umsatz_xpath = doc.xpath("//table[contains(@class, 'infobox')]//tr[th[contains(translate(normalize-space(), 'UMSATZ', 'umsatz'), 'umsatz')]]/td/text()") if branche_xpath: branche = branche_xpath[0].strip() if umsatz_xpath: