Brancheneinstufung2

Go to file

Floke c123d235ff v1.6.5: Refactor WikipediaScraper für robustere Infobox-Extraktion

- Überarbeite WikipediaScraper._extract_infobox_value:
    - Nutzt flexibleren CSS-Selektor ('table[class*="infobox"]') für Infobox-Suche.
    - Iteriert durch Tabellenzeilen (tr) statt nur durch th.
    - Prüft, ob Keywords *im* normalisierten th-Text enthalten sind (statt exaktem Match).
    - Entfernt <sup>-Tags vor der Textextraktion aus td-Zellen.
    - Nutzt get_text(separator=' ') für bessere Handhabung von <br>.
    - Erweitert die keywords_map für Branche, Umsatz, Mitarbeiter.
    - Fügt detailliertes Debug-Logging für den Extraktionsprozess hinzu.
- Entferne die alten Fallback-Funktionen _extract_full_infobox_text und _parse_infobox_text_fallback.
- Passe WikipediaScraper.extract_company_data an:
    - Ruft _get_page_soup nur einmal auf.
    - Verwendet die neue _extract_infobox_value Methode.
- Verbessere WikipediaScraper._validate_article:
    - Nutzt _get_page_soup für zuverlässigere Link-Prüfung.
    - Prüft Links in Infobox und externe Links.
    - Verwendet simple_normalize_url für URL-Vergleiche.
    - Passt Ähnlichkeitsschwelle an, wenn Domain-Match erfolgreich ist.
- Verbessere WikipediaScraper.search_company_article:
    - Versucht direkten Match zuerst.
    - Prüft ggf. erste Option bei Begriffsklärung.
    - Behandelt Fehler (PageError, DisambiguationError, RequestException) robuster im Such-Loop.
- Verbessere WikipediaScraper._get_page_soup:
    - Fügt Timeout, raise_for_status und explizites UTF-8 Encoding hinzu.
    - Wendet @retry_on_failure Decorator an (Annahme: Decorator existiert).
- Wende @retry_on_failure auch auf search_company_article an.
- Aktualisiere Versionsnummer in Config und Kommentaren auf v1.6.5.

2025-04-18 19:02:14 +00:00

@eaDir

Erste Version

2025-03-29 18:47:15 +01:00

Bestandsfirmen.xlsx

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung - Kopie.py

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung.py

v1.6.5: Refactor WikipediaScraper für robustere Infobox-Extraktion

2025-04-18 19:02:14 +00:00

Labyrinth.py

Font changed

2025-04-04 17:04:06 +00:00

service_account.json

Erste Version

2025-03-29 18:47:15 +01:00

update.log

Erste Version

2025-03-29 18:47:15 +01:00

Languages

Python 61.8%

TypeScript 20.2%

JavaScript 14.5%

HTML 2.5%

Dockerfile 0.4%

Other 0.6%