c123d235ff7998e8f4eeea5859bdd14849a7d5d7
- Überarbeite WikipediaScraper._extract_infobox_value:
- Nutzt flexibleren CSS-Selektor ('table[class*="infobox"]') für Infobox-Suche.
- Iteriert durch Tabellenzeilen (tr) statt nur durch th.
- Prüft, ob Keywords *im* normalisierten th-Text enthalten sind (statt exaktem Match).
- Entfernt <sup>-Tags vor der Textextraktion aus td-Zellen.
- Nutzt get_text(separator=' ') für bessere Handhabung von <br>.
- Erweitert die keywords_map für Branche, Umsatz, Mitarbeiter.
- Fügt detailliertes Debug-Logging für den Extraktionsprozess hinzu.
- Entferne die alten Fallback-Funktionen _extract_full_infobox_text und _parse_infobox_text_fallback.
- Passe WikipediaScraper.extract_company_data an:
- Ruft _get_page_soup nur einmal auf.
- Verwendet die neue _extract_infobox_value Methode.
- Verbessere WikipediaScraper._validate_article:
- Nutzt _get_page_soup für zuverlässigere Link-Prüfung.
- Prüft Links in Infobox und externe Links.
- Verwendet simple_normalize_url für URL-Vergleiche.
- Passt Ähnlichkeitsschwelle an, wenn Domain-Match erfolgreich ist.
- Verbessere WikipediaScraper.search_company_article:
- Versucht direkten Match zuerst.
- Prüft ggf. erste Option bei Begriffsklärung.
- Behandelt Fehler (PageError, DisambiguationError, RequestException) robuster im Such-Loop.
- Verbessere WikipediaScraper._get_page_soup:
- Fügt Timeout, raise_for_status und explizites UTF-8 Encoding hinzu.
- Wendet @retry_on_failure Decorator an (Annahme: Decorator existiert).
- Wende @retry_on_failure auch auf search_company_article an.
- Aktualisiere Versionsnummer in Config und Kommentaren auf v1.6.5.
Description
No description provided
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%