6f822527e8b405bda006f00e15fa633897924dea
Hauptverbesserungen im überarbeiteten Code Deutlich robustere Infobox-Erkennung: Erweiterte Suche nach Infobox-Tabellen mit mehreren möglichen Klassen Berücksichtigung verschiedener Schreibweisen und Varianten für "Branche" und "Umsatz" Drei-Methoden-Ansatz zur Datenextraktion: Methode 1: Direkte Suche in den Tabellenzeilen der Infobox Methode 2: Volltext-Suche nach spezifischen Mustern mit regulären Ausdrücken Methode 3: Suche in meta-Tags für zusätzliche Kontextinformationen Intelligentere Firmennamen-Verarbeitung: Entfernung von Rechtsformen (GmbH, AG, etc.) für bessere Suchtreffer Extraktion von Kernname für alternative Suche Wiederverwendung bestehender URLs: Der Code prüft jetzt zuerst eine bestehende Wikipedia-URL, bevor er eine neue Suche startet Reduziert unnötige Suchanfragen und verbessert die Konsistenz Detaillierter Debug-Modus: Ausführliches Logging für eine bessere Nachvollziehbarkeit Anzeige von gefundenen Headers in der Infobox für Diagnose-Zwecke Verbesserte Umsatzextaktion: Reguläre Ausdrücke für Währungs- und Zahlenformate Berücksichtigung verschiedener Formate (€, EUR, Mio., Mrd., etc.) Deutlich bessere Datenbereinigung: Umfangreichere Textbereinigung von HTML-Entitäten Sicherer Umgang mit unterschiedlichen Datentypen Diese Änderungen sollten die Probleme bei der Heimbach-Gruppe und ähnlichen Unternehmen beheben, bei denen die Daten trotz gefundenem Wikipedia-Artikel nicht korrekt extrahiert wurden. Der DEBUG-Modus hilft zusätzlich dabei, die genauen Vorgänge nachzuvollziehen und bei zukünftigen Problemen gezielter zu diagnostizieren.
Description
No description provided
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%