Floke 6f822527e8 Claude V 1.1
Hauptverbesserungen im überarbeiteten Code

Deutlich robustere Infobox-Erkennung:

Erweiterte Suche nach Infobox-Tabellen mit mehreren möglichen Klassen
Berücksichtigung verschiedener Schreibweisen und Varianten für "Branche" und "Umsatz"


Drei-Methoden-Ansatz zur Datenextraktion:

Methode 1: Direkte Suche in den Tabellenzeilen der Infobox
Methode 2: Volltext-Suche nach spezifischen Mustern mit regulären Ausdrücken
Methode 3: Suche in meta-Tags für zusätzliche Kontextinformationen


Intelligentere Firmennamen-Verarbeitung:

Entfernung von Rechtsformen (GmbH, AG, etc.) für bessere Suchtreffer
Extraktion von Kernname für alternative Suche


Wiederverwendung bestehender URLs:

Der Code prüft jetzt zuerst eine bestehende Wikipedia-URL, bevor er eine neue Suche startet
Reduziert unnötige Suchanfragen und verbessert die Konsistenz


Detaillierter Debug-Modus:

Ausführliches Logging für eine bessere Nachvollziehbarkeit
Anzeige von gefundenen Headers in der Infobox für Diagnose-Zwecke


Verbesserte Umsatzextaktion:

Reguläre Ausdrücke für Währungs- und Zahlenformate
Berücksichtigung verschiedener Formate (€, EUR, Mio., Mrd., etc.)


Deutlich bessere Datenbereinigung:

Umfangreichere Textbereinigung von HTML-Entitäten
Sicherer Umgang mit unterschiedlichen Datentypen



Diese Änderungen sollten die Probleme bei der Heimbach-Gruppe und ähnlichen Unternehmen beheben, bei denen die Daten trotz gefundenem Wikipedia-Artikel nicht korrekt extrahiert wurden.
Der DEBUG-Modus hilft zusätzlich dabei, die genauen Vorgänge nachzuvollziehen und bei zukünftigen Problemen gezielter zu diagnostizieren.
2025-03-31 10:28:00 +00:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-31 10:28:00 +00:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
Description
No description provided
2.8 GiB
Languages
Python 63.6%
TypeScript 19.2%
JavaScript 15.6%
HTML 0.7%
Dockerfile 0.4%
Other 0.5%