Floke b5d7add8b5 v1.1.14: Final Umsatz & Mitarbeiter extraction fix (Unicode normalized)
Zusammenfassung der Änderungen (v1.1.13 → v1.1.14)
Unicode Normalisierung:

Die Funktion clean_text nutzt nun unicodedata.normalize("NFKC", ...) um ambigue Unicode-Zeichen zu vereinheitlichen. Dadurch werden unerwartete Zeichen in Infobox-Titeln eliminiert.

Umsatz-Extraktion:

Die Helper-Funktion extract_numeric_value behandelt Zahlenstrings nun robust.

Bei "2,395 Mrd. Euro" wird "2,395" extrahiert, Punkte als Tausendertrennzeichen entfernt und das Komma als Dezimaltrenner genutzt.

"mrd" führt zur Multiplikation mit 1000, was den Wert korrekt in Mio € umrechnet (2395 Mio).

Mitarbeiterextraktion:

Der numerische Teil der Mitarbeiterzahl wird mit derselben Helper-Funktion extrahiert.

Unicode-Normalisierung und ein leicht gelockertes Matching in extract_fields_from_infobox_text („if field.lower() in token.lower()“) sollen sicherstellen, dass auch Zahlen wie "4.175 (2021/22)" erkannt und korrekt zu "4175" verarbeitet werden.

Re-Evaluierungsmodus:

Alle Zeilen mit "x" in Spalte A werden verarbeitet; der vollständige Infobox-Inhalt wird in der Konsole ausgegeben, um die Daten zu überprüfen.
2025-04-01 05:22:33 +00:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
Description
No description provided
2.8 GiB
Languages
Python 63.6%
TypeScript 19.2%
JavaScript 15.6%
HTML 0.7%
Dockerfile 0.4%
Other 0.5%