Brancheneinstufung2

Go to file

Floke 020a17d3b3 v1.1.15: Final Umsatz & Mitarbeiter extraction fix with Unicode normalization

Unicode Normalisierung:

In der Funktion clean_text wird nun unicodedata.normalize("NFKC", ...) verwendet, um ambigue Unicode-Zeichen zu vereinheitlichen. Dadurch sollten unerwartete Leerzeichen oder Sonderzeichen keine Probleme mehr verursachen.

Umsatz-Extraktion:

Der numerische Teil wird korrekt extrahiert, indem Punkte als Tausendertrennzeichen entfernt und Kommas als Dezimaltrenner interpretiert werden.

Bei "Mrd" wird der Wert mit 1000 multipliziert, sodass z. B. "2,395 Mrd. Euro" zu 2395 Mio. umgerechnet wird.

Mitarbeiterextraktion:

Die Mitarbeiterzahl wird mittels der gleichen Helper-Funktion extrahiert. Unicode-Normalisierung und flexible Regex (mit "in" anstatt exakter Vergleiche) sorgen dafür, dass Werte wie "4.175 (2021/22)" korrekt als 4175 erkannt werden.

Allgemeines:

Der Re‑Evaluierungsmodus verarbeitet alle Zeilen mit „x“ in Spalte A und gibt den vollständigen Infobox-Inhalt in der Konsole aus.

Diese Version (v1.1.15) sollte nun das Problem beheben, dass Mitarbeiterzahlen nicht extrahiert wurden, und gleichzeitig die Umsatzwerte korrekt in Mio € umrechnen. Bitte teste die Version und gib Bescheid, falls noch weitere Anpassungen erforderlich sind.

2025-04-01 06:15:11 +00:00

@eaDir

Erste Version

2025-03-29 18:47:15 +01:00

Bestandsfirmen.xlsx

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung - Kopie.py

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung.py

v1.1.15: Final Umsatz & Mitarbeiter extraction fix with Unicode normalization

2025-04-01 06:15:11 +00:00

service_account.json

Erste Version

2025-03-29 18:47:15 +01:00

update.log

Erste Version

2025-03-29 18:47:15 +01:00

Languages

Python 61.8%

TypeScript 20.2%

JavaScript 14.5%

HTML 2.5%

Dockerfile 0.4%

Other 0.6%