Brancheneinstufung2

Go to file

Floke 30a1eb11e7 v1.1.16: Added fallback debug for Umsatz extraction; improved Mitarbeiter parsing

Unicode Normalisierung:

clean_text nutzt nun unicodedata.normalize("NFKC", ...) zur Vereinheitlichung ambigue Unicode-Zeichen.

Umsatz-Extraktion:

In extract_numeric_value wird nun vor der Regex-Suche nichtbrechende Leerzeichen (\xa0) durch normale Leerzeichen ersetzt.

Bei fehlender Umwandlung (z. B. wenn kein numerischer String gefunden wird) wird ein Debug-Log ausgegeben, der den Original-Rohtext zeigt.

Mitarbeiterextraktion:

Gleiche Methode wie bei Umsatz, wobei die Mitarbeiterzahl als ganze Zahl zurückgegeben wird.

Flexible Regex (unter Nutzung von in im Vergleich) fängt Varianten ab, sodass z. B. "4.175 (2021/22)" zu "4175" wird.

2025-04-01 06:33:31 +00:00

@eaDir

Erste Version

2025-03-29 18:47:15 +01:00

Bestandsfirmen.xlsx

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung - Kopie.py

Erste Version

2025-03-29 18:47:15 +01:00

brancheneinstufung.py

v1.1.16: Added fallback debug for Umsatz extraction; improved Mitarbeiter parsing

2025-04-01 06:33:31 +00:00

service_account.json

Erste Version

2025-03-29 18:47:15 +01:00

update.log

Erste Version

2025-03-29 18:47:15 +01:00

Languages

Python 61.8%

TypeScript 20.2%

JavaScript 14.5%

HTML 2.5%

Dockerfile 0.4%

Other 0.6%