c42b59522aa4736afe2c72c801aeccc15afe26d4
Umsatz-Extraktion:
Der numerische Teil des Umsatzes wird mittels der Helper-Funktion extract_numeric_value extrahiert.
Komma als Dezimaltrenner wird berücksichtigt (Punkte als Tausendertrennzeichen werden entfernt).
Enthält der Text "mrd" oder "milliarden", wird der Wert mit 1000 multipliziert; enthält er "mio" oder "millionen" bleibt der Wert unverändert.
Fehlt eine Einheit, wird der Wert als Euro angenommen und durch 1.000.000 geteilt.
Beispiel: "10,0 Mrd. Euro (2021/22)" ergibt 10 * 1000 = "10000" Mio.
Mitarbeiterextraktion:
Der numerische Teil der Mitarbeiterzahl wird ebenfalls mit extract_numeric_value extrahiert.
Für Mitarbeiter wird der String ohne Skalierung zurückgegeben.
Beispiel: "4.175 (2021/22)" wird so verarbeitet, dass die Punkte als Tausendertrennzeichen entfernt werden, was "4175" ergibt.
Verwendung von extrahierten Feldern:
In der Funktion extract_company_data werden die rohen Felder ("Branche", "Umsatz", "Mitarbeiter") zuerst über extract_fields_from_infobox_text bezogen und dann mittels extract_numeric_value (für Umsatz und Mitarbeiter) normalisiert.
Re‑Evaluierungsmodus:
Im Modus "2" werden alle Zeilen mit einem "x" in Spalte A verarbeitet, ohne dass nach der Zeilenzahl gefragt wird.
Zusätzlich wird im Re‑Evaluierungsmodus der komplette Infobox-Inhalt in der Konsole ausgegeben.
Warnung zu Unicode:
Die Warnung bezüglich ambigue Unicode-Zeichen kann ignoriert werden, wenn sie nicht zu funktionalen Problemen führt.
Umsatz- und Mitarbeiterextraktion finalisiert – Umsatz in Mio € und Mitarbeiterzahl als ganze Zahl (
Description
No description provided
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%