Floke e7accb2428 Umsatz- und Mitarbeiterextraktion finalisiert – Umsatz in Mio € und Mitarbeiterzahl als ganze Zahl (
Umsatz-Extraktion:

Der numerische Teil des Umsatzes wird mittels der Helper-Funktion extract_numeric_value extrahiert.

Komma als Dezimaltrenner wird berücksichtigt (Punkte als Tausendertrennzeichen werden entfernt).

Enthält der Text "mrd" oder "milliarden", wird der Wert mit 1000 multipliziert; enthält er "mio" oder "millionen" bleibt der Wert unverändert.

Fehlt eine Einheit, wird der Wert als Euro angenommen und durch 1.000.000 geteilt.

Beispiel: "10,0 Mrd. Euro (2021/22)" ergibt 10 * 1000 = "10000" Mio.

Mitarbeiterextraktion:

Der numerische Teil der Mitarbeiterzahl wird ebenfalls mit extract_numeric_value extrahiert.

Für Mitarbeiter wird der String ohne Skalierung zurückgegeben.

Beispiel: "4.175 (2021/22)" wird so verarbeitet, dass die Punkte als Tausendertrennzeichen entfernt werden, was "4175" ergibt.

Verwendung von extrahierten Feldern:

In der Funktion extract_company_data werden die rohen Felder ("Branche", "Umsatz", "Mitarbeiter") zuerst über extract_fields_from_infobox_text bezogen und dann mittels extract_numeric_value (für Umsatz und Mitarbeiter) normalisiert.

Re‑Evaluierungsmodus:

Im Modus "2" werden alle Zeilen mit einem "x" in Spalte A verarbeitet, ohne dass nach der Zeilenzahl gefragt wird.

Zusätzlich wird im Re‑Evaluierungsmodus der komplette Infobox-Inhalt in der Konsole ausgegeben.

Warnung zu Unicode:

Die Warnung bezüglich ambigue Unicode-Zeichen kann ignoriert werden, wenn sie nicht zu funktionalen Problemen führt.
2025-04-01 05:03:33 +00:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
Description
No description provided
2.8 GiB
Languages
Python 63.6%
TypeScript 19.2%
JavaScript 15.6%
HTML 0.7%
Dockerfile 0.4%
Other 0.5%