Commit Graph

487 Commits

Author SHA1 Message Date
c8d14b7672 list_generator.py hinzugefügt 2025-05-26 17:40:22 +00:00
a5bb08a118 bugfix 2025-05-26 16:05:47 +00:00
b7aa9f18ee bugfix 2025-05-26 11:52:57 +00:00
b8bc98d0c7 v1.7.7: Implement Parent Account Suggestion via ChatGPT
- Neuer Modus 'suggest_parents' für die Generierung von Vorschlägen zu Muttergesellschaften.
- Nutzt ChatGPT zur Analyse von Unternehmensdaten (CRM, Wiki, Website-Zusammenfassung).
- Schreibt Vorschläge in Spalte O ('System Vorschlag Parent Account'), setzt Status P auf '?' und Timestamp Q.
- Implementiert parallele OpenAI-Anfragen für Batch-Verarbeitung.
- Automatische Startzeilenermittlung basierend auf leerer Spalte O.
- Optionale Neubewertung von Zeilen mit Status P = '?'.
2025-05-26 10:54:41 +00:00
defe025c9d bugfix 2025-05-26 09:22:56 +00:00
f4821fbea3 bugfix 2025-05-26 09:15:06 +00:00
b4ac182ce1 bugfix 2025-05-26 06:25:36 +00:00
297731f934 bugfix 2025-05-25 18:57:14 +00:00
52cf09a2f2 bugfix 2025-05-25 18:19:31 +00:00
56005f27c7 bugfix 2025-05-25 11:25:52 +00:00
1e5ed14c52 bugfix 2025-05-25 10:43:07 +00:00
f2b1752c6c bugfix 2025-05-25 10:26:10 +00:00
3fb67137dd v1.7.5: Zahlenextraktion & Plausi-Logik verfeinert, Plausi-TS
- Zahlenextraktionsfunktionen (`get_numeric_filter_value`, `_get_numeric_value_for_plausi`) überarbeitet für robustere Behandlung von:
    - Tausendertrennern (Punkt, Apostroph, Leerzeichen).
    - Dezimaltrennzeichen (Komma, Punkt).
    - Annahme, dass Umsatz-Rohwerte im Sheet bereits in Mio. € sind (außer bei expliziten Einheiten wie Mrd/Tsd).
    - String-Input "0" wird in `_get_numeric_value_for_plausi` jetzt konsistent als "unbekannt" (NaN) behandelt.
- Methode `_check_financial_plausibility` angepasst:
    - Verwendet die korrigierten numerischen Werte für absolute Plausi-Checks.
    - Nutzt `get_numeric_filter_value` für den Vergleich von CRM- vs. Wiki-Umsatz (Mio.-Werte).
    - Default-Flags auf "NICHT_PRUEFBAR" geändert, wenn zugrundeliegende Zahlen NaN sind.
    - Logik für "FEHLER_FORMAT" präzisiert, um explizite "0"-Strings nicht fälschlicherweise als Formatfehler zu werten.
- Konsolidierungslogik in `_process_single_row` stellt sicher, dass `final_umsatz/ma_str_konsolidiert` korrekt "k.A." wird, wenn numerische Quellen 0 (im Sinne von unbekannt) sind.
- Plausibilitäts-Checks in `_process_single_row` verwenden nun die direkt zuvor neu konsolidierten Finanzwerte.
- Sicherstellung, dass der "Plausibilität Prüfdatum"-Timestamp (Spalte BM) auch bei Fehlern innerhalb des Plausi-Check-Blocks in `_process_single_row` gesetzt wird.
- Methode `run_plausibility_checks_batch` aktualisiert, um die korrigierte Konsolidierungs- und Plausi-Logik zu verwenden und den Plausi-Timestamp zu schreiben.
- Diverse Debug-Log-Ausgaben zur besseren Nachverfolgung der Zahlenverarbeitung und Plausi-Logik hinzugefügt/optimiert.
2025-05-25 10:09:47 +00:00
85556d80cd bugfix 2025-05-23 18:45:35 +00:00
17fce1255b v1.7.6: Spalten für Parent-Account & Plausi-TS; detaillierte Header
- Version auf 1.7.6 erhöht.
- Einführung von drei neuen Spalten zur Handhabung von Konzernstrukturen:
    - "Parent Account Name" (manuell/CRM) an Position D.
    - "System Vorschlag Parent Account" an Position O.
    - "Parent Vorschlag Status" an Position P.
- Einführung der Spalte "Plausibilität Prüfdatum" an Position BI für den Timestamp der Plausibilitäts-Checks.
- Alle nachfolgenden Spaltenindizes in `COLUMN_MAP` entsprechend der neuen 67-Spalten-Struktur (A-BO) angepasst.
- `alignment_demo`-Funktion (`new_headers`) vollständig überarbeitet, um alle 67 Spalten mit ausführlichen Beschreibungen und Aufgaben für Zeilen 4 & 5 zu reflektieren (basierend auf wiederhergestellten Originalbeschreibungen und neuen Spaltendefinitionen).
- Ziel: Präzisere Datenerfassung für Konzernzugehörigkeiten und bessere Nachvollziehbarkeit der Spaltenbedeutungen als "Single Source of Truth".
2025-05-22 18:36:45 +00:00
280653a748 v1.7.5: Konsolidierung in Plausi-Check-Modus integriert
- Modus "plausi_check_data" (Methode `run_plausibility_checks_batch`) erweitert, um Finanzdaten (Umsatz/MA) vor den Plausibilitätsprüfungen zu konsolidieren.
- Konsolidierungslogik (Wiki > CRM) aus `_process_single_row` in `run_plausibility_checks_batch` übernommen und angepasst.
- Schreibt nun die neu konsolidierten Werte in Spalten AY ("Finaler Umsatz (Wiki>CRM)") und BA ("Finaler Mitarbeiter (Wiki>CRM)").
- Plausibilitäts-Checks verwenden diese frisch konsolidierten Werte als Input.
- Ziel: Ermöglicht einen vollständigen Plausibilitäts-Check-Lauf ohne vorherigen separaten `reeval`-Lauf für die Datenkonsolidierung.
- Logik zur Behandlung von "0"-Werten in `get_numeric_filter_value` und `_get_numeric_value_for_plausi` weiter verfeinert, um "0 als unbekannt" vs. "berechnete 0" zu unterscheiden.
2025-05-13 11:19:06 +00:00
a69b120666 bugfix 2025-05-13 10:33:48 +00:00
90bdc7edfb bugfix 2025-05-13 10:27:44 +00:00
648f8e41dd revert 2025-05-12 19:56:34 +00:00
379ab5227e bugfix 2025-05-12 19:50:03 +00:00
2977bc6191 bugfix 2025-05-12 19:45:20 +00:00
1dd123e07c v1.7.5: Modus für Plausibilitäts-Checks hinzugefügt
- Neuen Verarbeitungsmodus "plausi_check_data" implementiert.
- Modus führt Plausibilitätsprüfungen für Finanzdaten (Umsatz, Mitarbeiter, Ratio, CRM/Wiki-Abgleich) durch.
- Methode `DataProcessor.run_plausibility_checks_batch` erstellt und in `main()` integriert.
- Spalte "Plausibilität Prüfdatum" wird in diesem Modus gesetzt.
- Ziel: Gezielte Ausführung der Datenqualitäts-Checks für bestehende konsolidierte Werte.
2025-05-12 19:39:55 +00:00
0e1aefdaff bugfix 2025-05-12 19:32:36 +00:00
82e30d8273 bugfix 2025-05-12 19:26:33 +00:00
d901eee2c1 bugfix 2025-05-12 19:18:21 +00:00
15e97b6bdb bugfix 2025-05-12 19:14:57 +00:00
c073561e18 bugfix 2025-05-12 19:03:26 +00:00
9c8799ae84 debug 2025-05-12 18:58:11 +00:00
1cbb4e3345 bugfix 2025-05-12 18:51:59 +00:00
56d506eb33 bugfix 2025-05-12 18:47:31 +00:00
c3c801d475 bugfix 2025-05-12 18:45:56 +00:00
f97f86abd1 debug = true 2025-05-12 18:34:20 +00:00
00474b73f6 bugfix 2025-05-12 18:12:29 +00:00
9e43ddc59c v1.7.5: Spaltenreihenfolge für Timestamps und Plausi-Checks optimiert
- "Contact Search Timestamp" nach "Geschaetzter Techniker Bucket" verschoben.
- 6 Plausibilitäts-Check-Spalten danach eingefügt.
- Neue Spalte "Plausibilität Prüfdatum" hinzugefügt.
- COLUMN_MAP und alignment_demo entsprechend der neuen 64-Spalten-Struktur (A-BL) aktualisiert.
2025-05-12 18:11:08 +00:00
38805a9521 bugfix 2025-05-12 14:56:18 +00:00
b6bce07f90 bugfix 2025-05-12 14:50:58 +00:00
1567fdd6d2 v1.7.5: Plausibilitäts-Check Spalten für Finanzdaten hinzugefügt
- 6 neue Spalten für Plausibilitätsprüfungen (Umsatz, MA, Ratio, Abweichungen CRM/Wiki, Begründung) in COLUMN_MAP und alignment_demo eingefügt.
- Indizes aller nachfolgenden Spalten angepasst.
- Ziel: Detaillierte Kennzeichnung von Datenqualitätsproblemen.
2025-05-12 14:24:56 +00:00
c45baccba0 Reparatur Sitz 2025-05-12 08:22:50 +00:00
f1c598e7ba v1.7.4: Parsing-Logik für Wiki-Sitz (Stadt/Land) optimiert
- Heuristische Mustererkennung in `WikipediaScraper.extract_company_data` für die Trennung von Stadt und Land aus rohen Sitzangaben verbessert.
- Berücksichtigung von Ländercode-Präfixen (z.B. D-PLZ).
- Optimierte Behandlung von Komma-getrennten Angaben und Ländern am Ende des Strings.
- Verfeinerte Logik zur Isolierung des Stadtnamens nach erfolgreicher Länderextraktion.
2025-05-12 05:37:24 +00:00
1832967e8e bugfix 2025-05-11 21:13:31 +00:00
c1fd99c579 bugfix 2025-05-11 21:08:02 +00:00
dc8be192ca debug = False 2025-05-11 21:00:48 +00:00
fec1cedf5e bugfix 2025-05-11 20:42:53 +00:00
e0035f0bc4 bugfix 2025-05-11 20:29:57 +00:00
0f228f8ed8 bugfix 2025-05-11 20:22:07 +00:00
e515ce0fc2 bugfix 2025-05-11 20:18:02 +00:00
1677ab058f bugfix 2025-05-11 20:06:48 +00:00
e4c7d9570c v1.7.4: Spalte für Branchen-KI-Konfidenz hinzugefügt
- Neue Spalte "Chat Branche Konfidenz" (AI) in COLUMN_MAP und alignment_demo eingefügt.
- Nachfolgende Spaltenindizes angepasst.
- Ziel: Speicherung des Konfidenz-Scores der Branchen-KI.
- Prompt für evaluate_branche_chatgpt angepasst, um Konfidenz (Hoch/Mittel/Niedrig) zu erfragen.
- Antwortformat-Anweisung im Prompt um Konfidenz erweitert.
- Parsing-Logik in evaluate_branche_chatgpt erweitert, um Konfidenz zu extrahieren.
- Rückgabewert von evaluate_branche_chatgpt um 'confidence'-Schlüssel erweitert.
- DataProcessor._process_single_row angepasst, um den Branchen-KI-Konfidenz-Score zu speichern.
- Logik zum Berechnen und Speichern von "Finaler Umsatz (Wiki>CRM)" und "Finaler Mitarbeiter (Wiki>CRM)" in _process_single_row integriert.
2025-05-11 19:28:08 +00:00
7660378828 v1.7.3: Code-Duplikation in DataProcessor entfernt
- Entfernung redundanter Methodendefinitionen am Ende der DataProcessor-Klasse.
- Betroffene Methoden: _predict_technician_bucket, _load_ml_model, prepare_data_for_modeling, train_technician_model, process_website_details, process_wiki_updates_from_chatgpt, process_wiki_reextract_missing_an.
- Redundanten lokalen Import von 'openai' in Config.load_api_keys entfernt. Der globale Import ist ausreichend.
- Temporären Platzhalter für die Validierung von ChatGPT-Wiki-URL-Vorschlägen in 'process_wiki_updates_from_chatgpt' durch Aufruf von 'is_valid_wikipedia_article_url' ersetzt.
2025-05-11 18:43:33 +00:00
058bb72501 bugfix 2025-05-11 17:24:22 +00:00