Brancheneinstufung2

Author	SHA1	Message	Date
Floke	6f049689a3	v1.7.5: Zahlenextraktion & Plausi-Logik verfeinert, Plausi-TS - Zahlenextraktionsfunktionen (`get_numeric_filter_value`, `_get_numeric_value_for_plausi`) überarbeitet für robustere Behandlung von: - Tausendertrennern (Punkt, Apostroph, Leerzeichen). - Dezimaltrennzeichen (Komma, Punkt). - Annahme, dass Umsatz-Rohwerte im Sheet bereits in Mio. € sind (außer bei expliziten Einheiten wie Mrd/Tsd). - String-Input "0" wird in `_get_numeric_value_for_plausi` jetzt konsistent als "unbekannt" (NaN) behandelt. - Methode `_check_financial_plausibility` angepasst: - Verwendet die korrigierten numerischen Werte für absolute Plausi-Checks. - Nutzt `get_numeric_filter_value` für den Vergleich von CRM- vs. Wiki-Umsatz (Mio.-Werte). - Default-Flags auf "NICHT_PRUEFBAR" geändert, wenn zugrundeliegende Zahlen NaN sind. - Logik für "FEHLER_FORMAT" präzisiert, um explizite "0"-Strings nicht fälschlicherweise als Formatfehler zu werten. - Konsolidierungslogik in `_process_single_row` stellt sicher, dass `final_umsatz/ma_str_konsolidiert` korrekt "k.A." wird, wenn numerische Quellen 0 (im Sinne von unbekannt) sind. - Plausibilitäts-Checks in `_process_single_row` verwenden nun die direkt zuvor neu konsolidierten Finanzwerte. - Sicherstellung, dass der "Plausibilität Prüfdatum"-Timestamp (Spalte BM) auch bei Fehlern innerhalb des Plausi-Check-Blocks in `_process_single_row` gesetzt wird. - Methode `run_plausibility_checks_batch` aktualisiert, um die korrigierte Konsolidierungs- und Plausi-Logik zu verwenden und den Plausi-Timestamp zu schreiben. - Diverse Debug-Log-Ausgaben zur besseren Nachverfolgung der Zahlenverarbeitung und Plausi-Logik hinzugefügt/optimiert.	2025-05-25 10:09:47 +00:00
Floke	f244e3ba7f	bugfix	2025-05-23 18:45:35 +00:00
Floke	e92e4cc841	v1.7.6: Spalten für Parent-Account & Plausi-TS; detaillierte Header - Version auf 1.7.6 erhöht. - Einführung von drei neuen Spalten zur Handhabung von Konzernstrukturen: - "Parent Account Name" (manuell/CRM) an Position D. - "System Vorschlag Parent Account" an Position O. - "Parent Vorschlag Status" an Position P. - Einführung der Spalte "Plausibilität Prüfdatum" an Position BI für den Timestamp der Plausibilitäts-Checks. - Alle nachfolgenden Spaltenindizes in `COLUMN_MAP` entsprechend der neuen 67-Spalten-Struktur (A-BO) angepasst. - `alignment_demo`-Funktion (`new_headers`) vollständig überarbeitet, um alle 67 Spalten mit ausführlichen Beschreibungen und Aufgaben für Zeilen 4 & 5 zu reflektieren (basierend auf wiederhergestellten Originalbeschreibungen und neuen Spaltendefinitionen). - Ziel: Präzisere Datenerfassung für Konzernzugehörigkeiten und bessere Nachvollziehbarkeit der Spaltenbedeutungen als "Single Source of Truth".	2025-05-22 18:36:45 +00:00
Floke	081bf87a5e	v1.7.5: Konsolidierung in Plausi-Check-Modus integriert - Modus "plausi_check_data" (Methode `run_plausibility_checks_batch`) erweitert, um Finanzdaten (Umsatz/MA) vor den Plausibilitätsprüfungen zu konsolidieren. - Konsolidierungslogik (Wiki > CRM) aus `_process_single_row` in `run_plausibility_checks_batch` übernommen und angepasst. - Schreibt nun die neu konsolidierten Werte in Spalten AY ("Finaler Umsatz (Wiki>CRM)") und BA ("Finaler Mitarbeiter (Wiki>CRM)"). - Plausibilitäts-Checks verwenden diese frisch konsolidierten Werte als Input. - Ziel: Ermöglicht einen vollständigen Plausibilitäts-Check-Lauf ohne vorherigen separaten `reeval`-Lauf für die Datenkonsolidierung. - Logik zur Behandlung von "0"-Werten in `get_numeric_filter_value` und `_get_numeric_value_for_plausi` weiter verfeinert, um "0 als unbekannt" vs. "berechnete 0" zu unterscheiden.	2025-05-13 11:19:06 +00:00
Floke	40bfabc4bc	bugfix	2025-05-13 10:33:48 +00:00
Floke	e8bea6a086	bugfix	2025-05-13 10:27:44 +00:00
Floke	ae7d838fff	revert	2025-05-12 19:56:34 +00:00
Floke	37d1b28b38	bugfix	2025-05-12 19:50:03 +00:00
Floke	a6a3ef7ef7	bugfix	2025-05-12 19:45:20 +00:00
Floke	e45623438e	v1.7.5: Modus für Plausibilitäts-Checks hinzugefügt - Neuen Verarbeitungsmodus "plausi_check_data" implementiert. - Modus führt Plausibilitätsprüfungen für Finanzdaten (Umsatz, Mitarbeiter, Ratio, CRM/Wiki-Abgleich) durch. - Methode `DataProcessor.run_plausibility_checks_batch` erstellt und in `main()` integriert. - Spalte "Plausibilität Prüfdatum" wird in diesem Modus gesetzt. - Ziel: Gezielte Ausführung der Datenqualitäts-Checks für bestehende konsolidierte Werte.	2025-05-12 19:39:55 +00:00
Floke	0d54c59ae3	bugfix	2025-05-12 19:32:36 +00:00
Floke	75de66550b	bugfix	2025-05-12 19:26:33 +00:00
Floke	b85008ddc5	bugfix	2025-05-12 19:18:21 +00:00
Floke	276e6806d9	bugfix	2025-05-12 19:14:57 +00:00
Floke	fb966f172b	bugfix	2025-05-12 19:03:26 +00:00
Floke	ccf91c472b	debug	2025-05-12 18:58:11 +00:00
Floke	2a57aa9aa9	bugfix	2025-05-12 18:51:59 +00:00
Floke	33aea8e32a	bugfix	2025-05-12 18:47:31 +00:00
Floke	f797dab1a8	bugfix	2025-05-12 18:45:56 +00:00
Floke	cd1faeb46c	debug = true	2025-05-12 18:34:20 +00:00
Floke	42dea2e033	bugfix	2025-05-12 18:12:29 +00:00
Floke	28a869f87d	v1.7.5: Spaltenreihenfolge für Timestamps und Plausi-Checks optimiert - "Contact Search Timestamp" nach "Geschaetzter Techniker Bucket" verschoben. - 6 Plausibilitäts-Check-Spalten danach eingefügt. - Neue Spalte "Plausibilität Prüfdatum" hinzugefügt. - COLUMN_MAP und alignment_demo entsprechend der neuen 64-Spalten-Struktur (A-BL) aktualisiert.	2025-05-12 18:11:08 +00:00
Floke	6673ab4b86	bugfix	2025-05-12 14:56:18 +00:00
Floke	7e6d3f9714	bugfix	2025-05-12 14:50:58 +00:00
Floke	d28effcafd	v1.7.5: Plausibilitäts-Check Spalten für Finanzdaten hinzugefügt - 6 neue Spalten für Plausibilitätsprüfungen (Umsatz, MA, Ratio, Abweichungen CRM/Wiki, Begründung) in COLUMN_MAP und alignment_demo eingefügt. - Indizes aller nachfolgenden Spalten angepasst. - Ziel: Detaillierte Kennzeichnung von Datenqualitätsproblemen.	2025-05-12 14:24:56 +00:00
Floke	74cf866c1e	Reparatur Sitz	2025-05-12 08:22:50 +00:00
Floke	2e4759cf8c	v1.7.4: Parsing-Logik für Wiki-Sitz (Stadt/Land) optimiert - Heuristische Mustererkennung in `WikipediaScraper.extract_company_data` für die Trennung von Stadt und Land aus rohen Sitzangaben verbessert. - Berücksichtigung von Ländercode-Präfixen (z.B. D-PLZ). - Optimierte Behandlung von Komma-getrennten Angaben und Ländern am Ende des Strings. - Verfeinerte Logik zur Isolierung des Stadtnamens nach erfolgreicher Länderextraktion.	2025-05-12 05:37:24 +00:00
Floke	660a9ddbd2	bugfix	2025-05-11 21:13:31 +00:00
Floke	d3d4d15549	bugfix	2025-05-11 21:08:02 +00:00
Floke	05ed038862	debug = False	2025-05-11 21:00:48 +00:00
Floke	2646485f7e	bugfix	2025-05-11 20:42:53 +00:00
Floke	3f9e9ba8ef	bugfix	2025-05-11 20:29:57 +00:00
Floke	3952a985c0	bugfix	2025-05-11 20:22:07 +00:00
Floke	fc2f96db00	bugfix	2025-05-11 20:18:02 +00:00
Floke	da098c77e6	bugfix	2025-05-11 20:06:48 +00:00
Floke	e2241baabf	v1.7.4: Spalte für Branchen-KI-Konfidenz hinzugefügt - Neue Spalte "Chat Branche Konfidenz" (AI) in COLUMN_MAP und alignment_demo eingefügt. - Nachfolgende Spaltenindizes angepasst. - Ziel: Speicherung des Konfidenz-Scores der Branchen-KI. - Prompt für evaluate_branche_chatgpt angepasst, um Konfidenz (Hoch/Mittel/Niedrig) zu erfragen. - Antwortformat-Anweisung im Prompt um Konfidenz erweitert. - Parsing-Logik in evaluate_branche_chatgpt erweitert, um Konfidenz zu extrahieren. - Rückgabewert von evaluate_branche_chatgpt um 'confidence'-Schlüssel erweitert. - DataProcessor._process_single_row angepasst, um den Branchen-KI-Konfidenz-Score zu speichern. - Logik zum Berechnen und Speichern von "Finaler Umsatz (Wiki>CRM)" und "Finaler Mitarbeiter (Wiki>CRM)" in _process_single_row integriert.	2025-05-11 19:28:08 +00:00
Floke	7eb4c57f02	v1.7.3: Code-Duplikation in DataProcessor entfernt - Entfernung redundanter Methodendefinitionen am Ende der DataProcessor-Klasse. - Betroffene Methoden: _predict_technician_bucket, _load_ml_model, prepare_data_for_modeling, train_technician_model, process_website_details, process_wiki_updates_from_chatgpt, process_wiki_reextract_missing_an. - Redundanten lokalen Import von 'openai' in Config.load_api_keys entfernt. Der globale Import ist ausreichend. - Temporären Platzhalter für die Validierung von ChatGPT-Wiki-URL-Vorschlägen in 'process_wiki_updates_from_chatgpt' durch Aufruf von 'is_valid_wikipedia_article_url' ersetzt.	2025-05-11 18:43:33 +00:00
Floke	78d1b379fd	bugfix	2025-05-11 17:24:22 +00:00
Floke	9d44b118a4	bugfix	2025-05-11 12:52:07 +00:00
Floke	f8c414873b	bugfix	2025-05-11 07:19:51 +00:00
Floke	a077b222ec	bugfix	2025-05-11 06:44:13 +00:00
Floke	3831407367	bugfix	2025-05-11 06:22:01 +00:00
Floke	6bf9b762c0	bugfix	2025-05-11 06:17:04 +00:00
Floke	a42e04d66d	bugfix	2025-05-10 22:21:53 +00:00
Floke	99277b5e31	v1.7.3 Erweitertes Spaltenschema und Neustrukturierung Umfangreiche Überarbeitung der Spaltenstruktur im Google Sheet und im Code zur Verbesserung der thematischen Gruppierung und zur Erfassung zusätzlicher Datenpunkte. Wesentliche Änderungen: - Neue Spalten eingeführt: - "CRM Land" (F): Für das Land des Unternehmenssitzes laut CRM. - "Wiki Sitz Stadt" (O): Für die aus der Wikipedia-Infobox extrahierte Stadt. - "Wiki Sitz Land" (P): Für das aus der Wikipedia-Infobox extrahierte Land. - "Website Meta-Details" (AE): Für strukturierte Metadaten der Website (Title, Description, H-Tags). - "URL Prüfstatus" (AG): Zur Markierung von URLs, die eine erneute Prüfung/Suche benötigen. - Spalten neu gruppiert: - Wikipedia-bezogene Timestamps (alt AN, AX, AY) wurden in den Wikipedia-Datenblock (neu V, W, X) verschoben. - Website Scrape Timestamp (alt AT) wurde in den Website-Datenblock (neu AF) verschoben. - Die Reihenfolge vieler nachfolgender Blöcke (ChatGPT-Evaluationen, LinkedIn, Konsolidierung, ML, restliche System-Timestamps) wurde angepasst, um die neue Struktur widerzuspiegeln. - Das Schema umfasst nun 56 Spalten (A-BD). - `COLUMN_MAP` aktualisiert: Die Konstante wurde an die neue Spaltenstruktur mit 56 Einträgen angepasst. - `alignment_demo` überarbeitet: Die Funktion wurde komplett aktualisiert, um alle 56 Spalten mit detaillierten Beschreibungen für Quelle, Feldkategorie, Kurzbeschreibung und Aufgabe/Funktion abzudecken. - `WikipediaScraper` erweitert: - `keywords_map` um "sitz" erweitert. - `_extract_infobox_value` angepasst, um den rohen Sitz-Text zu extrahieren. - `extract_company_data` implementiert eine Heuristik, um aus dem rohen Sitz-Text "Wiki Sitz Stadt" und "Wiki Sitz Land" zu trennen und zurückzugeben. Ziel: - Schaffung einer logischeren und erweiterbaren Datenstruktur im Google Sheet. - Ermöglichung der Erfassung und Analyse des Unternehmenslandes für zukünftige Auswertungen (z.B. DACH-Region). - Konsolidierung der Dokumentation durch eine aktuelle und vollständige `alignment_demo`. Nächste Schritte: Anpassung der `DataProcessor`-Methoden an die neue Spaltenstruktur.	2025-05-10 22:18:19 +00:00
Floke	fe9f8baa6d	neue Spalten	2025-05-10 20:58:45 +00:00
Floke	6ddcdc5fff	bugfix	2025-05-10 20:01:29 +00:00
Floke	967139d96f	bugfix	2025-05-10 08:20:31 +00:00
Floke	d83b777e98	bugfix	2025-05-10 08:16:23 +00:00
Floke	33f38cb96d	Fokusbranchen-Logik in Branchenevaluation integriert Wiedereinführung und Verbesserung der Funktionalität zur Priorisierung von Fokusbranchen bei der automatisierten Branchenklassifizierung durch ChatGPT. Änderungen: - Fokusbranchen aus CSV: - Die Definition von Fokusbranchen erfolgt nun über eine zusätzliche Spalte in der `ziel_Branchenschema.csv`-Datei. Dies ermöglicht eine flexible Konfiguration ohne Code-Änderungen. - Die Funktion `load_target_schema` wurde erweitert, um diese Fokus-Markierungen einzulesen und eine separate Liste `FOCUS_TARGET_BRANCHES` sowie einen spezifischen Prompt-Teil `FOCUS_BRANCHES_PROMPT_PART` zu generieren. - Angepasste `evaluate_branche_chatgpt` Funktion: - Nutzt nun die global geladenen Listen `ALLOWED_TARGET_BRANCHES` und `FOCUS_TARGET_BRANCHES` sowie die Prompt-Teile `TARGET_SCHEMA_STRING` und `FOCUS_BRANCHES_PROMPT_PART`. - Der an ChatGPT gesendete Prompt wurde um einen expliziten Hinweis erweitert, Fokusbranchen bei der Klassifizierung zu priorisieren, falls mehrere Branchen plausibel erscheinen. - Die Fallback-Logik für die zu verwendende Beschreibungsquelle (CRM-Beschreibung vs. Website-Zusammenfassung bei fehlenden Wiki-Daten) wurde aus der früheren Funktionsversion übernommen und verfeinert. - Die API-Key-Handhabung wurde entfernt, da diese nun global über `Config.API_KEYS` und `call_openai_chat` erfolgt. - `debug_print` Aufrufe wurden durch Standard-Logging (`logger.debug`) ersetzt. - Globale Variablen: Neue globale Variablen für Fokusbranchen und deren Prompt-Teil wurden eingeführt. Ziel: - Erhöhung der Genauigkeit der Branchenklassifizierung, indem vordefinierte, strategisch wichtige Branchen bei der KI-gestützten Bewertung bevorzugt werden. - Verbesserung der Flexibilität und Wartbarkeit der Fokusbranchen-Definition durch Auslagerung in die zentrale CSV-Datei.	2025-05-10 08:11:41 +00:00

1 2 3 4 5 ...

475 Commits