Commit Graph

268 Commits

Author SHA1 Message Date
bd6f5c74cc bugfix 2025-04-16 14:11:26 +00:00
73dd362500 bugfix 2025-04-16 14:02:01 +00:00
808c292e6d bugfix 2025-04-16 13:50:32 +00:00
12199fb22b bugfix 2025-04-16 13:33:00 +00:00
d152c2106c bugfix 2025-04-16 13:23:32 +00:00
ea5640828b bugfix 2025-04-16 12:59:17 +00:00
5b5507dc32 bugfix 2025-04-16 12:43:30 +00:00
eaf388bf40 bugfix 2025-04-16 12:34:16 +00:00
362a3fc8d5 bugfix 2025-04-16 12:13:09 +00:00
6c49d4ccc3 v1.6.2: Verfeinere Timestamp-Logik & integriere ML-Datenvorbereitung
- Passe Dispatcher (`run_dispatcher`) und `GoogleSheetHandler.get_start_row_index` an, um den Startpunkt basierend auf dem Website Scrape Timestamp (Spalte AT) zu bestimmen.
- Implementiere individuelle Timestamp-Prüfungen in den Batch-Funktionen (`process_verification_only` (AN), `process_website_batch` (AT), `process_branch_batch` (AO)), um das erneute Verarbeiten abgeschlossener Zeilen zu verhindern.
- Überarbeite `_process_single_row` (`full_run`, `reeval`), um für jeden Teilbereich (Wiki, Website, Chat) den zugehörigen Timestamp zu prüfen und nur bei Bedarf auszuführen.
- Passe `_process_batch` an, sodass es nur noch Ergebnisspalten (S-Y) schreibt; Timestamps werden jetzt von der aufrufenden Funktion gesetzt.
- Füge neue Spalten (AT: Website TS, AU: Gesch. Techniker Bucket, AV: Finaler Umsatz, AW: Finaler MA) zur `alignment_demo` und `COLUMN_MAP` hinzu.
- Integriere die Funktion `prepare_data_for_modeling` als Methode in die `DataProcessor`-Klasse (wird noch nicht aktiv in einem Modus aufgerufen).
2025-04-16 11:56:39 +00:00
4e38be6a81 v1.6.2: Bereite Techniker-Modell vor & korrigiere/ergänze Modi (Alignment, Args)
- Füge neuen Modus `--mode alignment` hinzu, um die Header-Definitionen (Zeilen 1-5) über die Funktion `alignment_demo` ins Hauptblatt zu schreiben (inkl. Sicherheitsabfrage).
- Korrigiere das Kommandozeilenargument für das Zeilenlimit von `--row_limit` zu `--limit` im `argparse`-Setup in `main`.
- Verbessere die `main`-Funktion, um interaktive `input()`-Abfragen für Modus und Limit nur dann zu stellen, wenn die entsprechenden Argumente nicht über die Kommandozeile bereitgestellt wurden (verhindert Fehler bei `nohup`). Füge Fehlerbehandlung für `input()` hinzu.
- Integriere die neue Funktion `prepare_data_for_modeling` zur Aufbereitung der Daten für das geplante Decision-Tree-Modell zur Technikerschätzung (Funktion wird in den bestehenden Modi noch nicht aufgerufen).
2025-04-16 09:27:53 +00:00
da09cbb448 Alignment Demo Update 2025-04-16 08:55:49 +00:00
27604a8a79 v1.6.1: Verbessere Website-Scraping zur Umgehung von Cookie-Bannern
- Überarbeite `get_website_raw` zur besseren Handhabung von Cookie-Bannern.
- Priorisiere Scraping von Hauptinhalt-Tags (`<main>`, `<article>`, spezifische IDs/Klassen).
- Implementiere Fallback auf `<body>` mit Versuch, häufige Banner-Elemente zu entfernen (`.decompose()`).
- Füge Heuristik hinzu, um extrahierten Text zu verwerfen, wenn er wahrscheinlich nur Banner-Inhalt ist.
- Erhöhe Request-Timeout in `get_website_raw` leicht auf 15 Sekunden.
2025-04-15 20:14:47 +00:00
b171d4b82e bugfix 2025-04-15 14:54:01 +00:00
4e78e14443 bugfix 2025-04-15 14:49:35 +00:00
74ac9b6aa7 bugfix 2025-04-15 14:06:56 +00:00
36fbbc073e bugfix 2025-04-15 13:55:16 +00:00
b26e836f8e bugfix 2025-04-15 13:33:53 +00:00
c966d60695 bugfix 2025-04-15 12:59:01 +00:00
bcd6834a06 v1.6.0: Refactoring - Code-Optimierung und Beseitigung von Redundanzen
Git-Änderungsbeschreibung:
- Doppelte Funktionen (process_verification_only, _process_batch, count_linkedin_contacts) entfernt.
- Doppelte DataProcessor-Klasse entfernt.
- Ungenutzten Code (Timestamp-Handling, compare_umsatz_values, process_contacts) entfernt.
- Google Sheet Updates optimiert durch konsequentere Nutzung von batch_update in Schleifen (_process_batch, process_website_batch, process_branch_batch, process_contact_research).
- API-Key-Handling zentralisiert: Keys werden einmal in Config geladen und von dort bezogen.
- Google Sheet Verbindung zentralisiert: Wird nur noch im GoogleSheetHandler aufgebaut.
- Vorbereitung für robustere Spaltenzugriffe durch Einführung einer COLUMN_MAP (noch nicht durchgängig genutzt).
- Modus-Steuerung in main() konsolidiert.
- alignment_demo korrigiert (nur noch für Hauptblatt). Header für Contacts-Blatt in process_contact_research gesetzt.
- Konstanten für Dateinamen eingeführt.
2025-04-15 12:57:27 +00:00
8faa494794 bugfix 2025-04-15 12:16:29 +00:00
8ec565948b bugfix 2025-04-15 12:03:46 +00:00
469a649f77 bugfix 2025-04-15 11:48:24 +00:00
a8b64b017e bugfix 2025-04-15 11:33:22 +00:00
03c0decab8 bugfix 2025-04-15 11:29:54 +00:00
2308fa66a0 bugfix 2025-04-15 11:29:21 +00:00
441fdfab3f bugfix 2025-04-15 11:27:53 +00:00
9fd024706f bugfix 2025-04-15 10:33:33 +00:00
aa31ee1ab8 v1.5.8: Externe Branchenzuordnung mittels Mapping verfeinert
- Mapping-Funktion load_branch_mapping() integriert, um aus der CSV "ziel_Branchenschema.csv" automatisch ein Mapping-Dictionary zu erstellen.
- Neue Funktion map_external_branch() implementiert, die den von ChatGPT gelieferten externen Branchenbegriff (nach Normalisierung) in das standardisierte Ziel-Branchenschema überführt.
- In evaluate_branche_chatgpt wird zuerst der ChatGPT-Vorschlag geparst, unerwünschte Präfixe entfernt und über map_external_branch() in den korrekten Standardwert transformiert.
- Optional wird der CRM-Präfix ergänzt, falls der Mapping-Wert kein hierarchisches Trennzeichen enthält.
- Damit wird der externe Input selbstbewusster übernommen, solange er durch das Mapping bestätigt wird.
2025-04-15 08:01:04 +00:00
9517581244 bugfix 2025-04-14 17:21:50 +00:00
210c227893 bugfix 2025-04-14 17:08:50 +00:00
26f516a5c6 bugfix 2025-04-14 15:41:43 +00:00
ffe8cf39bf v1.5.7: Fuzzy Matching und Hierarchie-Ergänzung in evaluate_branche_chatgpt
- evaluate_branche_chatgpt: Neuer Schritt zum Ergänzen fehlender Hierarchie mit CRM-Präfix  
- Fuzzy Matching zwischen zusammengesetztem Vorschlag und CRM-Wert eingebaut  
- Sicherstellung, dass der finale Brancheneintrag stets dem Ziel-Branchenschema entspricht
2025-04-14 15:41:26 +00:00
b0f7af9582 v1.5.6: Fallback-Mechanismus in evaluate_branche_chatgpt verbessert
- evaluate_branche_chatgpt: Fallback auf CRM-Wert implementiert, wenn ChatGPT-Vorschlag nicht valide ist  
- Helper-Funktionen is_valid_branch und branch_matches_target_schema zur Überprüfung der Branchenwerte hinzugefügt  
- Fokusbranchen (service provider, hersteller / produzenten, sonstige) bleiben erhalten
2025-04-14 14:53:20 +00:00
9f1c41bae8 bugfix 2025-04-14 14:09:14 +00:00
984dddb0af bugfix 2025-04-14 13:34:36 +00:00
16b6652262 1.5.5: Neue evaluate_branche_chatgpt mit erweitertem Logging und exakter Branchenabgleich
- Alle verwendeten Input-Werte (CRM-Branche, externe Beschreibung, Wiki-Daten, Website-Zusammenfassung) werden geloggt.
- Bei fehlendem Wikipedia-Eintrag wird explizit die Website-Zusammenfassung als Fallback genutzt.
- Normierte Eingabewerte und Ziel-Branchenschema werden für den exakten Vergleich ausgegeben.
- Es werden ausschließlich Branchen aus dem Ziel-Schema akzeptiert – ansonsten Rückgabe "k.A." mit Konsistenz "X".
2025-04-14 13:02:36 +00:00
3cdf2be905 rollback2 2025-04-14 08:22:38 +00:00
2346282b93 Rollback auf 1.5.4 2025-04-14 06:23:24 +00:00
c9e659d952 bugfix 2025-04-14 06:13:31 +00:00
675297832d bugfix 2025-04-14 05:18:46 +00:00
834ab8c452 bugfix 2025-04-11 12:57:11 +00:00
d0f8a4650b bugfix 2025-04-11 12:49:00 +00:00
101718960c bugfix 2025-04-11 12:12:16 +00:00
35d73fe2eb bugfix 2025-04-11 11:38:57 +00:00
ae5fd028c2 1.5.11: Dispatcher und modulare Batch-Prozesse für Wiki, Website und Branch integriert
- Neuer run_dispatcher, der den Startpunkt (erste Zeile ohne Zeitstempel in AO ab Zeile 7)
  ermittelt und den verarbeitenden Bereich (z. B. 50 Zeilen) definiert.
- Separate Batch-Funktionen: process_wiki_batch (Spalten S–Y), process_website_batch (Spalten AR/AS)
  und process_branch_batch (Spalten W–Y) werden je nach Modus aufgerufen.
- Erlaubt getrennte oder kombinierte Durchläufe via Modus-Parameter.
- Verbesserte Log-Ausgaben unterstützen die Fehleranalyse.
2025-04-11 11:33:21 +00:00
41e33cd554 bugfix 2025-04-10 10:47:32 +00:00
0e06ab7ee7 bugfix 2025-04-10 10:44:34 +00:00
d031ff68ef bugfix 2025-04-10 10:37:06 +00:00
d6fcc2f8c0 bugfix 2025-04-10 10:32:56 +00:00