Commit Graph

240 Commits

Author SHA1 Message Date
7c6bb5abbf bugfix 2025-04-15 11:27:53 +00:00
cca9380384 bugfix 2025-04-15 10:33:33 +00:00
2376da4734 v1.5.8: Externe Branchenzuordnung mittels Mapping verfeinert
- Mapping-Funktion load_branch_mapping() integriert, um aus der CSV "ziel_Branchenschema.csv" automatisch ein Mapping-Dictionary zu erstellen.
- Neue Funktion map_external_branch() implementiert, die den von ChatGPT gelieferten externen Branchenbegriff (nach Normalisierung) in das standardisierte Ziel-Branchenschema überführt.
- In evaluate_branche_chatgpt wird zuerst der ChatGPT-Vorschlag geparst, unerwünschte Präfixe entfernt und über map_external_branch() in den korrekten Standardwert transformiert.
- Optional wird der CRM-Präfix ergänzt, falls der Mapping-Wert kein hierarchisches Trennzeichen enthält.
- Damit wird der externe Input selbstbewusster übernommen, solange er durch das Mapping bestätigt wird.
2025-04-15 08:01:04 +00:00
a8c18e8629 bugfix 2025-04-14 17:21:50 +00:00
8e9230b8f6 bugfix 2025-04-14 17:08:50 +00:00
094a10fd80 bugfix 2025-04-14 15:41:43 +00:00
615ef7f296 v1.5.7: Fuzzy Matching und Hierarchie-Ergänzung in evaluate_branche_chatgpt
- evaluate_branche_chatgpt: Neuer Schritt zum Ergänzen fehlender Hierarchie mit CRM-Präfix  
- Fuzzy Matching zwischen zusammengesetztem Vorschlag und CRM-Wert eingebaut  
- Sicherstellung, dass der finale Brancheneintrag stets dem Ziel-Branchenschema entspricht
2025-04-14 15:41:26 +00:00
2d24533a1b v1.5.6: Fallback-Mechanismus in evaluate_branche_chatgpt verbessert
- evaluate_branche_chatgpt: Fallback auf CRM-Wert implementiert, wenn ChatGPT-Vorschlag nicht valide ist  
- Helper-Funktionen is_valid_branch und branch_matches_target_schema zur Überprüfung der Branchenwerte hinzugefügt  
- Fokusbranchen (service provider, hersteller / produzenten, sonstige) bleiben erhalten
2025-04-14 14:53:20 +00:00
2c340537ef bugfix 2025-04-14 14:09:14 +00:00
253ed2ca3e bugfix 2025-04-14 13:34:36 +00:00
23b331bd4b 1.5.5: Neue evaluate_branche_chatgpt mit erweitertem Logging und exakter Branchenabgleich
- Alle verwendeten Input-Werte (CRM-Branche, externe Beschreibung, Wiki-Daten, Website-Zusammenfassung) werden geloggt.
- Bei fehlendem Wikipedia-Eintrag wird explizit die Website-Zusammenfassung als Fallback genutzt.
- Normierte Eingabewerte und Ziel-Branchenschema werden für den exakten Vergleich ausgegeben.
- Es werden ausschließlich Branchen aus dem Ziel-Schema akzeptiert – ansonsten Rückgabe "k.A." mit Konsistenz "X".
2025-04-14 13:02:36 +00:00
cd613d15e5 rollback2 2025-04-14 08:22:38 +00:00
9053232bcc Rollback auf 1.5.4 2025-04-14 06:23:24 +00:00
672d5fc06b bugfix 2025-04-14 06:13:31 +00:00
47a7f1d442 bugfix 2025-04-14 05:18:46 +00:00
de9da6a390 bugfix 2025-04-11 12:57:11 +00:00
343435f2e4 bugfix 2025-04-11 12:49:00 +00:00
d9af337402 bugfix 2025-04-11 12:12:16 +00:00
1522146a28 bugfix 2025-04-11 11:38:57 +00:00
6095478284 1.5.11: Dispatcher und modulare Batch-Prozesse für Wiki, Website und Branch integriert
- Neuer run_dispatcher, der den Startpunkt (erste Zeile ohne Zeitstempel in AO ab Zeile 7)
  ermittelt und den verarbeitenden Bereich (z. B. 50 Zeilen) definiert.
- Separate Batch-Funktionen: process_wiki_batch (Spalten S–Y), process_website_batch (Spalten AR/AS)
  und process_branch_batch (Spalten W–Y) werden je nach Modus aufgerufen.
- Erlaubt getrennte oder kombinierte Durchläufe via Modus-Parameter.
- Verbesserte Log-Ausgaben unterstützen die Fehleranalyse.
2025-04-11 11:33:21 +00:00
82c033170b bugfix 2025-04-10 10:47:32 +00:00
24721febd2 bugfix 2025-04-10 10:44:34 +00:00
c49e66f2f1 bugfix 2025-04-10 10:37:06 +00:00
57f1039d12 bugfix 2025-04-10 10:32:56 +00:00
df23fbd9e5 bugfix 2025-04-10 10:28:27 +00:00
095715435c bugfix 2025-04-10 09:52:58 +00:00
e18bc08d4f bugfix 2025-04-10 09:39:46 +00:00
5bfeaef4a2 1.5.3: Optimierung Batch-Modus und Alignment-Demo Integration für robustes Update
- Anpassbare Batchgröße (Config.BATCH_SIZE, z. B. 10 Zeilen) zur Bündelung von ChatGPT-Anfragen.
- Aggregierte Prompts werden pro Batch erstellt und zeilenweise ausgewertet, mit erweitertem Logging.
- Ergebnisse der Aggregation werden als Paket verarbeitet und Google Sheets effizient aktualisiert.
- Alignment-Demo als eigenständiger Funktionsbaustein (alignment_demo_full) wiederhergestellt.
2025-04-10 09:31:17 +00:00
c4e9fc3810 bugfix 2025-04-10 06:46:58 +00:00
fbf15876dc bugfix 2025-04-10 06:42:46 +00:00
15cdf0af63 bugfix 2025-04-10 06:25:21 +00:00
1972b7024b bugfix 2025-04-10 06:13:53 +00:00
e8b18a40d5 1.5.2: Ergänzung heuristischer E-Mail-Generierung und Spaltenanpassung im Contacts-Blatt
- Neue Funktion get_email_address zur Erzeugung der E-Mail-Adresse im Format vorname.nachname@domain.tld
- Anpassung von process_contact_research: E-Mail-Adresse in Spalte I eingetragen, LinkedIn-Link und Timestamp entsprechend verschoben
- Integration der E-Mail-Generierung in den bestehenden Kontaktverarbeitungs-Workflow, bestehende Funktionen weitgehend unverändert
2025-04-10 06:11:28 +00:00
b4f5974877 bugfix 2025-04-10 05:53:53 +00:00
78cc6760e9 1.5.1: Integrierter hybrider Geschlechtsdetektor & aktualisierte Kontakte-Spalten
- Umstellung der Geschlechtsbestimmung: Zuerst gender-guesser, Fallback zu Genderize API
- Geschlecht wird jetzt in Spalte D gespeichert (alle folgenden Felder rutschen um eine Spalte nach rechts)
- Aktualisierte Header und Kontaktzeilen im Contacts-Blatt, inklusive API-Key aus "genderize_API_Key.txt"
- Anpassung der Contact Research-Funktion zur Verarbeitung der geänderten Spalten
2025-04-10 05:49:56 +00:00
6872664601 bugfix 2025-04-09 17:20:40 +00:00
423a7a0869 bugfix 2025-04-09 17:14:57 +00:00
e2ca4675d9 bugfix 2025-04-09 17:01:48 +00:00
d4267a4bdc Version 1.5.0 – Verbesserung der Website-Detail-Extraktion und Kontaktsuche
- **Website-Extraktion verbessert:**
  - Fix: Ausgabe in Spalte AR (Website Rohtext) und AS (Website Zusammenfassung) wird nun zwingend in jedem Datensatz geschrieben – dabei wird nun *unabhängig* vom Vorhandensein eines "x" in Spalte A gearbeitet.
  - Erweiterte Debug-Ausgaben: Zusätzliche Log-Meldungen protokollieren nun explizit, welchen Text (insb. die ersten 100 Zeichen) der Website extrahiert wurde und welcher Zusammenfassungstext generiert wird. Dies erleichtert die Fehlersuche und bestätigt, was in Spalte AR/AS geschrieben wird.
  - User-Agent-Header und optionale SSL-Überprüfung wurden in `get_website_raw()` implementiert, um Blockierungen zu vermeiden und Fehler besser zu diagnostizieren.

- **Kontaktsuche (Modus 6) optimiert:**
  - Überarbeitet: Die Suche nutzt nun explizit die CRM-Kurzform (Spalte C) als Filter, sodass nur Ergebnisse berücksichtigt werden, bei denen diese als Teil des Titels enthalten ist.
  - Es wird in ein separates Arbeitsblatt "Contacts" geschrieben und die gefundenen Kontakte werden mit detaillierten Debug-Ausgaben protokolliert – dabei wird außerdem die Anzahl der Treffer pro Position (Serviceleiter, IT-Leiter, Geschäftsführer, Disponent) im Hauptblatt aktualisiert.
  - Es wird nun darauf geachtet, dass der Suchlauf ohne Überschreiben bereits vorhandener Zeitstempel (ab Zeile AM7) durchgeführt wird.

- **Allgemeine Verbesserungen und Debugging:**
  - Detaillierte Log-Ausgaben in allen kritischen Funktionen (Web-Extraktion, LinkedIn-Suche, Branchenabgleich) wurden erweitert, um Nachvollziehbarkeit zu gewährleisten.
  - Debug-Ausgaben wurden verbessert, um exakte Abfragen, Ergebnisse und die daraus resultierenden Schreibvorgänge in den jeweiligen Spalten (z. B. für die Branchenbewertung in den Spalten W–Y) zu protokollieren.
  - Anpassungen im Code haben sicher gestellt, dass keine wichtigen Funktionen entfernt wurden – Fokus lag ausschließlich auf den von Dir beanstandeten Bereichen.

Dieser Commit stellt sicher, dass die Website-Daten korrekt in den vorgesehenen Spalten abgelegt werden und die Kontaktsuche präziser und robuster arbeitet.
2025-04-09 13:28:40 +00:00
c488b66898 Bigfix 2025-04-09 13:03:42 +00:00
659a3b587e bugfix 2025-04-09 12:25:21 +00:00
ce7b830de2 v1.4.9: Verbesserte Wikipedia-Konsistenzprüfung und erweiterte Log-Ausgaben für Website-Scraping
- Implementiert die Funktion is_valid_company_article(), die Wikipedia-Kategorien auf 
  das Stichwort "unternehmen" (und Synonyme) überprüft.
- In evaluate_branche_chatgpt() wird nun geprüft, ob Wiki-Kategorien "unternehmen" enthalten;
  falls nicht, wird die Website-Zusammenfassung als Fallback genutzt.
- Debug-Ausgaben im Website-Scraping-Bereich (_process_single_row) wurden erweitert,
  um den extrahierten Rohtext (erste 100 Zeichen) aus Spalte AR und die Zusammenfassung in AS zu protokollieren.
- Dies soll helfen, falsche Wikipedia-Artikel zu erkennen und den Fallback-Mechanismus zu verbessern.
2025-04-09 12:07:18 +00:00
29193b1888 debug 2025-04-09 10:00:03 +00:00
a2341e6c1d bugfix 2025-04-09 09:45:54 +00:00
8e16f0bd0f bugfix 2025-04-09 09:39:28 +00:00
229b4c4ff7 bugfix 2025-04-09 09:28:52 +00:00
6919f3454c bugfix 2025-04-09 09:19:40 +00:00
55666b0603 bugfix 2025-04-09 09:14:50 +00:00
94694bc676 bugfix 2025-04-09 09:05:21 +00:00
e9833d927b bugfix 2025-04-09 08:39:26 +00:00