Commit Graph

228 Commits

Author SHA1 Message Date
47a7f1d442 bugfix 2025-04-14 05:18:46 +00:00
de9da6a390 bugfix 2025-04-11 12:57:11 +00:00
343435f2e4 bugfix 2025-04-11 12:49:00 +00:00
d9af337402 bugfix 2025-04-11 12:12:16 +00:00
1522146a28 bugfix 2025-04-11 11:38:57 +00:00
6095478284 1.5.11: Dispatcher und modulare Batch-Prozesse für Wiki, Website und Branch integriert
- Neuer run_dispatcher, der den Startpunkt (erste Zeile ohne Zeitstempel in AO ab Zeile 7)
  ermittelt und den verarbeitenden Bereich (z. B. 50 Zeilen) definiert.
- Separate Batch-Funktionen: process_wiki_batch (Spalten S–Y), process_website_batch (Spalten AR/AS)
  und process_branch_batch (Spalten W–Y) werden je nach Modus aufgerufen.
- Erlaubt getrennte oder kombinierte Durchläufe via Modus-Parameter.
- Verbesserte Log-Ausgaben unterstützen die Fehleranalyse.
2025-04-11 11:33:21 +00:00
82c033170b bugfix 2025-04-10 10:47:32 +00:00
24721febd2 bugfix 2025-04-10 10:44:34 +00:00
c49e66f2f1 bugfix 2025-04-10 10:37:06 +00:00
57f1039d12 bugfix 2025-04-10 10:32:56 +00:00
df23fbd9e5 bugfix 2025-04-10 10:28:27 +00:00
095715435c bugfix 2025-04-10 09:52:58 +00:00
e18bc08d4f bugfix 2025-04-10 09:39:46 +00:00
5bfeaef4a2 1.5.3: Optimierung Batch-Modus und Alignment-Demo Integration für robustes Update
- Anpassbare Batchgröße (Config.BATCH_SIZE, z. B. 10 Zeilen) zur Bündelung von ChatGPT-Anfragen.
- Aggregierte Prompts werden pro Batch erstellt und zeilenweise ausgewertet, mit erweitertem Logging.
- Ergebnisse der Aggregation werden als Paket verarbeitet und Google Sheets effizient aktualisiert.
- Alignment-Demo als eigenständiger Funktionsbaustein (alignment_demo_full) wiederhergestellt.
2025-04-10 09:31:17 +00:00
c4e9fc3810 bugfix 2025-04-10 06:46:58 +00:00
fbf15876dc bugfix 2025-04-10 06:42:46 +00:00
15cdf0af63 bugfix 2025-04-10 06:25:21 +00:00
1972b7024b bugfix 2025-04-10 06:13:53 +00:00
e8b18a40d5 1.5.2: Ergänzung heuristischer E-Mail-Generierung und Spaltenanpassung im Contacts-Blatt
- Neue Funktion get_email_address zur Erzeugung der E-Mail-Adresse im Format vorname.nachname@domain.tld
- Anpassung von process_contact_research: E-Mail-Adresse in Spalte I eingetragen, LinkedIn-Link und Timestamp entsprechend verschoben
- Integration der E-Mail-Generierung in den bestehenden Kontaktverarbeitungs-Workflow, bestehende Funktionen weitgehend unverändert
2025-04-10 06:11:28 +00:00
b4f5974877 bugfix 2025-04-10 05:53:53 +00:00
78cc6760e9 1.5.1: Integrierter hybrider Geschlechtsdetektor & aktualisierte Kontakte-Spalten
- Umstellung der Geschlechtsbestimmung: Zuerst gender-guesser, Fallback zu Genderize API
- Geschlecht wird jetzt in Spalte D gespeichert (alle folgenden Felder rutschen um eine Spalte nach rechts)
- Aktualisierte Header und Kontaktzeilen im Contacts-Blatt, inklusive API-Key aus "genderize_API_Key.txt"
- Anpassung der Contact Research-Funktion zur Verarbeitung der geänderten Spalten
2025-04-10 05:49:56 +00:00
6872664601 bugfix 2025-04-09 17:20:40 +00:00
423a7a0869 bugfix 2025-04-09 17:14:57 +00:00
e2ca4675d9 bugfix 2025-04-09 17:01:48 +00:00
d4267a4bdc Version 1.5.0 – Verbesserung der Website-Detail-Extraktion und Kontaktsuche
- **Website-Extraktion verbessert:**
  - Fix: Ausgabe in Spalte AR (Website Rohtext) und AS (Website Zusammenfassung) wird nun zwingend in jedem Datensatz geschrieben – dabei wird nun *unabhängig* vom Vorhandensein eines "x" in Spalte A gearbeitet.
  - Erweiterte Debug-Ausgaben: Zusätzliche Log-Meldungen protokollieren nun explizit, welchen Text (insb. die ersten 100 Zeichen) der Website extrahiert wurde und welcher Zusammenfassungstext generiert wird. Dies erleichtert die Fehlersuche und bestätigt, was in Spalte AR/AS geschrieben wird.
  - User-Agent-Header und optionale SSL-Überprüfung wurden in `get_website_raw()` implementiert, um Blockierungen zu vermeiden und Fehler besser zu diagnostizieren.

- **Kontaktsuche (Modus 6) optimiert:**
  - Überarbeitet: Die Suche nutzt nun explizit die CRM-Kurzform (Spalte C) als Filter, sodass nur Ergebnisse berücksichtigt werden, bei denen diese als Teil des Titels enthalten ist.
  - Es wird in ein separates Arbeitsblatt "Contacts" geschrieben und die gefundenen Kontakte werden mit detaillierten Debug-Ausgaben protokolliert – dabei wird außerdem die Anzahl der Treffer pro Position (Serviceleiter, IT-Leiter, Geschäftsführer, Disponent) im Hauptblatt aktualisiert.
  - Es wird nun darauf geachtet, dass der Suchlauf ohne Überschreiben bereits vorhandener Zeitstempel (ab Zeile AM7) durchgeführt wird.

- **Allgemeine Verbesserungen und Debugging:**
  - Detaillierte Log-Ausgaben in allen kritischen Funktionen (Web-Extraktion, LinkedIn-Suche, Branchenabgleich) wurden erweitert, um Nachvollziehbarkeit zu gewährleisten.
  - Debug-Ausgaben wurden verbessert, um exakte Abfragen, Ergebnisse und die daraus resultierenden Schreibvorgänge in den jeweiligen Spalten (z. B. für die Branchenbewertung in den Spalten W–Y) zu protokollieren.
  - Anpassungen im Code haben sicher gestellt, dass keine wichtigen Funktionen entfernt wurden – Fokus lag ausschließlich auf den von Dir beanstandeten Bereichen.

Dieser Commit stellt sicher, dass die Website-Daten korrekt in den vorgesehenen Spalten abgelegt werden und die Kontaktsuche präziser und robuster arbeitet.
2025-04-09 13:28:40 +00:00
c488b66898 Bigfix 2025-04-09 13:03:42 +00:00
659a3b587e bugfix 2025-04-09 12:25:21 +00:00
ce7b830de2 v1.4.9: Verbesserte Wikipedia-Konsistenzprüfung und erweiterte Log-Ausgaben für Website-Scraping
- Implementiert die Funktion is_valid_company_article(), die Wikipedia-Kategorien auf 
  das Stichwort "unternehmen" (und Synonyme) überprüft.
- In evaluate_branche_chatgpt() wird nun geprüft, ob Wiki-Kategorien "unternehmen" enthalten;
  falls nicht, wird die Website-Zusammenfassung als Fallback genutzt.
- Debug-Ausgaben im Website-Scraping-Bereich (_process_single_row) wurden erweitert,
  um den extrahierten Rohtext (erste 100 Zeichen) aus Spalte AR und die Zusammenfassung in AS zu protokollieren.
- Dies soll helfen, falsche Wikipedia-Artikel zu erkennen und den Fallback-Mechanismus zu verbessern.
2025-04-09 12:07:18 +00:00
29193b1888 debug 2025-04-09 10:00:03 +00:00
a2341e6c1d bugfix 2025-04-09 09:45:54 +00:00
8e16f0bd0f bugfix 2025-04-09 09:39:28 +00:00
229b4c4ff7 bugfix 2025-04-09 09:28:52 +00:00
6919f3454c bugfix 2025-04-09 09:19:40 +00:00
55666b0603 bugfix 2025-04-09 09:14:50 +00:00
94694bc676 bugfix 2025-04-09 09:05:21 +00:00
e9833d927b bugfix 2025-04-09 08:39:26 +00:00
ee96102424 bugfix 2025-04-09 08:26:50 +00:00
66a9b82d79 bugfix 2025-04-09 08:21:59 +00:00
880373d248 bugfix 2025-04-09 08:15:24 +00:00
cce3e93ccb v1.4.7.1 Verbesserter Website-Scraper: User-Agent gesetzt und SSL-Verifikation optional
- In get_website_raw() wurde ein User-Agent-Header hinzugefügt, um Blockaden zu vermeiden.
- SSL-Zertifikatüberprüfung kann jetzt optional durch den Parameter verify_cert deaktiviert werden (Standard: False).
- Zusätzliche Debug-Ausgaben protokollieren den Statuscode und erste 100 Zeichen des extrahierten Textes.
- Damit wird sichergestellt, dass beim Fehlen eines Wikipedia-Eintrags der Website-Fallback besser analysiert werden kann.
2025-04-09 07:46:03 +00:00
7c059884f1 bugfix 2025-04-09 07:31:23 +00:00
8e671d2bf0 bugfix 2025-04-09 07:21:20 +00:00
9dfff201d6 v1.4.7 Fallback Website-Details: Mehr Logging & Fallback in Branchenbewertung
- In evaluate_branche_chatgpt() wird geprüft, ob sowohl Wiki- als auch externe Beschreibung 'k.A.' sind.
- Falls ja, wird der Website-Zusammenfassungstext als Fallback zur Branchenbewertung genutzt.
- Zusätzliche debug_print()-Ausgaben wurden eingefügt, um anzuzeigen, welche Informationen für die Entscheidungsfindung herangezogen wurden.
- Nach der ChatGPT-Antwort wird das Endergebnis ebenfalls geloggt.
2025-04-09 07:04:45 +00:00
1202b2c2f4 v1.4.6 Erweiterte Modi: Neuer Modus 23 Website-Detail Extraction + SERP Lookup
- Neuer Modus 23 implementiert: Website Detail Extraction für Zeilen mit "x" in Spalte A.
- scrape_website_details() extrahiert Seitentitel, Meta-Description und h1/h2/h3 aus der Startseite.
- SERP-API Website Lookup (Modus 22) integriert: Fehlt in Spalte D eine Website, wird diese ermittelt und normalisiert.
- Alignment Demo bleibt unverändert; neue Spalten AR (Website Rohtext) und AS (Website Zusammenfassung) werden beibehalten.
- Main-Funktion und DataProcessor entsprechend der neuen Betriebsmodi angepasst.
2025-04-09 06:36:35 +00:00
621cc67df7 URL normalisierung 2025-04-09 05:27:31 +00:00
6e768a092b bugfix 2025-04-08 19:39:55 +00:00
5d60447009 bugfix 2025-04-08 19:37:22 +00:00
d773ca4b40 bugfix 2025-04-08 19:31:38 +00:00
de78507bff Bugfix 2025-04-08 19:26:05 +00:00
d159bba3ef bugfix 2025-04-08 19:20:34 +00:00