Brancheneinstufung2

Author	SHA1	Message	Date
Floke	35d73fe2eb	bugfix	2025-04-11 11:38:57 +00:00
Floke	ae5fd028c2	1.5.11: Dispatcher und modulare Batch-Prozesse für Wiki, Website und Branch integriert - Neuer run_dispatcher, der den Startpunkt (erste Zeile ohne Zeitstempel in AO ab Zeile 7) ermittelt und den verarbeitenden Bereich (z. B. 50 Zeilen) definiert. - Separate Batch-Funktionen: process_wiki_batch (Spalten S–Y), process_website_batch (Spalten AR/AS) und process_branch_batch (Spalten W–Y) werden je nach Modus aufgerufen. - Erlaubt getrennte oder kombinierte Durchläufe via Modus-Parameter. - Verbesserte Log-Ausgaben unterstützen die Fehleranalyse.	2025-04-11 11:33:21 +00:00
Floke	41e33cd554	bugfix	2025-04-10 10:47:32 +00:00
Floke	0e06ab7ee7	bugfix	2025-04-10 10:44:34 +00:00
Floke	d031ff68ef	bugfix	2025-04-10 10:37:06 +00:00
Floke	d6fcc2f8c0	bugfix	2025-04-10 10:32:56 +00:00
Floke	e64ad336fe	bugfix	2025-04-10 10:28:27 +00:00
Floke	70c7fe1da0	bugfix	2025-04-10 09:52:58 +00:00
Floke	5678dd76a1	bugfix	2025-04-10 09:39:46 +00:00
Floke	ec2933229b	1.5.3: Optimierung Batch-Modus und Alignment-Demo Integration für robustes Update - Anpassbare Batchgröße (Config.BATCH_SIZE, z. B. 10 Zeilen) zur Bündelung von ChatGPT-Anfragen. - Aggregierte Prompts werden pro Batch erstellt und zeilenweise ausgewertet, mit erweitertem Logging. - Ergebnisse der Aggregation werden als Paket verarbeitet und Google Sheets effizient aktualisiert. - Alignment-Demo als eigenständiger Funktionsbaustein (alignment_demo_full) wiederhergestellt.	2025-04-10 09:31:17 +00:00
Floke	957bc5646e	bugfix	2025-04-10 06:46:58 +00:00
Floke	fddc7539fd	bugfix	2025-04-10 06:42:46 +00:00
Floke	e93d2615a8	bugfix	2025-04-10 06:25:21 +00:00
Floke	1a894da4a7	bugfix	2025-04-10 06:13:53 +00:00
Floke	d557ecce88	1.5.2: Ergänzung heuristischer E-Mail-Generierung und Spaltenanpassung im Contacts-Blatt - Neue Funktion get_email_address zur Erzeugung der E-Mail-Adresse im Format vorname.nachname@domain.tld - Anpassung von process_contact_research: E-Mail-Adresse in Spalte I eingetragen, LinkedIn-Link und Timestamp entsprechend verschoben - Integration der E-Mail-Generierung in den bestehenden Kontaktverarbeitungs-Workflow, bestehende Funktionen weitgehend unverändert	2025-04-10 06:11:28 +00:00
Floke	2377149d76	bugfix	2025-04-10 05:53:53 +00:00
Floke	33c9f76460	1.5.1: Integrierter hybrider Geschlechtsdetektor & aktualisierte Kontakte-Spalten - Umstellung der Geschlechtsbestimmung: Zuerst gender-guesser, Fallback zu Genderize API - Geschlecht wird jetzt in Spalte D gespeichert (alle folgenden Felder rutschen um eine Spalte nach rechts) - Aktualisierte Header und Kontaktzeilen im Contacts-Blatt, inklusive API-Key aus "genderize_API_Key.txt" - Anpassung der Contact Research-Funktion zur Verarbeitung der geänderten Spalten	2025-04-10 05:49:56 +00:00
Floke	3e89898477	bugfix	2025-04-09 17:20:40 +00:00
Floke	e3c043e4ed	bugfix	2025-04-09 17:14:57 +00:00
Floke	46050e30b7	bugfix	2025-04-09 17:01:48 +00:00
Floke	0d53325ecb	Version 1.5.0 – Verbesserung der Website-Detail-Extraktion und Kontaktsuche - Website-Extraktion verbessert: - Fix: Ausgabe in Spalte AR (Website Rohtext) und AS (Website Zusammenfassung) wird nun zwingend in jedem Datensatz geschrieben – dabei wird nun unabhängig vom Vorhandensein eines "x" in Spalte A gearbeitet. - Erweiterte Debug-Ausgaben: Zusätzliche Log-Meldungen protokollieren nun explizit, welchen Text (insb. die ersten 100 Zeichen) der Website extrahiert wurde und welcher Zusammenfassungstext generiert wird. Dies erleichtert die Fehlersuche und bestätigt, was in Spalte AR/AS geschrieben wird. - User-Agent-Header und optionale SSL-Überprüfung wurden in `get_website_raw()` implementiert, um Blockierungen zu vermeiden und Fehler besser zu diagnostizieren. - Kontaktsuche (Modus 6) optimiert: - Überarbeitet: Die Suche nutzt nun explizit die CRM-Kurzform (Spalte C) als Filter, sodass nur Ergebnisse berücksichtigt werden, bei denen diese als Teil des Titels enthalten ist. - Es wird in ein separates Arbeitsblatt "Contacts" geschrieben und die gefundenen Kontakte werden mit detaillierten Debug-Ausgaben protokolliert – dabei wird außerdem die Anzahl der Treffer pro Position (Serviceleiter, IT-Leiter, Geschäftsführer, Disponent) im Hauptblatt aktualisiert. - Es wird nun darauf geachtet, dass der Suchlauf ohne Überschreiben bereits vorhandener Zeitstempel (ab Zeile AM7) durchgeführt wird. - Allgemeine Verbesserungen und Debugging: - Detaillierte Log-Ausgaben in allen kritischen Funktionen (Web-Extraktion, LinkedIn-Suche, Branchenabgleich) wurden erweitert, um Nachvollziehbarkeit zu gewährleisten. - Debug-Ausgaben wurden verbessert, um exakte Abfragen, Ergebnisse und die daraus resultierenden Schreibvorgänge in den jeweiligen Spalten (z. B. für die Branchenbewertung in den Spalten W–Y) zu protokollieren. - Anpassungen im Code haben sicher gestellt, dass keine wichtigen Funktionen entfernt wurden – Fokus lag ausschließlich auf den von Dir beanstandeten Bereichen. Dieser Commit stellt sicher, dass die Website-Daten korrekt in den vorgesehenen Spalten abgelegt werden und die Kontaktsuche präziser und robuster arbeitet.	2025-04-09 13:28:40 +00:00
Floke	7a374f1d4e	Bigfix	2025-04-09 13:03:42 +00:00
Floke	c8956242b7	bugfix	2025-04-09 12:25:21 +00:00
Floke	990d7ef7b4	v1.4.9: Verbesserte Wikipedia-Konsistenzprüfung und erweiterte Log-Ausgaben für Website-Scraping - Implementiert die Funktion is_valid_company_article(), die Wikipedia-Kategorien auf das Stichwort "unternehmen" (und Synonyme) überprüft. - In evaluate_branche_chatgpt() wird nun geprüft, ob Wiki-Kategorien "unternehmen" enthalten; falls nicht, wird die Website-Zusammenfassung als Fallback genutzt. - Debug-Ausgaben im Website-Scraping-Bereich (_process_single_row) wurden erweitert, um den extrahierten Rohtext (erste 100 Zeichen) aus Spalte AR und die Zusammenfassung in AS zu protokollieren. - Dies soll helfen, falsche Wikipedia-Artikel zu erkennen und den Fallback-Mechanismus zu verbessern.	2025-04-09 12:07:18 +00:00
Floke	599881adbe	debug	2025-04-09 10:00:03 +00:00
Floke	c8b9d0e4e9	bugfix	2025-04-09 09:45:54 +00:00
Floke	55797e7257	bugfix	2025-04-09 09:39:28 +00:00
Floke	6fbab98257	bugfix	2025-04-09 09:28:52 +00:00
Floke	36e6e59a38	bugfix	2025-04-09 09:19:40 +00:00
Floke	c391fbc0de	bugfix	2025-04-09 09:14:50 +00:00
Floke	417850b31e	bugfix	2025-04-09 09:05:21 +00:00
Floke	7eb1473e43	bugfix	2025-04-09 08:39:26 +00:00
Floke	a3263f4f75	bugfix	2025-04-09 08:26:50 +00:00
Floke	4be5b0bedf	bugfix	2025-04-09 08:21:59 +00:00
Floke	05baa7fe2b	bugfix	2025-04-09 08:15:24 +00:00
Floke	654c45d3be	v1.4.7.1 Verbesserter Website-Scraper: User-Agent gesetzt und SSL-Verifikation optional - In get_website_raw() wurde ein User-Agent-Header hinzugefügt, um Blockaden zu vermeiden. - SSL-Zertifikatüberprüfung kann jetzt optional durch den Parameter verify_cert deaktiviert werden (Standard: False). - Zusätzliche Debug-Ausgaben protokollieren den Statuscode und erste 100 Zeichen des extrahierten Textes. - Damit wird sichergestellt, dass beim Fehlen eines Wikipedia-Eintrags der Website-Fallback besser analysiert werden kann.	2025-04-09 07:46:03 +00:00
Floke	9f45231a74	bugfix	2025-04-09 07:31:23 +00:00
Floke	3acb6cf3dc	bugfix	2025-04-09 07:21:20 +00:00
Floke	9007ddffe2	v1.4.7 Fallback Website-Details: Mehr Logging & Fallback in Branchenbewertung - In evaluate_branche_chatgpt() wird geprüft, ob sowohl Wiki- als auch externe Beschreibung 'k.A.' sind. - Falls ja, wird der Website-Zusammenfassungstext als Fallback zur Branchenbewertung genutzt. - Zusätzliche debug_print()-Ausgaben wurden eingefügt, um anzuzeigen, welche Informationen für die Entscheidungsfindung herangezogen wurden. - Nach der ChatGPT-Antwort wird das Endergebnis ebenfalls geloggt.	2025-04-09 07:04:45 +00:00
Floke	dda14ccbf7	v1.4.6 Erweiterte Modi: Neuer Modus 23 Website-Detail Extraction + SERP Lookup - Neuer Modus 23 implementiert: Website Detail Extraction für Zeilen mit "x" in Spalte A. - scrape_website_details() extrahiert Seitentitel, Meta-Description und h1/h2/h3 aus der Startseite. - SERP-API Website Lookup (Modus 22) integriert: Fehlt in Spalte D eine Website, wird diese ermittelt und normalisiert. - Alignment Demo bleibt unverändert; neue Spalten AR (Website Rohtext) und AS (Website Zusammenfassung) werden beibehalten. - Main-Funktion und DataProcessor entsprechend der neuen Betriebsmodi angepasst.	2025-04-09 06:36:35 +00:00
Floke	927def7266	URL normalisierung	2025-04-09 05:27:31 +00:00
Floke	9ae2c51591	bugfix	2025-04-08 19:39:55 +00:00
Floke	1d11ed3ef0	bugfix	2025-04-08 19:37:22 +00:00
Floke	4b374192b1	bugfix	2025-04-08 19:31:38 +00:00
Floke	a2ea4cf21e	Bugfix	2025-04-08 19:26:05 +00:00
Floke	d6d28a0616	bugfix	2025-04-08 19:20:34 +00:00
Floke	80c930b097	v1.4.6 Neue Website-Funktionen: SERP Lookup & Detail-Scraper integriert - Modus 22: Neue Funktion 'serp_website_lookup' ermittelt per SERPAPI die Website, wenn CRM-Daten fehlen. - Neue Funktion 'scrape_website_details' extrahiert Seitentitel, Meta-Description und h1/h2/h3-Überschriften. - Beide Funktionen werden als Testmodule bereitgestellt und können in das Gesamtworkflow integriert werden. - Main und Betriebsmodus-Menü wurden um die neuen Modi ergänzt. - Alignment-Demo um neue Spalten erweitert	2025-04-08 18:24:46 +00:00
Floke	d52533348a	v1.4.6 Neue Betriebsmodi: Untermodi für Re-Evaluation, Website, SERP, ChatGPT implementiert - Umstellung des Modus-Menüs auf ein neues Zahlensystem (1, 11, 21, 22, 31, 41, 51, 6) - Modus 11: Re-Evaluation markierter Zeilen (ehemals Modus 2) - Modus 21: Testmodus Website-Scraping (nur Website-Rohtext & Zusammenfassung) - Modus 22: SERP-API basierter Website Lookup - Modus 31: Vollständige ChatGPT-Auswertung - Modus 41: Nur Wikipedia-Scraping - Re-Evaluation-Untermodi (z. B. 11.1) können bei Bedarf später hinzugefügt werden - Main-Funktion angepasst, um neue Modusauswahl zu ermöglichen	2025-04-08 17:58:02 +00:00
Floke	0dad95c036	v1.4.5 Timestamp-Skip und URL-Scheme ergänzt, Website-Fallback bleibt, Alignment Demo vollständig be - In _process_single_row() und process_verification_only() wird nun geprüft, ob in Spalte AO bereits ein Timestamp steht – in diesem Fall wird die Zeile übersprungen. - In get_website_raw() wird vor dem Abruf geprüft, ob der URL mit "http" beginnt; andernfalls wird "https://" vorangestellt. - Ansonsten bleibt die bisherige Logik (inklusive Website-Extraktion und -Zusammenfassung, Fallback in evaluate_branche_chatgpt und vollständige Alignment Demo) unverändert.	2025-04-08 14:43:32 +00:00
Floke	de51bd76f7	bugfix	2025-04-08 14:15:55 +00:00

1 2 3 4 5

224 Commits