Commit Graph

256 Commits

Author SHA1 Message Date
daab0caa5c v1.6.1: Verbessere Website-Scraping zur Umgehung von Cookie-Bannern
- Überarbeite `get_website_raw` zur besseren Handhabung von Cookie-Bannern.
- Priorisiere Scraping von Hauptinhalt-Tags (`<main>`, `<article>`, spezifische IDs/Klassen).
- Implementiere Fallback auf `<body>` mit Versuch, häufige Banner-Elemente zu entfernen (`.decompose()`).
- Füge Heuristik hinzu, um extrahierten Text zu verwerfen, wenn er wahrscheinlich nur Banner-Inhalt ist.
- Erhöhe Request-Timeout in `get_website_raw` leicht auf 15 Sekunden.
2025-04-15 20:14:47 +00:00
c5b3089c1c bugfix 2025-04-15 14:54:01 +00:00
28d43cd4d4 bugfix 2025-04-15 14:49:35 +00:00
7d5d347cb4 bugfix 2025-04-15 14:06:56 +00:00
8d59f27e82 bugfix 2025-04-15 13:55:16 +00:00
317b2fdea4 bugfix 2025-04-15 13:33:53 +00:00
ed2489f21e bugfix 2025-04-15 12:59:01 +00:00
6978e8df95 v1.6.0: Refactoring - Code-Optimierung und Beseitigung von Redundanzen
Git-Änderungsbeschreibung:
- Doppelte Funktionen (process_verification_only, _process_batch, count_linkedin_contacts) entfernt.
- Doppelte DataProcessor-Klasse entfernt.
- Ungenutzten Code (Timestamp-Handling, compare_umsatz_values, process_contacts) entfernt.
- Google Sheet Updates optimiert durch konsequentere Nutzung von batch_update in Schleifen (_process_batch, process_website_batch, process_branch_batch, process_contact_research).
- API-Key-Handling zentralisiert: Keys werden einmal in Config geladen und von dort bezogen.
- Google Sheet Verbindung zentralisiert: Wird nur noch im GoogleSheetHandler aufgebaut.
- Vorbereitung für robustere Spaltenzugriffe durch Einführung einer COLUMN_MAP (noch nicht durchgängig genutzt).
- Modus-Steuerung in main() konsolidiert.
- alignment_demo korrigiert (nur noch für Hauptblatt). Header für Contacts-Blatt in process_contact_research gesetzt.
- Konstanten für Dateinamen eingeführt.
2025-04-15 12:57:27 +00:00
353453296a bugfix 2025-04-15 12:16:29 +00:00
979671c4b2 bugfix 2025-04-15 12:03:46 +00:00
aadb210da3 bugfix 2025-04-15 11:48:24 +00:00
99313df451 bugfix 2025-04-15 11:33:22 +00:00
b320ef4128 bugfix 2025-04-15 11:29:54 +00:00
46218ac316 bugfix 2025-04-15 11:29:21 +00:00
7c6bb5abbf bugfix 2025-04-15 11:27:53 +00:00
cca9380384 bugfix 2025-04-15 10:33:33 +00:00
2376da4734 v1.5.8: Externe Branchenzuordnung mittels Mapping verfeinert
- Mapping-Funktion load_branch_mapping() integriert, um aus der CSV "ziel_Branchenschema.csv" automatisch ein Mapping-Dictionary zu erstellen.
- Neue Funktion map_external_branch() implementiert, die den von ChatGPT gelieferten externen Branchenbegriff (nach Normalisierung) in das standardisierte Ziel-Branchenschema überführt.
- In evaluate_branche_chatgpt wird zuerst der ChatGPT-Vorschlag geparst, unerwünschte Präfixe entfernt und über map_external_branch() in den korrekten Standardwert transformiert.
- Optional wird der CRM-Präfix ergänzt, falls der Mapping-Wert kein hierarchisches Trennzeichen enthält.
- Damit wird der externe Input selbstbewusster übernommen, solange er durch das Mapping bestätigt wird.
2025-04-15 08:01:04 +00:00
a8c18e8629 bugfix 2025-04-14 17:21:50 +00:00
8e9230b8f6 bugfix 2025-04-14 17:08:50 +00:00
094a10fd80 bugfix 2025-04-14 15:41:43 +00:00
615ef7f296 v1.5.7: Fuzzy Matching und Hierarchie-Ergänzung in evaluate_branche_chatgpt
- evaluate_branche_chatgpt: Neuer Schritt zum Ergänzen fehlender Hierarchie mit CRM-Präfix  
- Fuzzy Matching zwischen zusammengesetztem Vorschlag und CRM-Wert eingebaut  
- Sicherstellung, dass der finale Brancheneintrag stets dem Ziel-Branchenschema entspricht
2025-04-14 15:41:26 +00:00
2d24533a1b v1.5.6: Fallback-Mechanismus in evaluate_branche_chatgpt verbessert
- evaluate_branche_chatgpt: Fallback auf CRM-Wert implementiert, wenn ChatGPT-Vorschlag nicht valide ist  
- Helper-Funktionen is_valid_branch und branch_matches_target_schema zur Überprüfung der Branchenwerte hinzugefügt  
- Fokusbranchen (service provider, hersteller / produzenten, sonstige) bleiben erhalten
2025-04-14 14:53:20 +00:00
2c340537ef bugfix 2025-04-14 14:09:14 +00:00
253ed2ca3e bugfix 2025-04-14 13:34:36 +00:00
23b331bd4b 1.5.5: Neue evaluate_branche_chatgpt mit erweitertem Logging und exakter Branchenabgleich
- Alle verwendeten Input-Werte (CRM-Branche, externe Beschreibung, Wiki-Daten, Website-Zusammenfassung) werden geloggt.
- Bei fehlendem Wikipedia-Eintrag wird explizit die Website-Zusammenfassung als Fallback genutzt.
- Normierte Eingabewerte und Ziel-Branchenschema werden für den exakten Vergleich ausgegeben.
- Es werden ausschließlich Branchen aus dem Ziel-Schema akzeptiert – ansonsten Rückgabe "k.A." mit Konsistenz "X".
2025-04-14 13:02:36 +00:00
cd613d15e5 rollback2 2025-04-14 08:22:38 +00:00
9053232bcc Rollback auf 1.5.4 2025-04-14 06:23:24 +00:00
672d5fc06b bugfix 2025-04-14 06:13:31 +00:00
47a7f1d442 bugfix 2025-04-14 05:18:46 +00:00
de9da6a390 bugfix 2025-04-11 12:57:11 +00:00
343435f2e4 bugfix 2025-04-11 12:49:00 +00:00
d9af337402 bugfix 2025-04-11 12:12:16 +00:00
1522146a28 bugfix 2025-04-11 11:38:57 +00:00
6095478284 1.5.11: Dispatcher und modulare Batch-Prozesse für Wiki, Website und Branch integriert
- Neuer run_dispatcher, der den Startpunkt (erste Zeile ohne Zeitstempel in AO ab Zeile 7)
  ermittelt und den verarbeitenden Bereich (z. B. 50 Zeilen) definiert.
- Separate Batch-Funktionen: process_wiki_batch (Spalten S–Y), process_website_batch (Spalten AR/AS)
  und process_branch_batch (Spalten W–Y) werden je nach Modus aufgerufen.
- Erlaubt getrennte oder kombinierte Durchläufe via Modus-Parameter.
- Verbesserte Log-Ausgaben unterstützen die Fehleranalyse.
2025-04-11 11:33:21 +00:00
82c033170b bugfix 2025-04-10 10:47:32 +00:00
24721febd2 bugfix 2025-04-10 10:44:34 +00:00
c49e66f2f1 bugfix 2025-04-10 10:37:06 +00:00
57f1039d12 bugfix 2025-04-10 10:32:56 +00:00
df23fbd9e5 bugfix 2025-04-10 10:28:27 +00:00
095715435c bugfix 2025-04-10 09:52:58 +00:00
e18bc08d4f bugfix 2025-04-10 09:39:46 +00:00
5bfeaef4a2 1.5.3: Optimierung Batch-Modus und Alignment-Demo Integration für robustes Update
- Anpassbare Batchgröße (Config.BATCH_SIZE, z. B. 10 Zeilen) zur Bündelung von ChatGPT-Anfragen.
- Aggregierte Prompts werden pro Batch erstellt und zeilenweise ausgewertet, mit erweitertem Logging.
- Ergebnisse der Aggregation werden als Paket verarbeitet und Google Sheets effizient aktualisiert.
- Alignment-Demo als eigenständiger Funktionsbaustein (alignment_demo_full) wiederhergestellt.
2025-04-10 09:31:17 +00:00
c4e9fc3810 bugfix 2025-04-10 06:46:58 +00:00
fbf15876dc bugfix 2025-04-10 06:42:46 +00:00
15cdf0af63 bugfix 2025-04-10 06:25:21 +00:00
1972b7024b bugfix 2025-04-10 06:13:53 +00:00
e8b18a40d5 1.5.2: Ergänzung heuristischer E-Mail-Generierung und Spaltenanpassung im Contacts-Blatt
- Neue Funktion get_email_address zur Erzeugung der E-Mail-Adresse im Format vorname.nachname@domain.tld
- Anpassung von process_contact_research: E-Mail-Adresse in Spalte I eingetragen, LinkedIn-Link und Timestamp entsprechend verschoben
- Integration der E-Mail-Generierung in den bestehenden Kontaktverarbeitungs-Workflow, bestehende Funktionen weitgehend unverändert
2025-04-10 06:11:28 +00:00
b4f5974877 bugfix 2025-04-10 05:53:53 +00:00
78cc6760e9 1.5.1: Integrierter hybrider Geschlechtsdetektor & aktualisierte Kontakte-Spalten
- Umstellung der Geschlechtsbestimmung: Zuerst gender-guesser, Fallback zu Genderize API
- Geschlecht wird jetzt in Spalte D gespeichert (alle folgenden Felder rutschen um eine Spalte nach rechts)
- Aktualisierte Header und Kontaktzeilen im Contacts-Blatt, inklusive API-Key aus "genderize_API_Key.txt"
- Anpassung der Contact Research-Funktion zur Verarbeitung der geänderten Spalten
2025-04-10 05:49:56 +00:00
6872664601 bugfix 2025-04-09 17:20:40 +00:00