Hier ist eine aktualisierte Version, die alle oben beschriebenen Anpassungen berücksichtigt. Ich habe Folgendes vorgenommen:
Versionsupdate: Die Versionsnummer wurde auf v1.3.16 gesetzt.
Neue Modi integriert:
Modus 8 (Batch-Token-Zählung in Spalte AQ)
Modus 51 (Verifizierung: Nur Wikipedia + Brancheneinordnung in einem Batch-Prozess)
Die bestehenden Modi (1, 2, 3, 4, 5, 6, 7) bleiben erhalten.
Verbesserte Header-Definitionen: Sowohl im Hauptblatt als auch im „Contacts“-Blatt.
Verbesserte Fehlerbehandlung und Logging: Kleinere Anpassungen beim Logging und beim Warten auf Updates.
Im Folgenden findest Du den vollständigen, aktualisierten Code (v1.3.16):
Labyrinthgenerierung: Es wird ein „perfektes“ Labyrinth erstellt (ohne Schleifen), das dennoch Sackgassen enthalten kann.
Steuerung: Mit den Pfeiltasten bewegst Du den Ball, wobei vor jedem Schritt geprüft wird, ob eine Wand den Weg blockiert.
Timer & Anzeige: Vor Spielstart bleibt das Labyrinth unsichtbar. Erst nach Drücken der Leertaste wird es angezeigt und der Timer startet.
Debug-Ausgabe im Verifizierungsmodus zeigt jetzt die Zeilennummern und Firmennamen des aktuellen Batches.
In allen relevanten Modi wird nun abgefragt, wieviele Zeilen verarbeitet werden sollen (Batch-Modus erwartet Vielfaches von 10).
Alle sonstigen Funktionen bleiben erhalten – die Spaltenpositionen müssen unverändert sein, um den Code nicht anzupassen.
Modus 51 wurde so angepasst, dass im Batch jeweils 10 Einträge aggregiert werden.
Für jeden Eintrag wird aus ChatGPT das Ergebnis verarbeitet:
– Spalte S erhält „OK“ (falls passend) oder bleibt leer.
– Falls ein alternativer Artikel vorgeschlagen wird, wird die URL in Spalte U und die Begründung in Spalte V geschrieben; bei fehlendem Artikel wird in Spalte U „Kein Wikipedia-Eintrag vorhanden.“ eingetragen.
Der Branchenvorschlag (basierend auf den Branchenangaben in Spalte G, H, O, R) wird in Spalte W geschrieben und das Konsistenzresultat in Spalte Y.
Der Verifizierungs‑Timestamp wird in Spalte AO, die Version in Spalte AP und der Batch Token Count in Spalte AQ eingetragen.
In Modus 51 werden nun jeweils 10 Einträge in einem Batch aggregiert und an ChatGPT gesendet.
Die Antwort wird so geparst, dass in Spalte W der Branchenvorschlag, in Spalte X der Konsistenzstatus und in Spalte Y die Begründung bei Abweichung eingetragen wird.
Zusätzlich wird die Token-Zahl des aggregierten Prompts in Spalte AQ geschrieben.
Es wurden separate Startindex-Funktionen implementiert, um Wiki- und ChatGPT-Runs über unterschiedliche Spalten zu steuern.
- Neuer Modus 8 implementiert, der 10 Zeilen-Batches bildet, einen aggregierten Prompt erstellt und mit tiktoken die Tokenanzahl schätzt.
- Der ermittelte Tokenwert wird in Spalte AQ für alle Zeilen des Batches eingetragen.
- Alle Spalten wurden um +1 verschoben (Kurzform in Spalte C, Website in D, etc.).
- Bestehende Modi (1,2,3,4,5,6,7,51) bleiben erhalten.
- Neuer Modus 51 implementiert, der ausschließlich die Wikipedia-Daten extrahiert und die Brancheneinordnung (bis Spalte Y) vornimmt.
- FSM- und Servicetechniker-Bewertungen werden in diesem Modus übersprungen.
- Alle Spalten wurden um +1 verschoben; Kurzform des Firmennamens ist nun in Spalte C.
- Update-Aufrufe wurden entsprechend angepasst.
- Neue Header: Spalte C enthält jetzt die Kurzform des Firmennamens.
- Website verschoben auf Spalte D, und alle nachfolgenden Spalten um +1.
- Alle Code-Referenzen (Update-Ranges, Indexe in _process_single_row, get_start_index, process_contacts, process_contact_research) wurden entsprechend angepasst.
- Für LinkedIn-Suchen wird jetzt die Kurzform (Spalte C) bevorzugt verwendet.
- Regulärer Modus (1): Bearbeitet nur Zeilen ohne Wikipedia- (Spalte AM) bzw. ChatGPT-Timestamp (Spalte AN)
- Re-Evaluierungsmodus (2): Verarbeitet nur Zeilen mit "x" in Spalte A
- Alignment-Demo (3): Schreibt neuen Header in Haupt- und Contacts-Blatt
- Modus 4: Nur Wikipedia-Suche, Modus 5: Nur ChatGPT-Bewertung
- Modus 6: Contact Research via SerpAPI; Spalten AH-AK aktualisieren und AL als Timestamp setzen
- Neue Header-Spalten: AH (Serviceleiter), AI (IT-Leiter), AJ (Management), AK (Disponent), AL (Contact Search Timestamp), AM (Wikipedia Timestamp), AN (ChatGPT Timestamp), AO (Version)
- Alle bisherigen Funktionen bleiben erhalten
- Neuer Modus 5 (contacts_alignment_demo) führt einen Schreibtest auf dem Contacts-Sheet durch
- Spalten AH und AI werden nun getrennt als Timestamp für Wiki-Update bzw. ChatGPT-Bewertung geführt; restliche Spalten um eine Position verschoben
- Debug-Ausgaben wurden erweitert, um den Ablauf und die Ergebnisse besser nachvollziehen zu können
- Beibehaltung aller Funktionen aus früheren Versionen (Modi 1-3, LinkedIn Contacts)
- Neuer Modus 4 implementiert, der ausschließlich Wikipedia-Suchen ausführt und keine ChatGPT-Anfragen stellt
- Debug-Ausgaben wurden verbessert, um den Ablauf und die Ergebnisse besser nachvollziehen zu können
- Startindex wird anhand des letzten Timestamps in Spalte AH korrekt ermittelt, sodass bestehende Datensätze nicht überschrieben werden
- Alle bisherigen Funktionen aus v1.3.6 bleiben erhalten
- Neuer Modus 4 wurde implementiert, der ausschließlich Wikipedia-Suchen durchführt ohne ChatGPT-Anfragen
- Modus 5 ermöglicht die LinkedIn-Kontaktsuche via SerpApi
- Debug-Ausgaben wurden in allen Funktionen verbessert, sodass der Ablauf und die Ergebnisse besser nachvollzogen werden können
- Der Startindex wird anhand des letzten Timestamps in Spalte AH korrekt ermittelt, sodass bestehende Datensätze nicht überschrieben werden
- Implemented new mode 4 that performs only Wikipedia searches without ChatGPT requests
- process_wikipedia_only() updates columns K–Q, AH, and AI in the main sheet
- Retained existing functions for modes 1–3 and improved debug output for tracing
- Provided complete commit summary and description format with "- " as prefix
Ersetze in deinem Skript den bisherigen Codeabschnitt, der den neuen Modus für die LinkedIn-Kontaktsuche (Modus 4) implementiert hat – also den gesamten Bereich ab der Definition von def search_linkedin_contact(...) bis zum Ende der Funktion def process_contacts(): – durch den oben stehenden Code.
Diese Funktionen liegen in der Sektion „NEUER MODUS: CONTACTS“ (ungefähr im mittleren Bereich deines Skripts, direkt vor dem Main-Programm).
Die zusätzlichen Debug-Ausgaben sorgen dafür, dass du in der Konsole und in der Log-Datei siehst, welche Firmen gerade verarbeitet werden, welche Suchanfragen erstellt werden und welche Ergebnisse (bzw. ob ein Kontakt gefunden wurde) zurückkommen.
Neuer Modus (4) zur Suche von LinkedIn-Kontakten via SerpApi, Ausgabe im Tabellenblatt "Contacts" mit den Spalten Firmenname, Website, Vorname, Nachname, Position.
Bugfix: Im regulären Modus (1) wird jetzt ab dem letzten Timestamp in Spalte AH nur noch die angegebene Anzahl an Zeilen verarbeitet.
Bugfix: Bestehende Datensätze (mit Timestamp in AH) werden nicht überschrieben, es wird ab der ersten leeren Zeile gestartet.
Weitere Anpassungen bei den bisherigen Funktionen (FSM, Servicetechniker-Schätzung) bleiben erhalten.
Der Dekorator retry_on_failure wurde oben im Code definiert.
Wikipedia-Artikelvorschlag aus Spalte K wird bevorzugt genutzt.
Nach dem Schreiben der Wiki-Daten wird geprüft, ob das Update abgeschlossen ist, mit einer 3‑Sekunden-Pause.
Der FSM-Eignungsparser wurde flexibler angepasst, sodass auch freie Antworten erkannt werden.
Bei Abweichungen in der Servicetechniker-Schätzung wird jetzt zusätzlich eine detaillierte Erklärung von ChatGPT angefordert.
Die Spalten AF und AG werden mit "XX" befüllt.
Alle Debug-Ausgaben werden automatisch in einer Log-Datei im Ordner "Log" gespeichert, deren Name Datum, Uhrzeit und Versionsnummer enthält.
Wikipedia-Artikelvorschlag aus Spalte K wird bevorzugt genutzt.
Nach dem Schreiben der Wikipedia-Daten wird überprüft, ob das Update abgeschlossen ist (mit einer max. 5‑s‑Wartezeit) und es folgt eine 3‑s Pause.
Der FSM-Eignungsparser wurde angepasst, um auch freiere Antworten zu verarbeiten.
Bei Diskrepanzen in der Servicetechniker-Schätzung wird nun zusätzlich eine detaillierte Erklärung von ChatGPT angefordert.
Die Spalten AF und AG werden vorerst mit "XX" befüllt.
Alle Debug-Ausgaben werden automatisch in einer Log-Datei im Ordner "Log" mit Datum und Versionsnummer gespeichert.
Bevorzugter Wikipedia-Artikel aus Spalte K wird genutzt.
Nach dem Schreiben der Wiki-Daten erfolgt eine 3-Sekunden-Pause.
Neue Funktion zur FSM-Eignungsprüfung (Spalte Y/Z) integriert.
Neue Servicetechniker-Schätzung (Spalte AD) und Vergleich mit interner Angabe (Spalte AE) hinzugefügt.
Versionsnummer wurde auf v1.3.4 aktualisiert.
Neue Funktion zur Branchenzuordnung hinzugefügt. ChatGPT bewertet basierend auf CRM, Wikipedia-Daten und Fokusbranchen. Spalten V, W und X werden entsprechend aktualisiert. Versionsnummer wurde auf v1.3.2 aktualisiert.
Validierung:
Eine neue Funktion validate_company_data erstellt einen Prompt für die ChatGPT-API, in dem die relevanten CRM- und Wikipedia-Daten (Firmenname, Umsatz, Mitarbeiter, Branche) verglichen werden. Je nach Antwort wird „OK“ oder „X“ sowie eine Begründung zurückgegeben.
Alternative Suche:
Falls eine Inkonsistenz festgestellt wird (Validierung ergibt „X“), wird in der Funktion find_alternative_wikipedia_article nach einem alternativen Wikipedia-Artikel gesucht und dessen URL in Spalte T geschrieben.
Spalten R, S, T:
Die Ergebnisse der Validierung (Flag und Begründung) werden in Spalte R und S ausgegeben, während bei Inkonsistenz der alternative Artikel in Spalte T hinterlegt wird.
Validierungsschritt:
Die neue Funktion validate_article_with_chatgpt(crm_data, wiki_data) aggregiert die CRM-Daten (Spalten B–J) und die Wikipedia-Daten (Spalten L–Q) als CSV-Text. Der erstellte Prompt teilt ChatGPT mit, dass beide Datensätze verglichen werden sollen, um zu prüfen, ob sie zum selben Unternehmen gehören.
– Wichtige Vergleichskriterien sind der Firmenname, Ort und Branche (die Umsatzangaben können toleriert werden).
– Das Ergebnis (z. B. "OK" oder eine Begründung) wird in Spalte R (Konsistenzprüfung) gespeichert.
Integration:
Der Validierungsschritt wird direkt in _process_single_row nach dem Aktualisieren der Wikipedia-Daten ausgeführt. Eine 1‑Sekunden-Pause wurde eingebaut, um sicherzustellen, dass die Daten in Google Sheets aktualisiert sind, bevor die Validierung erfolgt.
Logging:
Ausführliche Debug-Ausgaben helfen dabei, den Vergleich und eventuelle Fehler zu überwachen.
Verbesserte numerische Extraktion:
Die Funktion extract_numeric_value wurde erweitert, um den Eingabetext zuerst mittels Unicode‑Normalisierung zu säubern.
Eine robustere Regex (r'([\d]+(?:[.,]\d+)*)') wurde eingeführt, um Zahlen zuverlässig zu erfassen.
Die extrahierte Zahl wird normalisiert (Standard-Komma und Punkt) und dann konvertiert.
Debug-Ausgabe: Es werden zusätzliche Debug-Nachrichten ausgegeben, die die bereinigten Vergleichswerte vor der Konversion anzeigen.
Pause: Eine 1‑Sekunden‑Pause wurde nach dem Speichern der Wikipedia-Daten in Google Sheets eingefügt, um sicherzustellen, dass die Werte tatsächlich ankommen.
Robuste numerische Extraktion:
Die Funktion extract_numeric_value wurde erweitert, um führende und umgebende Texte zu entfernen. Kommas werden je nach Kontext als Dezimaltrennzeichen oder Tausendertrennzeichen behandelt.
Verbesserte Vergleichslogik:
Vor dem Vergleich werden die bereinigten Werte geloggt. Falls einer der Werte nicht in einen Float konvertiert werden kann, wird "Daten unvollständig" zurückgegeben.
Erweiterte Debug-Ausgabe:
Log-Ausgaben zeigen jetzt explizit die bereinigten Vergleichswerte für CRM- und Wikipedia-Umsätze.
Pause zur Datensynchronisation:
Eine einsekündige Pause wurde nach dem Schreiben in Google Sheets eingeführt, um
• Neue Funktionen parse_currency_value und parse_employee_value extrahieren und wandeln Umsatz- bzw. Mitarbeiterzahlen korrekt um.
• Tausenderpunkte werden entfernt und Kommas als Dezimaltrenner ersetzt.
• Skalierung: Bei "mrd." wird der Wert mit 1000 multipliziert, bei "mio." bleibt er unverändert, andernfalls wird angenommen, dass der Wert in Euro vorliegt und durch 1e6 geteilt wird.
• Im Vergleichsabschnitt werden die zu vergleichenden Werte vor dem Versuch der Umwandlung geloggt.
• Es wird eine 1-Sekunden-Pause nach dem Schreiben in Google Sheets eingefügt, um sicherzustellen, dass die Daten übernommen wurden.
Verbesserte Numerische Extraktion:
In extract_numeric_value werden nun führende Nicht-Ziffern entfernt. Es wird unterschieden, ob ein Komma als Dezimaltrennzeichen oder als Tausendertrenner genutzt wird. Dadurch werden Werte wie "2,395 Mrd. Euro" korrekt in 2395 Mio. Euro umgerechnet und Mitarbeiterzahlen wie "ca. 800" werden korrekt extrahiert.
Erweiterte Debug-Ausgabe:
Die bereinigten Vergleichswerte für CRM- und Wikipedia-Umsätze werden im Log ausgegeben, um Formatierungsprobleme schneller zu erkennen.
Fallback-Handling:
Bei fehlerhafter Umwandlung wird der Originaltext als Fallback zurückgegeben.
Erweiterte String-Bereinigung:
Zusätzliche Ersetzungen in extract_numeric_value (Entfernung von "ca.", "circa", "etwa", "über", "rund") zur robusteren Extraktion numerischer Werte aus Rohtexten.
Fallback-Handling:
Bei Fehlern in der Umwandlung wird der Originaltext oder "k.A." als Fallback ausgegeben.
Zusätzliche Debug-Ausgabe:
Vor dem Vergleich der CRM- und Wikipedia-Umsätze werden die bereinigten Werte im Debug-Log ausgegeben.
Kurze Pause (1 Sekunde):
Eine 1-Sekunden-Pause wird nach dem Update in Google Sheets eingefügt, um sicherzustellen, dass die Werte vor dem Vergleich vollständig gespeichert sind.
1-Sekunden-Pause:
Nach dem Update der Wikipedia-Daten in Google Sheets wird eine 1-Sekunden-Pause eingefügt, um sicherzustellen, dass die Zellen aktualisiert wurden, bevor der Umsatzvergleich erfolgt.
Zusätzliche Debug-Ausgabe:
Vor dem Vergleich werden die CRM-Umsatz- und Wikipedia-Umsatzwerte im Debug-Log ausgegeben, um besser nachvollziehen zu können, welche Werte verglichen werden.
Umsatz-Abgleich:
Die Funktion compare_umsatz_values vergleicht den in Spalte I (CRM) hinterlegten Umsatz mit dem aus Wikipedia extrahierten Umsatz. Bei Abweichungen wird eine entsprechende Meldung in Spalte AG ausgegeben.