- Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist.
- GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln.
- CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte.
- Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.
wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche.
umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT).
Wikipedia-URL wird garantiert in Spalte M geschrieben.
get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt.
GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
- Nur noch Wikipedia-URL lokal ermittelt
- URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …")
- GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren
- HTML-Parsing und lokale Extraktion entfallen vollständig
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf
- Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
- Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“)
- Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt
- Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)
- Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung
- Fallback-Logik für Wikipedia-Infobox hinzugefügt:
- Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft
- erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet
Wikipedia-Suche ist vollständig implementiert:
Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname
wikipedia.search() liefert bis zu 3 Treffer
Titelvergleich verhindert falsche Zuordnung
HTML der Seite wird geladen
Infobox mit infobox oder infobox vcard wird geprüft
Branche wird aus <th>Branche</th> extrahiert
Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159)
✅ Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert.
✅ Diese Werte werden beim Schreiben bevorzugt:
python
Copy
Edit
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
✅ Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).
✅ Einrückungen wurden korrigiert – wiki_final und umsatz_final liegen jetzt sauber innerhalb der Schleife und werden korrekt pro Zeile berechnet.
Die Verarbeitung sollte jetzt fehlerfrei durchlaufen. Sag Bescheid, wenn du Logging, Validierung oder Debug-Ausgabe pro Zeile brauchst.
✅ Die Wikipedia-Daten (Branche und Umsatz) werden jetzt bevorzugt verwendet, wenn sie verfügbar sind. GPT-Schätzungen kommen nur zum Einsatz, wenn Wikipedia keine Daten liefert.
Bereit für den nächsten Testlauf! Sag Bescheid, wenn du noch einen manuellen Override oder eine Prüfregel zur Validierung einbauen möchtest.
Statt nur wikipedia.page() wird jetzt wikipedia.search() verwendet.
Es werden die besten 3 Treffer geprüft.
Nur Artikel, deren Titel den Unternehmensnamen enthalten, werden akzeptiert.
Dadurch wird z. B. „Heimbach-Gruppe“ korrekt erkannt, auch wenn „Heimbach GmbH“ gesucht wurde.
Das komplette Ziel-Branchenschema ist jetzt wieder korrekt im Code enthalten und wird im System-Prompt an GPT übergeben. Damit ist sichergestellt, dass GPT die richtige Referenzbasis für die Einstufung hat. Bereit für den nächsten Lauf!
✅ Änderungen sind eingebaut:
Wikipedia-Suche prüft jetzt Firmenname, erste zwei Worte und Domainname.
Es wird nur ein Artikel akzeptiert, wenn er den Firmennamen eindeutig enthält.
Wenn kein Wikipedia-Link gefunden wird, wird "k.A." für Branche und Umsatz gesetzt.
GPT-Antwort wird in der Datei gpt_antworten_log.csv lokal gespeichert (mit kompletter Antworttext).
Prompt enthält nun klar: „Bitte verwende nur das konkret genannte Unternehmen“.
Bereit für den nächsten Lauf. Sag Bescheid, wenn du Logging-Ausgaben auswerten oder Grenzfälle testen möchtest.