Commit Graph

22 Commits

Author SHA1 Message Date
dbc7e05cd9 Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben
- ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings
- Prompt wird nun korrekt an GPT übergeben
2025-03-30 08:17:43 +00:00
a2b7389c30 Fix: SyntaxError im Prompt-Aufbau behoben
- f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt
- Ermöglicht saubere Übergabe der Wikipedia-URL an GPT
2025-03-30 08:03:28 +00:00
1c36599b15 Refactor: Wikipedia-Analyse vollständig an GPT übergeben
- Nur noch Wikipedia-URL lokal ermittelt
- URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …")
- GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren
- HTML-Parsing und lokale Extraktion entfallen vollständig
2025-03-30 08:01:05 +00:00
7921eed97c Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen
- prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“
- erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt
2025-03-30 07:52:55 +00:00
74d0b405fd Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf
- Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
2025-03-30 07:46:05 +00:00
38ffb826ee Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war
- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
2025-03-30 07:36:34 +00:00
85ed437297 Enhancement: Wikipedia-Treffer durch Positivliste für Kategorien validiert
- Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“)
- Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt
- Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)
2025-03-30 07:28:07 +00:00
7a45b4af1b Zeilenversatz im Google Sheet behoben und Wikipedia-Fallback verbessert
- Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung
- Fallback-Logik für Wikipedia-Infobox hinzugefügt:
  - Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft
  - erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet
2025-03-30 07:15:58 +00:00
cb298828b7 Wikipedia Bugfix
Wikipedia-Suche ist vollständig implementiert:

Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname

wikipedia.search() liefert bis zu 3 Treffer

Titelvergleich verhindert falsche Zuordnung

HTML der Seite wird geladen

Infobox mit infobox oder infobox vcard wird geprüft

Branche wird aus <th>Branche</th> extrahiert

Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159)

 Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert.

 Diese Werte werden beim Schreiben bevorzugt:

python
Copy
Edit
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
 Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).
2025-03-30 07:05:06 +00:00
c7ad23b3da Wikipedia Bugfix Einrückung 2025-03-30 06:52:33 +00:00
f389e4b35c Einrückungsfehler 2025-03-30 06:51:00 +00:00
64369fb28a Wikipedia Bugfix
 Einrückungen wurden korrigiert – wiki_final und umsatz_final liegen jetzt sauber innerhalb der Schleife und werden korrekt pro Zeile berechnet.

Die Verarbeitung sollte jetzt fehlerfrei durchlaufen. Sag Bescheid, wenn du Logging, Validierung oder Debug-Ausgabe pro Zeile brauchst.
2025-03-30 06:49:54 +00:00
dfb831632f Wikipedia Bugfix
 Die Wikipedia-Daten (Branche und Umsatz) werden jetzt bevorzugt verwendet, wenn sie verfügbar sind. GPT-Schätzungen kommen nur zum Einsatz, wenn Wikipedia keine Daten liefert.

Bereit für den nächsten Testlauf! Sag Bescheid, wenn du noch einen manuellen Override oder eine Prüfregel zur Validierung einbauen möchtest.
2025-03-30 06:45:54 +00:00
6122f5b47a Die Wikipedia-Suchfunktion wurde überarbeitet
Statt nur wikipedia.page() wird jetzt wikipedia.search() verwendet.

Es werden die besten 3 Treffer geprüft.

Nur Artikel, deren Titel den Unternehmensnamen enthalten, werden akzeptiert.

Dadurch wird z. B. „Heimbach-Gruppe“ korrekt erkannt, auch wenn „Heimbach GmbH“ gesucht wurde.
2025-03-30 06:31:21 +00:00
2c2d1f9f39 Branchenschema wieder ergänzt
Das komplette Ziel-Branchenschema ist jetzt wieder korrekt im Code enthalten und wird im System-Prompt an GPT übergeben. Damit ist sichergestellt, dass GPT die richtige Referenzbasis für die Einstufung hat. Bereit für den nächsten Lauf!
2025-03-29 22:12:09 +00:00
cf250fe4be Wikipedia Bugfix
 Änderungen sind eingebaut:

Wikipedia-Suche prüft jetzt Firmenname, erste zwei Worte und Domainname.

Es wird nur ein Artikel akzeptiert, wenn er den Firmennamen eindeutig enthält.

Wenn kein Wikipedia-Link gefunden wird, wird "k.A." für Branche und Umsatz gesetzt.

GPT-Antwort wird in der Datei gpt_antworten_log.csv lokal gespeichert (mit kompletter Antworttext).

Prompt enthält nun klar: „Bitte verwende nur das konkret genannte Unternehmen“.

Bereit für den nächsten Lauf. Sag Bescheid, wenn du Logging-Ausgaben auswerten oder Grenzfälle testen möchtest.
2025-03-29 22:08:31 +00:00
88f8ffb323 Bugfix Robuster Umgang mit k.A. 2025-03-29 21:46:28 +00:00
87412374f9 nochmal Spaltenaufteilung 2025-03-29 21:33:33 +00:00
531c2f3693 Bugfix Ergebnisse wurden alle in eine Zelle ausgegeben. sollten jetzt in mehrere Zellen ausgegeben w 2025-03-29 21:28:39 +00:00
7843348911 Bugfix Verlinkung API Key 2025-03-29 21:21:57 +00:00
aefa89ca15 komplett neue Version mit optimiertem Prompt 2025-03-29 21:08:31 +00:00
ef59697442 Erste Version 2025-03-29 18:47:15 +01:00