Commit Graph

44 Commits

Author SHA1 Message Date
21415698e0 fix(wikipedia): Robustere Extraktion durch angepasste Infobox-Auswertung mit Synonym-Feldern
- XPath entfernt, da BeautifulSoup in Kombination mit Infobox-Selektor zuverlässiger
- Nur Branchen aus Infobox erlaubt, Kategorien nur als Fallback entfernt
- Verbesserte Ausgabe: Nur bei gefundenem Wikipedia-Link werden Werte eingetragen
- Versionskennung 1.0.6 eingeführt (Spalte Q)
2025-03-31 08:36:38 +00:00
42316cd66a feat(wikipedia): Refactored Wikipedia extraction logic in v1.0.9-wiki-refined
- Stellt wieder bewährte BeautifulSoup-basierte Infobox-Suche her
- Verbesserte Titelvalidierung durch Namenssplit und Substring-Matching
- Umsatz-Parsing via Regex auf deutsche Formatierung optimiert
- Fallback auf Kategorien nur bei fehlender Infobox
- Versionierung (z. B. 1.0.9-wiki-refined) wird nun in Spalte Q mitgeschrieben
2025-03-31 07:57:40 +00:00
16f5f77967 1.0.8-wiki-api aktualisiert.
Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz

Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain)

Kein Rückfall mehr auf Kategorien bei fehlender Infobox

Spalte Q enthält nun die Versionsnummer
2025-03-31 07:49:50 +00:00
897742ddc3 feat(wikipedia): Verbesserte Wikipedia-Erkennung und Infobox-Parsing (v1.0.4)
- Domain-Key-Extraktion zur besseren Treffererkennung
- Scoring-Mechanismus zur Auswahl des besten Wikipedia-Artikels
- Erweiterter Infobox-Parser mit Label-Synonymen
- Validierung durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Versionierung der Ergebnisse mit Spaltenausgabe
2025-03-31 06:46:48 +00:00
09885848ec Verbessert: Wikipedia-Suchlogik erneut optimiert (Version 1.0.2)
- Wieder eingeführt: Kombination aus vollständigem Firmennamen, ersten zwei Wörtern und Domain-Fragment zur Suche
- Erhöhte Trefferwahrscheinlichkeit durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Info aus Infobox (Branche & Umsatz) wird bevorzugt; Kategorien nur als Fallback
- Version in Spalte Q geschrieben zur Nachverfolgbarkeit
2025-03-31 06:12:53 +00:00
2b010effec feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb
🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only)

📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen

🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen

 Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht
2025-03-31 05:41:04 +00:00
d73eb9198a Verbesserte Wikipedia-Suche:
- Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen
- Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung
- Präzisere Ergebnis-Auswahl durch Matching-Score
- Blacklist bewusst NICHT verwendet
- Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben
2025-03-30 18:40:44 +00:00
516221bb4b Wiki Debugging
Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen).

Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz.

Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.).

Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz.

Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.
2025-03-30 18:25:03 +00:00
4038fc1d0e Use Selector in Wiki
Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector).

Fallback auf k.A. wenn Selektor nicht vorhanden ist.

get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse.

Ausgabe an Google Sheet unverändert.

GPT-Teil wurde temporär entfernt, wie besprochen.
2025-03-30 18:13:15 +00:00
80a70fcf3b Code in zwei Bereiche aufgeteilt
Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte.

Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist.

GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik).

gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.
2025-03-30 17:42:46 +00:00
28983aec43 bugfix Deepsek2 2025-03-30 15:31:38 +00:00
fd2dbd2e8b bugfix deepseek 2025-03-30 15:29:54 +00:00
282e1f2dfe Deepseek V2 2025-03-30 15:27:03 +00:00
d5787f1875 Deepseek Aktualisierung 2025-03-30 12:38:39 +00:00
a609ff5a8e Version von Deepseek 2025-03-30 12:10:55 +00:00
aee4eb1291 Update brancheneinstufung.py 2025-03-30 11:54:10 +00:00
ef9ec29d93 Bugfixes
 Fehlerbehandlung mit try/except in classify_company ergänzt (OpenAIError wird behandelt)

 Retry-Mechanismus für GPT-Calls eingeführt (max. 3 Versuche mit 10 Sekunden Pause)

 Logfile gpt_antworten_log.csv speichert jetzt zusätzlich einen Zeitstempel (erste Spalte jeder Zeile)

 Fehlerhafte Import-Anweisung (from openai.error) durch funktionierende ersetzt

 Prompt an GPT um Hinweis ergänzt: Wenn kein Wikipedia-Link vorhanden ist, sind Wikipedia-Branche und Umsatz (Mio €) als k.A. auszugeben

 Wikipedia-Branche & Umsatz werden nur gesetzt, wenn auch ein Wikipedia-Link gefunden wurde

 Ausgabe von Wikipedia-Ergebnissen jetzt zuverlässiger (bessere Strukturprüfung)

 Canvas vollständig synchronisiert
2025-03-30 11:35:44 +00:00
bd9e9fac07 Update brancheneinstufung.py 2025-03-30 11:15:10 +00:00
94032f1fc1 log datei schreiben anpassung
- Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist.
- GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln.
- CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte.
- Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.
2025-03-30 10:52:33 +00:00
e90a8591d1 Log erweitert: Zeitstempel in gpt_antworten_log.csv ergänzt 2025-03-30 10:36:32 +00:00
81f361b9ef Wiki Prio 2025-03-30 08:32:23 +00:00
3817537e21 Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben
wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche.

umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT).

Wikipedia-URL wird garantiert in Spalte M geschrieben.

get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt.

GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
2025-03-30 08:25:16 +00:00
996af71f8b Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben
- ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings
- Prompt wird nun korrekt an GPT übergeben
2025-03-30 08:17:43 +00:00
f0bc264417 Fix: SyntaxError im Prompt-Aufbau behoben
- f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt
- Ermöglicht saubere Übergabe der Wikipedia-URL an GPT
2025-03-30 08:03:28 +00:00
78dc6acbe6 Refactor: Wikipedia-Analyse vollständig an GPT übergeben
- Nur noch Wikipedia-URL lokal ermittelt
- URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …")
- GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren
- HTML-Parsing und lokale Extraktion entfallen vollständig
2025-03-30 08:01:05 +00:00
1e51601569 Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen
- prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“
- erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt
2025-03-30 07:52:55 +00:00
7740e9edfc Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf
- Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
2025-03-30 07:46:05 +00:00
774c78290e Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war
- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
2025-03-30 07:36:34 +00:00
5daab5c22c Enhancement: Wikipedia-Treffer durch Positivliste für Kategorien validiert
- Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“)
- Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt
- Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)
2025-03-30 07:28:07 +00:00
63e31bb58f Zeilenversatz im Google Sheet behoben und Wikipedia-Fallback verbessert
- Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung
- Fallback-Logik für Wikipedia-Infobox hinzugefügt:
  - Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft
  - erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet
2025-03-30 07:15:58 +00:00
5bb7d271b9 Wikipedia Bugfix
Wikipedia-Suche ist vollständig implementiert:

Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname

wikipedia.search() liefert bis zu 3 Treffer

Titelvergleich verhindert falsche Zuordnung

HTML der Seite wird geladen

Infobox mit infobox oder infobox vcard wird geprüft

Branche wird aus <th>Branche</th> extrahiert

Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159)

 Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert.

 Diese Werte werden beim Schreiben bevorzugt:

python
Copy
Edit
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
 Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).
2025-03-30 07:05:06 +00:00
2e0eb3f5d4 Wikipedia Bugfix Einrückung 2025-03-30 06:52:33 +00:00
c3599e4570 Einrückungsfehler 2025-03-30 06:51:00 +00:00
8a42e40a0e Wikipedia Bugfix
 Einrückungen wurden korrigiert – wiki_final und umsatz_final liegen jetzt sauber innerhalb der Schleife und werden korrekt pro Zeile berechnet.

Die Verarbeitung sollte jetzt fehlerfrei durchlaufen. Sag Bescheid, wenn du Logging, Validierung oder Debug-Ausgabe pro Zeile brauchst.
2025-03-30 06:49:54 +00:00
e30817fab0 Wikipedia Bugfix
 Die Wikipedia-Daten (Branche und Umsatz) werden jetzt bevorzugt verwendet, wenn sie verfügbar sind. GPT-Schätzungen kommen nur zum Einsatz, wenn Wikipedia keine Daten liefert.

Bereit für den nächsten Testlauf! Sag Bescheid, wenn du noch einen manuellen Override oder eine Prüfregel zur Validierung einbauen möchtest.
2025-03-30 06:45:54 +00:00
8dffaedb51 Die Wikipedia-Suchfunktion wurde überarbeitet
Statt nur wikipedia.page() wird jetzt wikipedia.search() verwendet.

Es werden die besten 3 Treffer geprüft.

Nur Artikel, deren Titel den Unternehmensnamen enthalten, werden akzeptiert.

Dadurch wird z. B. „Heimbach-Gruppe“ korrekt erkannt, auch wenn „Heimbach GmbH“ gesucht wurde.
2025-03-30 06:31:21 +00:00
762aae0230 Branchenschema wieder ergänzt
Das komplette Ziel-Branchenschema ist jetzt wieder korrekt im Code enthalten und wird im System-Prompt an GPT übergeben. Damit ist sichergestellt, dass GPT die richtige Referenzbasis für die Einstufung hat. Bereit für den nächsten Lauf!
2025-03-29 22:12:09 +00:00
789c6b861e Wikipedia Bugfix
 Änderungen sind eingebaut:

Wikipedia-Suche prüft jetzt Firmenname, erste zwei Worte und Domainname.

Es wird nur ein Artikel akzeptiert, wenn er den Firmennamen eindeutig enthält.

Wenn kein Wikipedia-Link gefunden wird, wird "k.A." für Branche und Umsatz gesetzt.

GPT-Antwort wird in der Datei gpt_antworten_log.csv lokal gespeichert (mit kompletter Antworttext).

Prompt enthält nun klar: „Bitte verwende nur das konkret genannte Unternehmen“.

Bereit für den nächsten Lauf. Sag Bescheid, wenn du Logging-Ausgaben auswerten oder Grenzfälle testen möchtest.
2025-03-29 22:08:31 +00:00
f72c1b7394 Bugfix Robuster Umgang mit k.A. 2025-03-29 21:46:28 +00:00
3946338645 nochmal Spaltenaufteilung 2025-03-29 21:33:33 +00:00
a96725e0b0 Bugfix Ergebnisse wurden alle in eine Zelle ausgegeben. sollten jetzt in mehrere Zellen ausgegeben w 2025-03-29 21:28:39 +00:00
cbedb2c35e Bugfix Verlinkung API Key 2025-03-29 21:21:57 +00:00
949f9063d2 komplett neue Version mit optimiertem Prompt 2025-03-29 21:08:31 +00:00
b7dfd8c8ec Erste Version 2025-03-29 18:47:15 +01:00