Brancheneinstufung2

Author	SHA1	Message	Date
Floke	c85acec981	feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb 🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only) 📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen 🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen ✨ Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht	2025-03-31 05:41:04 +00:00
Floke	6aa4704cb8	Verbesserte Wikipedia-Suche: - Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen - Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung - Präzisere Ergebnis-Auswahl durch Matching-Score - Blacklist bewusst NICHT verwendet - Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben	2025-03-30 18:40:44 +00:00
Floke	21d9eb41ef	Wiki Debugging Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen). Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz. Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.). Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz. Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.	2025-03-30 18:25:03 +00:00
Floke	e917ace53c	Use Selector in Wiki Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector). Fallback auf k.A. wenn Selektor nicht vorhanden ist. get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse. Ausgabe an Google Sheet unverändert. GPT-Teil wurde temporär entfernt, wie besprochen.	2025-03-30 18:13:15 +00:00
Floke	0dc40e119e	Code in zwei Bereiche aufgeteilt Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte. Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist. GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik). gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.	2025-03-30 17:42:46 +00:00
Floke	6b67bdf85d	bugfix Deepsek2	2025-03-30 15:31:38 +00:00
Floke	59e64f41f5	bugfix deepseek	2025-03-30 15:29:54 +00:00
Floke	ecaf5a50ef	Deepseek V2	2025-03-30 15:27:03 +00:00
Floke	70b47d65d4	Deepseek Aktualisierung	2025-03-30 12:38:39 +00:00
Floke	3da57a95ca	Version von Deepseek	2025-03-30 12:10:55 +00:00
Floke	36fddec7b6	Update brancheneinstufung.py	2025-03-30 11:54:10 +00:00
Floke	82f06a3cbb	Bugfixes ✅ Fehlerbehandlung mit try/except in classify_company ergänzt (OpenAIError wird behandelt) ✅ Retry-Mechanismus für GPT-Calls eingeführt (max. 3 Versuche mit 10 Sekunden Pause) ✅ Logfile gpt_antworten_log.csv speichert jetzt zusätzlich einen Zeitstempel (erste Spalte jeder Zeile) ✅ Fehlerhafte Import-Anweisung (from openai.error) durch funktionierende ersetzt ✅ Prompt an GPT um Hinweis ergänzt: Wenn kein Wikipedia-Link vorhanden ist, sind Wikipedia-Branche und Umsatz (Mio €) als k.A. auszugeben ✅ Wikipedia-Branche & Umsatz werden nur gesetzt, wenn auch ein Wikipedia-Link gefunden wurde ✅ Ausgabe von Wikipedia-Ergebnissen jetzt zuverlässiger (bessere Strukturprüfung) ✅ Canvas vollständig synchronisiert	2025-03-30 11:35:44 +00:00
Floke	4504cc6d6f	Update brancheneinstufung.py	2025-03-30 11:15:10 +00:00
Floke	dc72a8104e	log datei schreiben anpassung - Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist. - GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln. - CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte. - Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.	2025-03-30 10:52:33 +00:00
Floke	662370ca60	Log erweitert: Zeitstempel in gpt_antworten_log.csv ergänzt	2025-03-30 10:36:32 +00:00
Floke	6567b0b540	Wiki Prio	2025-03-30 08:32:23 +00:00
Floke	7f8c02043f	Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche. umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT). Wikipedia-URL wird garantiert in Spalte M geschrieben. get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt. GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.	2025-03-30 08:25:16 +00:00
Floke	dbc7e05cd9	Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben - ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings - Prompt wird nun korrekt an GPT übergeben	2025-03-30 08:17:43 +00:00
Floke	a2b7389c30	Fix: SyntaxError im Prompt-Aufbau behoben - f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt - Ermöglicht saubere Übergabe der Wikipedia-URL an GPT	2025-03-30 08:03:28 +00:00
Floke	1c36599b15	Refactor: Wikipedia-Analyse vollständig an GPT übergeben - Nur noch Wikipedia-URL lokal ermittelt - URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …") - GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren - HTML-Parsing und lokale Extraktion entfallen vollständig	2025-03-30 08:01:05 +00:00
Floke	7921eed97c	Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen - prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“ - erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt	2025-03-30 07:52:55 +00:00
Floke	74d0b405fd	Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen - Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf - Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)	2025-03-30 07:46:05 +00:00
Floke	38ffb826ee	Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war - Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife - Domainprüfung erfolgt nun korrekt im HTML-Kontext - Wikipedia-URL wird jetzt wieder korrekt ausgegeben	2025-03-30 07:36:34 +00:00
Floke	85ed437297	Enhancement: Wikipedia-Treffer durch Positivliste für Kategorien validiert - Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“) - Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt - Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)	2025-03-30 07:28:07 +00:00
Floke	7a45b4af1b	Zeilenversatz im Google Sheet behoben und Wikipedia-Fallback verbessert - Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung - Fallback-Logik für Wikipedia-Infobox hinzugefügt: - Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft - erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet	2025-03-30 07:15:58 +00:00
Floke	cb298828b7	Wikipedia Bugfix Wikipedia-Suche ist vollständig implementiert: Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname wikipedia.search() liefert bis zu 3 Treffer Titelvergleich verhindert falsche Zuordnung HTML der Seite wird geladen Infobox mit infobox oder infobox vcard wird geprüft Branche wird aus <th>Branche</th> extrahiert Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159) ✅ Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert. ✅ Diese Werte werden beim Schreiben bevorzugt: python Copy Edit wiki_final = wiki_branche if wiki_branche != "k.A." else wiki umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat ✅ Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).	2025-03-30 07:05:06 +00:00
Floke	c7ad23b3da	Wikipedia Bugfix Einrückung	2025-03-30 06:52:33 +00:00
Floke	f389e4b35c	Einrückungsfehler	2025-03-30 06:51:00 +00:00
Floke	64369fb28a	Wikipedia Bugfix ✅ Einrückungen wurden korrigiert – wiki_final und umsatz_final liegen jetzt sauber innerhalb der Schleife und werden korrekt pro Zeile berechnet. Die Verarbeitung sollte jetzt fehlerfrei durchlaufen. Sag Bescheid, wenn du Logging, Validierung oder Debug-Ausgabe pro Zeile brauchst.	2025-03-30 06:49:54 +00:00
Floke	dfb831632f	Wikipedia Bugfix ✅ Die Wikipedia-Daten (Branche und Umsatz) werden jetzt bevorzugt verwendet, wenn sie verfügbar sind. GPT-Schätzungen kommen nur zum Einsatz, wenn Wikipedia keine Daten liefert. Bereit für den nächsten Testlauf! Sag Bescheid, wenn du noch einen manuellen Override oder eine Prüfregel zur Validierung einbauen möchtest.	2025-03-30 06:45:54 +00:00
Floke	6122f5b47a	Die Wikipedia-Suchfunktion wurde überarbeitet Statt nur wikipedia.page() wird jetzt wikipedia.search() verwendet. Es werden die besten 3 Treffer geprüft. Nur Artikel, deren Titel den Unternehmensnamen enthalten, werden akzeptiert. Dadurch wird z. B. „Heimbach-Gruppe“ korrekt erkannt, auch wenn „Heimbach GmbH“ gesucht wurde.	2025-03-30 06:31:21 +00:00
Floke	2c2d1f9f39	Branchenschema wieder ergänzt Das komplette Ziel-Branchenschema ist jetzt wieder korrekt im Code enthalten und wird im System-Prompt an GPT übergeben. Damit ist sichergestellt, dass GPT die richtige Referenzbasis für die Einstufung hat. Bereit für den nächsten Lauf!	2025-03-29 22:12:09 +00:00
Floke	cf250fe4be	Wikipedia Bugfix ✅ Änderungen sind eingebaut: Wikipedia-Suche prüft jetzt Firmenname, erste zwei Worte und Domainname. Es wird nur ein Artikel akzeptiert, wenn er den Firmennamen eindeutig enthält. Wenn kein Wikipedia-Link gefunden wird, wird "k.A." für Branche und Umsatz gesetzt. GPT-Antwort wird in der Datei gpt_antworten_log.csv lokal gespeichert (mit kompletter Antworttext). Prompt enthält nun klar: „Bitte verwende nur das konkret genannte Unternehmen“. Bereit für den nächsten Lauf. Sag Bescheid, wenn du Logging-Ausgaben auswerten oder Grenzfälle testen möchtest.	2025-03-29 22:08:31 +00:00
Floke	88f8ffb323	Bugfix Robuster Umgang mit k.A.	2025-03-29 21:46:28 +00:00
Floke	87412374f9	nochmal Spaltenaufteilung	2025-03-29 21:33:33 +00:00
Floke	531c2f3693	Bugfix Ergebnisse wurden alle in eine Zelle ausgegeben. sollten jetzt in mehrere Zellen ausgegeben w	2025-03-29 21:28:39 +00:00
Floke	7843348911	Bugfix Verlinkung API Key	2025-03-29 21:21:57 +00:00
Floke	aefa89ca15	komplett neue Version mit optimiertem Prompt	2025-03-29 21:08:31 +00:00
Floke	ef59697442	Erste Version	2025-03-29 18:47:15 +01:00

39 Commits