Brancheneinstufung2

Author	SHA1	Message	Date
Floke	55d820f702	Deepseek V6	2025-03-31 14:45:40 +00:00
Floke	1ba0359cec	syntax fix	2025-03-31 14:32:29 +00:00
Floke	11e987dec4	Sntaxfehler	2025-03-31 14:27:09 +00:00
Floke	fcd343f1ad	bugfix	2025-03-31 14:25:50 +00:00
Floke	192be3fe7a	Chat GPT Bugfix für Deepseek	2025-03-31 14:25:01 +00:00
Floke	1da943819f	Deepseek V5	2025-03-31 14:10:27 +00:00
Floke	f292b254d4	Deepseek Bugfix V2	2025-03-31 13:37:54 +00:00
Floke	81f3233043	Deepseek V4 Bugfix	2025-03-31 13:37:11 +00:00
Floke	37348c7221	Deepsek V4 Erweiterte Schlüsselwörter: python Copy 'branche': ['branche', 'industrie', 'produkte', ...], 'umsatz': ['umsatz', 'jahresumsatz', 'ergebnis', ...] Robustere Infobox-Erkennung: python Copy class_=lambda c: any(kw in c.lower() for kw in ['infobox', 'vcard', 'unternehmen']) Verbesserte Zellenverarbeitung: Berücksichtigt Listen (<li>-Elemente) Ignoriert verschachtelte Tabellen Sucht in allen relevanten Zellen (<th> und <td>) Präzise Umsatzextraktion: python Copy r'(\d{1,3}(?:[.,]\d{3})(?:[.,]\d{2})?)\s(?:Mio\.?\|Millionen\|...)\s*(?:€\|Euro\|EUR)'	2025-03-31 13:35:53 +00:00
Floke	75f68e8e51	Deepseek V3 Fehlende Methode hinzugefügt: python Copy def _extract_domain_hint(self, website): # Implementierung der Domain-Extraktion Verbesserte Namensbereinigung: Behandelt jetzt Sonderfälle wie "GmbH & Co. KG" Entfernt Sonderzeichen vor dem Ähnlichkeitsvergleich Optimierte Suchbegriffe-Generierung: Splittet Namen in relevante Wörter Entfernt Duplikate aus den Suchbegriffen Detaillierteres Debugging: Zeigt Ähnlichkeitswerte an Protokolliert Domain-Prüfungen	2025-03-31 13:15:16 +00:00
Floke	42c2f9d843	Bugfix Deepseek1	2025-03-31 12:55:28 +00:00
Floke	6c485a6fd7	Deepseek V1 Klare Trennung der Verantwortlichkeiten: GoogleSheetHandler: Alle Sheet-Interaktionen WikipediaScraper: Suchlogik und Datenextraktion DataProcessor: Steuerung des Gesamtflusses Erweiterte Funktionalitäten: Retry-Decorator für robustere API-Aufrufe Verbesserte Validierung der Artikelrelevanz Flexiblere Suchbegriff-Generierung Zentrale Konfiguration Dokumentation: Ausführliche Docstrings für alle Methoden Kommentare für komplexe Codeabschnitte Klare Parameternamen Wartbarkeit: Einfache Erweiterung durch modularen Aufbau Separierte Geschäftslogik von der Implementierung Konsistente Fehlerbehandlung Die ChatGPT-Bewertung (Teil 3) kann später als separate Klasse hinzugefügt werden, ohne die bestehende Struktur zu beeinflussen.	2025-03-31 12:54:22 +00:00
Floke	76ff42e544	chat GPT ist doof	2025-03-31 11:33:49 +00:00
Floke	e5c5f54672	Claude V 1.1 Hauptverbesserungen im überarbeiteten Code Deutlich robustere Infobox-Erkennung: Erweiterte Suche nach Infobox-Tabellen mit mehreren möglichen Klassen Berücksichtigung verschiedener Schreibweisen und Varianten für "Branche" und "Umsatz" Drei-Methoden-Ansatz zur Datenextraktion: Methode 1: Direkte Suche in den Tabellenzeilen der Infobox Methode 2: Volltext-Suche nach spezifischen Mustern mit regulären Ausdrücken Methode 3: Suche in meta-Tags für zusätzliche Kontextinformationen Intelligentere Firmennamen-Verarbeitung: Entfernung von Rechtsformen (GmbH, AG, etc.) für bessere Suchtreffer Extraktion von Kernname für alternative Suche Wiederverwendung bestehender URLs: Der Code prüft jetzt zuerst eine bestehende Wikipedia-URL, bevor er eine neue Suche startet Reduziert unnötige Suchanfragen und verbessert die Konsistenz Detaillierter Debug-Modus: Ausführliches Logging für eine bessere Nachvollziehbarkeit Anzeige von gefundenen Headers in der Infobox für Diagnose-Zwecke Verbesserte Umsatzextaktion: Reguläre Ausdrücke für Währungs- und Zahlenformate Berücksichtigung verschiedener Formate (€, EUR, Mio., Mrd., etc.) Deutlich bessere Datenbereinigung: Umfangreichere Textbereinigung von HTML-Entitäten Sicherer Umgang mit unterschiedlichen Datentypen Diese Änderungen sollten die Probleme bei der Heimbach-Gruppe und ähnlichen Unternehmen beheben, bei denen die Daten trotz gefundenem Wikipedia-Artikel nicht korrekt extrahiert wurden. Der DEBUG-Modus hilft zusätzlich dabei, die genauen Vorgänge nachzuvollziehen und bei zukünftigen Problemen gezielter zu diagnostizieren.	2025-03-31 10:28:00 +00:00
Floke	4322a9eeb0	Claude V 1.0 Key Improvements Better HTML Parsing: I've replaced the XPath-based extraction with BeautifulSoup, which is more robust for parsing HTML content. Improved Infobox Detection: The code now properly identifies and extracts data from Wikipedia infoboxes using a more flexible approach: It looks for various synonyms of "Branche" and "Umsatz" in the header text It handles different formats of these values within the infobox Text Cleaning: Added a clean_text() function to: Remove HTML tags and entities Strip out references (text in square brackets) Remove parenthetical text that might contain irrelevant information Handle whitespace issues Better Error Handling: The code now includes more robust error handling: Multiple retries for Wikipedia data fetching Proper exception handling with informative error messages Fallback to existing values if new data can't be obtained Domain Filtering: Improved the domain key extraction to ignore common subdomains like "www", "de", or "com". Data Preservation: The code now preserves existing data in the sheet when new data can't be found, rather than overwriting with "k.A." Better Logging: Added more detailed logging to help with debugging and tracking the progress of the script. This improved version should more reliably extract industry and revenue information from Wikipedia articles and update your Google Sheet accordingly.	2025-03-31 09:55:56 +00:00
Floke	f1ca42d98e	1.0.10 Wiki Wikipedia-Suche prüft jetzt explizit auf Namensähnlichkeit via SequenceMatcher. Einträge ohne passenden Domainbezug oder ähnlichen Namen werden übersprungen. Robustere Extraktion von Branche/Umsatz via lxml-XPath. Versionierung korrekt in Spalte Q ausgegeben.	2025-03-31 09:45:39 +00:00
Floke	7e77223751	feat(version 1.0.9): zuverlässige Extraktion von Branche und Umsatz aus Heimbach-Gruppe Wikipedia-Ar - Lese gezielt mit lxml und XPath aus der Infobox - Prüfe Namensähnlichkeit und URL-Fit vor der Extraktion - Ausgabe von Branche/Umsatz nur bei sicherem Treffer	2025-03-31 09:34:33 +00:00
Floke	c27f2cdca2	🔁 Refactor Wikipedia-Parser to stable v1.0.7 logic - reverted to earlier reliable search strategy - restored infobox-first extraction - ensured fallback to categories only if infobox branch is missing - maintained timestamp and version output	2025-03-31 09:00:44 +00:00
Floke	21415698e0	fix(wikipedia): Robustere Extraktion durch angepasste Infobox-Auswertung mit Synonym-Feldern - XPath entfernt, da BeautifulSoup in Kombination mit Infobox-Selektor zuverlässiger - Nur Branchen aus Infobox erlaubt, Kategorien nur als Fallback entfernt - Verbesserte Ausgabe: Nur bei gefundenem Wikipedia-Link werden Werte eingetragen - Versionskennung 1.0.6 eingeführt (Spalte Q)	2025-03-31 08:36:38 +00:00
Floke	42316cd66a	feat(wikipedia): Refactored Wikipedia extraction logic in v1.0.9-wiki-refined - Stellt wieder bewährte BeautifulSoup-basierte Infobox-Suche her - Verbesserte Titelvalidierung durch Namenssplit und Substring-Matching - Umsatz-Parsing via Regex auf deutsche Formatierung optimiert - Fallback auf Kategorien nur bei fehlender Infobox - Versionierung (z. B. 1.0.9-wiki-refined) wird nun in Spalte Q mitgeschrieben	2025-03-31 07:57:40 +00:00
Floke	16f5f77967	1.0.8-wiki-api aktualisiert. Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain) Kein Rückfall mehr auf Kategorien bei fehlender Infobox Spalte Q enthält nun die Versionsnummer	2025-03-31 07:49:50 +00:00
Floke	897742ddc3	feat(wikipedia): Verbesserte Wikipedia-Erkennung und Infobox-Parsing (v1.0.4) - Domain-Key-Extraktion zur besseren Treffererkennung - Scoring-Mechanismus zur Auswahl des besten Wikipedia-Artikels - Erweiterter Infobox-Parser mit Label-Synonymen - Validierung durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung - Versionierung der Ergebnisse mit Spaltenausgabe	2025-03-31 06:46:48 +00:00
Floke	09885848ec	Verbessert: Wikipedia-Suchlogik erneut optimiert (Version 1.0.2) - Wieder eingeführt: Kombination aus vollständigem Firmennamen, ersten zwei Wörtern und Domain-Fragment zur Suche - Erhöhte Trefferwahrscheinlichkeit durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung - Info aus Infobox (Branche & Umsatz) wird bevorzugt; Kategorien nur als Fallback - Version in Spalte Q geschrieben zur Nachverfolgbarkeit	2025-03-31 06:12:53 +00:00
Floke	2b010effec	feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb 🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only) 📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen 🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen ✨ Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht	2025-03-31 05:41:04 +00:00
Floke	d73eb9198a	Verbesserte Wikipedia-Suche: - Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen - Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung - Präzisere Ergebnis-Auswahl durch Matching-Score - Blacklist bewusst NICHT verwendet - Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben	2025-03-30 18:40:44 +00:00
Floke	516221bb4b	Wiki Debugging Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen). Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz. Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.). Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz. Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.	2025-03-30 18:25:03 +00:00
Floke	4038fc1d0e	Use Selector in Wiki Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector). Fallback auf k.A. wenn Selektor nicht vorhanden ist. get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse. Ausgabe an Google Sheet unverändert. GPT-Teil wurde temporär entfernt, wie besprochen.	2025-03-30 18:13:15 +00:00
Floke	80a70fcf3b	Code in zwei Bereiche aufgeteilt Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte. Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist. GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik). gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.	2025-03-30 17:42:46 +00:00
Floke	28983aec43	bugfix Deepsek2	2025-03-30 15:31:38 +00:00
Floke	fd2dbd2e8b	bugfix deepseek	2025-03-30 15:29:54 +00:00
Floke	282e1f2dfe	Deepseek V2	2025-03-30 15:27:03 +00:00
Floke	d5787f1875	Deepseek Aktualisierung	2025-03-30 12:38:39 +00:00
Floke	a609ff5a8e	Version von Deepseek	2025-03-30 12:10:55 +00:00
Floke	aee4eb1291	Update brancheneinstufung.py	2025-03-30 11:54:10 +00:00
Floke	ef9ec29d93	Bugfixes ✅ Fehlerbehandlung mit try/except in classify_company ergänzt (OpenAIError wird behandelt) ✅ Retry-Mechanismus für GPT-Calls eingeführt (max. 3 Versuche mit 10 Sekunden Pause) ✅ Logfile gpt_antworten_log.csv speichert jetzt zusätzlich einen Zeitstempel (erste Spalte jeder Zeile) ✅ Fehlerhafte Import-Anweisung (from openai.error) durch funktionierende ersetzt ✅ Prompt an GPT um Hinweis ergänzt: Wenn kein Wikipedia-Link vorhanden ist, sind Wikipedia-Branche und Umsatz (Mio €) als k.A. auszugeben ✅ Wikipedia-Branche & Umsatz werden nur gesetzt, wenn auch ein Wikipedia-Link gefunden wurde ✅ Ausgabe von Wikipedia-Ergebnissen jetzt zuverlässiger (bessere Strukturprüfung) ✅ Canvas vollständig synchronisiert	2025-03-30 11:35:44 +00:00
Floke	bd9e9fac07	Update brancheneinstufung.py	2025-03-30 11:15:10 +00:00
Floke	94032f1fc1	log datei schreiben anpassung - Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist. - GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln. - CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte. - Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.	2025-03-30 10:52:33 +00:00
Floke	e90a8591d1	Log erweitert: Zeitstempel in gpt_antworten_log.csv ergänzt	2025-03-30 10:36:32 +00:00
Floke	81f361b9ef	Wiki Prio	2025-03-30 08:32:23 +00:00
Floke	3817537e21	Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche. umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT). Wikipedia-URL wird garantiert in Spalte M geschrieben. get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt. GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.	2025-03-30 08:25:16 +00:00
Floke	996af71f8b	Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben - ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings - Prompt wird nun korrekt an GPT übergeben	2025-03-30 08:17:43 +00:00
Floke	f0bc264417	Fix: SyntaxError im Prompt-Aufbau behoben - f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt - Ermöglicht saubere Übergabe der Wikipedia-URL an GPT	2025-03-30 08:03:28 +00:00
Floke	78dc6acbe6	Refactor: Wikipedia-Analyse vollständig an GPT übergeben - Nur noch Wikipedia-URL lokal ermittelt - URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …") - GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren - HTML-Parsing und lokale Extraktion entfallen vollständig	2025-03-30 08:01:05 +00:00
Floke	1e51601569	Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen - prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“ - erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt	2025-03-30 07:52:55 +00:00
Floke	7740e9edfc	Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen - Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf - Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)	2025-03-30 07:46:05 +00:00
Floke	774c78290e	Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war - Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife - Domainprüfung erfolgt nun korrekt im HTML-Kontext - Wikipedia-URL wird jetzt wieder korrekt ausgegeben	2025-03-30 07:36:34 +00:00
Floke	5daab5c22c	Enhancement: Wikipedia-Treffer durch Positivliste für Kategorien validiert - Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“) - Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt - Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)	2025-03-30 07:28:07 +00:00
Floke	63e31bb58f	Zeilenversatz im Google Sheet behoben und Wikipedia-Fallback verbessert - Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung - Fallback-Logik für Wikipedia-Infobox hinzugefügt: - Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft - erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet	2025-03-30 07:15:58 +00:00
Floke	5bb7d271b9	Wikipedia Bugfix Wikipedia-Suche ist vollständig implementiert: Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname wikipedia.search() liefert bis zu 3 Treffer Titelvergleich verhindert falsche Zuordnung HTML der Seite wird geladen Infobox mit infobox oder infobox vcard wird geprüft Branche wird aus <th>Branche</th> extrahiert Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159) ✅ Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert. ✅ Diese Werte werden beim Schreiben bevorzugt: python Copy Edit wiki_final = wiki_branche if wiki_branche != "k.A." else wiki umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat ✅ Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).	2025-03-30 07:05:06 +00:00
Floke	2e0eb3f5d4	Wikipedia Bugfix Einrückung	2025-03-30 06:52:33 +00:00

1 2

62 Commits