Brancheneinstufung2

Author	SHA1	Message	Date
Floke	eecbf383b5	deepseek V7 Vollständige Implementierung der _extract_infobox_value-Methode Erweiterte Schlüsselwörter für deutsche Infoboxen Verbesserte Textbereinigung für Branchenangaben Toleranz für verschiedene Zahlenformate Debug-Output für jeden Verarbeitungsschritt	2025-03-31 16:45:02 +00:00
Floke	e8968836a3	Deepseek bugfix v3 Erklärung der Verbesserungen für Heine Optotechnik: Erweiterte Header-Erkennung: python Copy if any(kw in header_text for kw in keywords): Erkennt jetzt auch "Tätigkeitsfeld" und "Aktivitäten" Branchenbereinigung: python Copy value = re.sub(r'\(.*?\)', '', value) Entfernt Klammerzusätze wie "(seit 2020)" Flexiblere Infobox-Erkennung: python Copy infobox = soup.find('table', {'class': lambda c: c and 'infobox' in c.lower()}) Findet auch nicht-standardisierte Infobox-Klassen Debug-Output: python Copy debug_print(f"Prüfe Header: {header_text}") Zeigt alle untersuchten Header an	2025-03-31 16:37:40 +00:00
Floke	f665612146	infobox bugfix Erweiterte Infobox-Erkennung: Unterstützt jetzt zusätzliche Klassen wie firma und unternehmensdaten Berücksichtigt div-Elemente neben Tabellenzeilen Verbesserte Schlüsselwörter: 50% mehr Keywords für Branchen- und Umsatzfelder Berücksichtigt typisch deutsche Formulierungen Flexible Wertextraktion: Verarbeitet Listen (<li>-Elemente) Ignoriert Navigationsboxen (navbox-Klasse) Sucht in verschiedenen HTML-Elementen (div, td, th) Robuste Umsatzanalyse: Erkennt verschiedene Schreibweisen: "123,45 Mio. €" "1.234,56 Millionen Euro" "5,6 Mrd. USD" Führt automatische Umrechnung durch: 1 Milliarde → 1000 Millionen Standardisiert die Ausgabe auf "X.X Mio €" Erweiterte Debug-Informationen: Protokolliert fehlgeschlagene Suchvorgänge Zeigt erkannte Werte im Rohformat an	2025-03-31 15:11:39 +00:00
Floke	05185396c7	syntax fix	2025-03-31 14:46:16 +00:00
Floke	2607ea667f	Deepseek V6	2025-03-31 14:45:40 +00:00
Floke	7aaa4147fa	syntax fix	2025-03-31 14:32:29 +00:00
Floke	76e0259a63	Sntaxfehler	2025-03-31 14:27:09 +00:00
Floke	8dbfa64661	bugfix	2025-03-31 14:25:50 +00:00
Floke	2bdcc5fa09	Chat GPT Bugfix für Deepseek	2025-03-31 14:25:01 +00:00
Floke	7db265bebe	Deepseek V5	2025-03-31 14:10:27 +00:00
Floke	d747581001	Deepseek Bugfix V2	2025-03-31 13:37:54 +00:00
Floke	5940b44406	Deepseek V4 Bugfix	2025-03-31 13:37:11 +00:00
Floke	65c7112500	Deepsek V4 Erweiterte Schlüsselwörter: python Copy 'branche': ['branche', 'industrie', 'produkte', ...], 'umsatz': ['umsatz', 'jahresumsatz', 'ergebnis', ...] Robustere Infobox-Erkennung: python Copy class_=lambda c: any(kw in c.lower() for kw in ['infobox', 'vcard', 'unternehmen']) Verbesserte Zellenverarbeitung: Berücksichtigt Listen (<li>-Elemente) Ignoriert verschachtelte Tabellen Sucht in allen relevanten Zellen (<th> und <td>) Präzise Umsatzextraktion: python Copy r'(\d{1,3}(?:[.,]\d{3})(?:[.,]\d{2})?)\s(?:Mio\.?\|Millionen\|...)\s*(?:€\|Euro\|EUR)'	2025-03-31 13:35:53 +00:00
Floke	1c36e3185b	Deepseek V3 Fehlende Methode hinzugefügt: python Copy def _extract_domain_hint(self, website): # Implementierung der Domain-Extraktion Verbesserte Namensbereinigung: Behandelt jetzt Sonderfälle wie "GmbH & Co. KG" Entfernt Sonderzeichen vor dem Ähnlichkeitsvergleich Optimierte Suchbegriffe-Generierung: Splittet Namen in relevante Wörter Entfernt Duplikate aus den Suchbegriffen Detaillierteres Debugging: Zeigt Ähnlichkeitswerte an Protokolliert Domain-Prüfungen	2025-03-31 13:15:16 +00:00
Floke	0ecd23ddfa	Bugfix Deepseek1	2025-03-31 12:55:28 +00:00
Floke	7bd90f469a	Deepseek V1 Klare Trennung der Verantwortlichkeiten: GoogleSheetHandler: Alle Sheet-Interaktionen WikipediaScraper: Suchlogik und Datenextraktion DataProcessor: Steuerung des Gesamtflusses Erweiterte Funktionalitäten: Retry-Decorator für robustere API-Aufrufe Verbesserte Validierung der Artikelrelevanz Flexiblere Suchbegriff-Generierung Zentrale Konfiguration Dokumentation: Ausführliche Docstrings für alle Methoden Kommentare für komplexe Codeabschnitte Klare Parameternamen Wartbarkeit: Einfache Erweiterung durch modularen Aufbau Separierte Geschäftslogik von der Implementierung Konsistente Fehlerbehandlung Die ChatGPT-Bewertung (Teil 3) kann später als separate Klasse hinzugefügt werden, ohne die bestehende Struktur zu beeinflussen.	2025-03-31 12:54:22 +00:00
Floke	44528d555a	chat GPT ist doof	2025-03-31 11:33:49 +00:00
Floke	6f822527e8	Claude V 1.1 Hauptverbesserungen im überarbeiteten Code Deutlich robustere Infobox-Erkennung: Erweiterte Suche nach Infobox-Tabellen mit mehreren möglichen Klassen Berücksichtigung verschiedener Schreibweisen und Varianten für "Branche" und "Umsatz" Drei-Methoden-Ansatz zur Datenextraktion: Methode 1: Direkte Suche in den Tabellenzeilen der Infobox Methode 2: Volltext-Suche nach spezifischen Mustern mit regulären Ausdrücken Methode 3: Suche in meta-Tags für zusätzliche Kontextinformationen Intelligentere Firmennamen-Verarbeitung: Entfernung von Rechtsformen (GmbH, AG, etc.) für bessere Suchtreffer Extraktion von Kernname für alternative Suche Wiederverwendung bestehender URLs: Der Code prüft jetzt zuerst eine bestehende Wikipedia-URL, bevor er eine neue Suche startet Reduziert unnötige Suchanfragen und verbessert die Konsistenz Detaillierter Debug-Modus: Ausführliches Logging für eine bessere Nachvollziehbarkeit Anzeige von gefundenen Headers in der Infobox für Diagnose-Zwecke Verbesserte Umsatzextaktion: Reguläre Ausdrücke für Währungs- und Zahlenformate Berücksichtigung verschiedener Formate (€, EUR, Mio., Mrd., etc.) Deutlich bessere Datenbereinigung: Umfangreichere Textbereinigung von HTML-Entitäten Sicherer Umgang mit unterschiedlichen Datentypen Diese Änderungen sollten die Probleme bei der Heimbach-Gruppe und ähnlichen Unternehmen beheben, bei denen die Daten trotz gefundenem Wikipedia-Artikel nicht korrekt extrahiert wurden. Der DEBUG-Modus hilft zusätzlich dabei, die genauen Vorgänge nachzuvollziehen und bei zukünftigen Problemen gezielter zu diagnostizieren.	2025-03-31 10:28:00 +00:00
Floke	3d30565c97	Claude V 1.0 Key Improvements Better HTML Parsing: I've replaced the XPath-based extraction with BeautifulSoup, which is more robust for parsing HTML content. Improved Infobox Detection: The code now properly identifies and extracts data from Wikipedia infoboxes using a more flexible approach: It looks for various synonyms of "Branche" and "Umsatz" in the header text It handles different formats of these values within the infobox Text Cleaning: Added a clean_text() function to: Remove HTML tags and entities Strip out references (text in square brackets) Remove parenthetical text that might contain irrelevant information Handle whitespace issues Better Error Handling: The code now includes more robust error handling: Multiple retries for Wikipedia data fetching Proper exception handling with informative error messages Fallback to existing values if new data can't be obtained Domain Filtering: Improved the domain key extraction to ignore common subdomains like "www", "de", or "com". Data Preservation: The code now preserves existing data in the sheet when new data can't be found, rather than overwriting with "k.A." Better Logging: Added more detailed logging to help with debugging and tracking the progress of the script. This improved version should more reliably extract industry and revenue information from Wikipedia articles and update your Google Sheet accordingly.	2025-03-31 09:55:56 +00:00
Floke	e4b4d3afc9	1.0.10 Wiki Wikipedia-Suche prüft jetzt explizit auf Namensähnlichkeit via SequenceMatcher. Einträge ohne passenden Domainbezug oder ähnlichen Namen werden übersprungen. Robustere Extraktion von Branche/Umsatz via lxml-XPath. Versionierung korrekt in Spalte Q ausgegeben.	2025-03-31 09:45:39 +00:00
Floke	7becf2da22	feat(version 1.0.9): zuverlässige Extraktion von Branche und Umsatz aus Heimbach-Gruppe Wikipedia-Ar - Lese gezielt mit lxml und XPath aus der Infobox - Prüfe Namensähnlichkeit und URL-Fit vor der Extraktion - Ausgabe von Branche/Umsatz nur bei sicherem Treffer	2025-03-31 09:34:33 +00:00
Floke	f914871570	🔁 Refactor Wikipedia-Parser to stable v1.0.7 logic - reverted to earlier reliable search strategy - restored infobox-first extraction - ensured fallback to categories only if infobox branch is missing - maintained timestamp and version output	2025-03-31 09:00:44 +00:00
Floke	c32fef45b9	fix(wikipedia): Robustere Extraktion durch angepasste Infobox-Auswertung mit Synonym-Feldern - XPath entfernt, da BeautifulSoup in Kombination mit Infobox-Selektor zuverlässiger - Nur Branchen aus Infobox erlaubt, Kategorien nur als Fallback entfernt - Verbesserte Ausgabe: Nur bei gefundenem Wikipedia-Link werden Werte eingetragen - Versionskennung 1.0.6 eingeführt (Spalte Q)	2025-03-31 08:36:38 +00:00
Floke	85021e2eff	feat(wikipedia): Refactored Wikipedia extraction logic in v1.0.9-wiki-refined - Stellt wieder bewährte BeautifulSoup-basierte Infobox-Suche her - Verbesserte Titelvalidierung durch Namenssplit und Substring-Matching - Umsatz-Parsing via Regex auf deutsche Formatierung optimiert - Fallback auf Kategorien nur bei fehlender Infobox - Versionierung (z. B. 1.0.9-wiki-refined) wird nun in Spalte Q mitgeschrieben	2025-03-31 07:57:40 +00:00
Floke	ff386e53d4	1.0.8-wiki-api aktualisiert. Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain) Kein Rückfall mehr auf Kategorien bei fehlender Infobox Spalte Q enthält nun die Versionsnummer	2025-03-31 07:49:50 +00:00
Floke	0d3e320f85	feat(wikipedia): Verbesserte Wikipedia-Erkennung und Infobox-Parsing (v1.0.4) - Domain-Key-Extraktion zur besseren Treffererkennung - Scoring-Mechanismus zur Auswahl des besten Wikipedia-Artikels - Erweiterter Infobox-Parser mit Label-Synonymen - Validierung durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung - Versionierung der Ergebnisse mit Spaltenausgabe	2025-03-31 06:46:48 +00:00
Floke	418ed7e271	Verbessert: Wikipedia-Suchlogik erneut optimiert (Version 1.0.2) - Wieder eingeführt: Kombination aus vollständigem Firmennamen, ersten zwei Wörtern und Domain-Fragment zur Suche - Erhöhte Trefferwahrscheinlichkeit durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung - Info aus Infobox (Branche & Umsatz) wird bevorzugt; Kategorien nur als Fallback - Version in Spalte Q geschrieben zur Nachverfolgbarkeit	2025-03-31 06:12:53 +00:00
Floke	c85acec981	feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb 🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only) 📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen 🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen ✨ Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht	2025-03-31 05:41:04 +00:00
Floke	6aa4704cb8	Verbesserte Wikipedia-Suche: - Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen - Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung - Präzisere Ergebnis-Auswahl durch Matching-Score - Blacklist bewusst NICHT verwendet - Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben	2025-03-30 18:40:44 +00:00
Floke	21d9eb41ef	Wiki Debugging Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen). Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz. Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.). Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz. Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.	2025-03-30 18:25:03 +00:00
Floke	e917ace53c	Use Selector in Wiki Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector). Fallback auf k.A. wenn Selektor nicht vorhanden ist. get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse. Ausgabe an Google Sheet unverändert. GPT-Teil wurde temporär entfernt, wie besprochen.	2025-03-30 18:13:15 +00:00
Floke	0dc40e119e	Code in zwei Bereiche aufgeteilt Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte. Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist. GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik). gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.	2025-03-30 17:42:46 +00:00
Floke	6b67bdf85d	bugfix Deepsek2	2025-03-30 15:31:38 +00:00
Floke	59e64f41f5	bugfix deepseek	2025-03-30 15:29:54 +00:00
Floke	ecaf5a50ef	Deepseek V2	2025-03-30 15:27:03 +00:00
Floke	70b47d65d4	Deepseek Aktualisierung	2025-03-30 12:38:39 +00:00
Floke	3da57a95ca	Version von Deepseek	2025-03-30 12:10:55 +00:00
Floke	36fddec7b6	Update brancheneinstufung.py	2025-03-30 11:54:10 +00:00
Floke	82f06a3cbb	Bugfixes ✅ Fehlerbehandlung mit try/except in classify_company ergänzt (OpenAIError wird behandelt) ✅ Retry-Mechanismus für GPT-Calls eingeführt (max. 3 Versuche mit 10 Sekunden Pause) ✅ Logfile gpt_antworten_log.csv speichert jetzt zusätzlich einen Zeitstempel (erste Spalte jeder Zeile) ✅ Fehlerhafte Import-Anweisung (from openai.error) durch funktionierende ersetzt ✅ Prompt an GPT um Hinweis ergänzt: Wenn kein Wikipedia-Link vorhanden ist, sind Wikipedia-Branche und Umsatz (Mio €) als k.A. auszugeben ✅ Wikipedia-Branche & Umsatz werden nur gesetzt, wenn auch ein Wikipedia-Link gefunden wurde ✅ Ausgabe von Wikipedia-Ergebnissen jetzt zuverlässiger (bessere Strukturprüfung) ✅ Canvas vollständig synchronisiert	2025-03-30 11:35:44 +00:00
Floke	4504cc6d6f	Update brancheneinstufung.py	2025-03-30 11:15:10 +00:00
Floke	dc72a8104e	log datei schreiben anpassung - Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist. - GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln. - CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte. - Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.	2025-03-30 10:52:33 +00:00
Floke	662370ca60	Log erweitert: Zeitstempel in gpt_antworten_log.csv ergänzt	2025-03-30 10:36:32 +00:00
Floke	6567b0b540	Wiki Prio	2025-03-30 08:32:23 +00:00
Floke	7f8c02043f	Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche. umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT). Wikipedia-URL wird garantiert in Spalte M geschrieben. get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt. GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.	2025-03-30 08:25:16 +00:00
Floke	dbc7e05cd9	Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben - ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings - Prompt wird nun korrekt an GPT übergeben	2025-03-30 08:17:43 +00:00
Floke	a2b7389c30	Fix: SyntaxError im Prompt-Aufbau behoben - f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt - Ermöglicht saubere Übergabe der Wikipedia-URL an GPT	2025-03-30 08:03:28 +00:00
Floke	1c36599b15	Refactor: Wikipedia-Analyse vollständig an GPT übergeben - Nur noch Wikipedia-URL lokal ermittelt - URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …") - GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren - HTML-Parsing und lokale Extraktion entfallen vollständig	2025-03-30 08:01:05 +00:00
Floke	7921eed97c	Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen - prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“ - erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt	2025-03-30 07:52:55 +00:00
Floke	74d0b405fd	Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen - Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf - Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)	2025-03-30 07:46:05 +00:00
Floke	38ffb826ee	Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war - Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife - Domainprüfung erfolgt nun korrekt im HTML-Kontext - Wikipedia-URL wird jetzt wieder korrekt ausgegeben	2025-03-30 07:36:34 +00:00

1 2

66 Commits