Commit Graph

1748 Commits

Author SHA1 Message Date
3d30565c97 Claude V 1.0
Key Improvements

Better HTML Parsing: I've replaced the XPath-based extraction with BeautifulSoup, which is more robust for parsing HTML content.
Improved Infobox Detection: The code now properly identifies and extracts data from Wikipedia infoboxes using a more flexible approach:

It looks for various synonyms of "Branche" and "Umsatz" in the header text
It handles different formats of these values within the infobox


Text Cleaning: Added a clean_text() function to:

Remove HTML tags and entities
Strip out references (text in square brackets)
Remove parenthetical text that might contain irrelevant information
Handle whitespace issues


Better Error Handling: The code now includes more robust error handling:

Multiple retries for Wikipedia data fetching
Proper exception handling with informative error messages
Fallback to existing values if new data can't be obtained


Domain Filtering: Improved the domain key extraction to ignore common subdomains like "www", "de", or "com".
Data Preservation: The code now preserves existing data in the sheet when new data can't be found, rather than overwriting with "k.A."
Better Logging: Added more detailed logging to help with debugging and tracking the progress of the script.

This improved version should more reliably extract industry and revenue information from Wikipedia articles and update your Google Sheet accordingly.
2025-03-31 09:55:56 +00:00
e4b4d3afc9 1.0.10 Wiki
Wikipedia-Suche prüft jetzt explizit auf Namensähnlichkeit via SequenceMatcher.

Einträge ohne passenden Domainbezug oder ähnlichen Namen werden übersprungen.

Robustere Extraktion von Branche/Umsatz via lxml-XPath.

Versionierung korrekt in Spalte Q ausgegeben.
2025-03-31 09:45:39 +00:00
7becf2da22 feat(version 1.0.9): zuverlässige Extraktion von Branche und Umsatz aus Heimbach-Gruppe Wikipedia-Ar
- Lese gezielt mit lxml und XPath aus der Infobox
- Prüfe Namensähnlichkeit und URL-Fit vor der Extraktion
- Ausgabe von Branche/Umsatz nur bei sicherem Treffer
2025-03-31 09:34:33 +00:00
f914871570 🔁 Refactor Wikipedia-Parser to stable v1.0.7 logic
- reverted to earlier reliable search strategy
- restored infobox-first extraction
- ensured fallback to categories only if infobox branch is missing
- maintained timestamp and version output
2025-03-31 09:00:44 +00:00
c32fef45b9 fix(wikipedia): Robustere Extraktion durch angepasste Infobox-Auswertung mit Synonym-Feldern
- XPath entfernt, da BeautifulSoup in Kombination mit Infobox-Selektor zuverlässiger
- Nur Branchen aus Infobox erlaubt, Kategorien nur als Fallback entfernt
- Verbesserte Ausgabe: Nur bei gefundenem Wikipedia-Link werden Werte eingetragen
- Versionskennung 1.0.6 eingeführt (Spalte Q)
2025-03-31 08:36:38 +00:00
85021e2eff feat(wikipedia): Refactored Wikipedia extraction logic in v1.0.9-wiki-refined
- Stellt wieder bewährte BeautifulSoup-basierte Infobox-Suche her
- Verbesserte Titelvalidierung durch Namenssplit und Substring-Matching
- Umsatz-Parsing via Regex auf deutsche Formatierung optimiert
- Fallback auf Kategorien nur bei fehlender Infobox
- Versionierung (z. B. 1.0.9-wiki-refined) wird nun in Spalte Q mitgeschrieben
2025-03-31 07:57:40 +00:00
ff386e53d4 1.0.8-wiki-api aktualisiert.
Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz

Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain)

Kein Rückfall mehr auf Kategorien bei fehlender Infobox

Spalte Q enthält nun die Versionsnummer
2025-03-31 07:49:50 +00:00
0d3e320f85 feat(wikipedia): Verbesserte Wikipedia-Erkennung und Infobox-Parsing (v1.0.4)
- Domain-Key-Extraktion zur besseren Treffererkennung
- Scoring-Mechanismus zur Auswahl des besten Wikipedia-Artikels
- Erweiterter Infobox-Parser mit Label-Synonymen
- Validierung durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Versionierung der Ergebnisse mit Spaltenausgabe
2025-03-31 06:46:48 +00:00
418ed7e271 Verbessert: Wikipedia-Suchlogik erneut optimiert (Version 1.0.2)
- Wieder eingeführt: Kombination aus vollständigem Firmennamen, ersten zwei Wörtern und Domain-Fragment zur Suche
- Erhöhte Trefferwahrscheinlichkeit durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Info aus Infobox (Branche & Umsatz) wird bevorzugt; Kategorien nur als Fallback
- Version in Spalte Q geschrieben zur Nachverfolgbarkeit
2025-03-31 06:12:53 +00:00
c85acec981 feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb
🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only)

📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen

🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen

 Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht
2025-03-31 05:41:04 +00:00
6aa4704cb8 Verbesserte Wikipedia-Suche:
- Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen
- Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung
- Präzisere Ergebnis-Auswahl durch Matching-Score
- Blacklist bewusst NICHT verwendet
- Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben
2025-03-30 18:40:44 +00:00
21d9eb41ef Wiki Debugging
Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen).

Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz.

Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.).

Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz.

Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.
2025-03-30 18:25:03 +00:00
e917ace53c Use Selector in Wiki
Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector).

Fallback auf k.A. wenn Selektor nicht vorhanden ist.

get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse.

Ausgabe an Google Sheet unverändert.

GPT-Teil wurde temporär entfernt, wie besprochen.
2025-03-30 18:13:15 +00:00
0dc40e119e Code in zwei Bereiche aufgeteilt
Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte.

Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist.

GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik).

gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.
2025-03-30 17:42:46 +00:00
6b67bdf85d bugfix Deepsek2 2025-03-30 15:31:38 +00:00
59e64f41f5 bugfix deepseek 2025-03-30 15:29:54 +00:00
ecaf5a50ef Deepseek V2 2025-03-30 15:27:03 +00:00
70b47d65d4 Deepseek Aktualisierung 2025-03-30 12:38:39 +00:00
3da57a95ca Version von Deepseek 2025-03-30 12:10:55 +00:00
36fddec7b6 Update brancheneinstufung.py 2025-03-30 11:54:10 +00:00
82f06a3cbb Bugfixes
 Fehlerbehandlung mit try/except in classify_company ergänzt (OpenAIError wird behandelt)

 Retry-Mechanismus für GPT-Calls eingeführt (max. 3 Versuche mit 10 Sekunden Pause)

 Logfile gpt_antworten_log.csv speichert jetzt zusätzlich einen Zeitstempel (erste Spalte jeder Zeile)

 Fehlerhafte Import-Anweisung (from openai.error) durch funktionierende ersetzt

 Prompt an GPT um Hinweis ergänzt: Wenn kein Wikipedia-Link vorhanden ist, sind Wikipedia-Branche und Umsatz (Mio €) als k.A. auszugeben

 Wikipedia-Branche & Umsatz werden nur gesetzt, wenn auch ein Wikipedia-Link gefunden wurde

 Ausgabe von Wikipedia-Ergebnissen jetzt zuverlässiger (bessere Strukturprüfung)

 Canvas vollständig synchronisiert
2025-03-30 11:35:44 +00:00
4504cc6d6f Update brancheneinstufung.py 2025-03-30 11:15:10 +00:00
dc72a8104e log datei schreiben anpassung
- Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist.
- GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln.
- CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte.
- Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.
2025-03-30 10:52:33 +00:00
662370ca60 Log erweitert: Zeitstempel in gpt_antworten_log.csv ergänzt 2025-03-30 10:36:32 +00:00
6567b0b540 Wiki Prio 2025-03-30 08:32:23 +00:00
7f8c02043f Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben
wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche.

umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT).

Wikipedia-URL wird garantiert in Spalte M geschrieben.

get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt.

GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
2025-03-30 08:25:16 +00:00
dbc7e05cd9 Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben
- ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings
- Prompt wird nun korrekt an GPT übergeben
2025-03-30 08:17:43 +00:00
a2b7389c30 Fix: SyntaxError im Prompt-Aufbau behoben
- f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt
- Ermöglicht saubere Übergabe der Wikipedia-URL an GPT
2025-03-30 08:03:28 +00:00
1c36599b15 Refactor: Wikipedia-Analyse vollständig an GPT übergeben
- Nur noch Wikipedia-URL lokal ermittelt
- URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …")
- GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren
- HTML-Parsing und lokale Extraktion entfallen vollständig
2025-03-30 08:01:05 +00:00
7921eed97c Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen
- prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“
- erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt
2025-03-30 07:52:55 +00:00
74d0b405fd Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf
- Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
2025-03-30 07:46:05 +00:00
38ffb826ee Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war
- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
2025-03-30 07:36:34 +00:00
85ed437297 Enhancement: Wikipedia-Treffer durch Positivliste für Kategorien validiert
- Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“)
- Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt
- Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)
2025-03-30 07:28:07 +00:00
7a45b4af1b Zeilenversatz im Google Sheet behoben und Wikipedia-Fallback verbessert
- Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung
- Fallback-Logik für Wikipedia-Infobox hinzugefügt:
  - Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft
  - erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet
2025-03-30 07:15:58 +00:00
cb298828b7 Wikipedia Bugfix
Wikipedia-Suche ist vollständig implementiert:

Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname

wikipedia.search() liefert bis zu 3 Treffer

Titelvergleich verhindert falsche Zuordnung

HTML der Seite wird geladen

Infobox mit infobox oder infobox vcard wird geprüft

Branche wird aus <th>Branche</th> extrahiert

Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159)

 Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert.

 Diese Werte werden beim Schreiben bevorzugt:

python
Copy
Edit
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
 Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).
2025-03-30 07:05:06 +00:00
c7ad23b3da Wikipedia Bugfix Einrückung 2025-03-30 06:52:33 +00:00
f389e4b35c Einrückungsfehler 2025-03-30 06:51:00 +00:00
64369fb28a Wikipedia Bugfix
 Einrückungen wurden korrigiert – wiki_final und umsatz_final liegen jetzt sauber innerhalb der Schleife und werden korrekt pro Zeile berechnet.

Die Verarbeitung sollte jetzt fehlerfrei durchlaufen. Sag Bescheid, wenn du Logging, Validierung oder Debug-Ausgabe pro Zeile brauchst.
2025-03-30 06:49:54 +00:00
dfb831632f Wikipedia Bugfix
 Die Wikipedia-Daten (Branche und Umsatz) werden jetzt bevorzugt verwendet, wenn sie verfügbar sind. GPT-Schätzungen kommen nur zum Einsatz, wenn Wikipedia keine Daten liefert.

Bereit für den nächsten Testlauf! Sag Bescheid, wenn du noch einen manuellen Override oder eine Prüfregel zur Validierung einbauen möchtest.
2025-03-30 06:45:54 +00:00
6122f5b47a Die Wikipedia-Suchfunktion wurde überarbeitet
Statt nur wikipedia.page() wird jetzt wikipedia.search() verwendet.

Es werden die besten 3 Treffer geprüft.

Nur Artikel, deren Titel den Unternehmensnamen enthalten, werden akzeptiert.

Dadurch wird z. B. „Heimbach-Gruppe“ korrekt erkannt, auch wenn „Heimbach GmbH“ gesucht wurde.
2025-03-30 06:31:21 +00:00
2c2d1f9f39 Branchenschema wieder ergänzt
Das komplette Ziel-Branchenschema ist jetzt wieder korrekt im Code enthalten und wird im System-Prompt an GPT übergeben. Damit ist sichergestellt, dass GPT die richtige Referenzbasis für die Einstufung hat. Bereit für den nächsten Lauf!
2025-03-29 22:12:09 +00:00
cf250fe4be Wikipedia Bugfix
 Änderungen sind eingebaut:

Wikipedia-Suche prüft jetzt Firmenname, erste zwei Worte und Domainname.

Es wird nur ein Artikel akzeptiert, wenn er den Firmennamen eindeutig enthält.

Wenn kein Wikipedia-Link gefunden wird, wird "k.A." für Branche und Umsatz gesetzt.

GPT-Antwort wird in der Datei gpt_antworten_log.csv lokal gespeichert (mit kompletter Antworttext).

Prompt enthält nun klar: „Bitte verwende nur das konkret genannte Unternehmen“.

Bereit für den nächsten Lauf. Sag Bescheid, wenn du Logging-Ausgaben auswerten oder Grenzfälle testen möchtest.
2025-03-29 22:08:31 +00:00
88f8ffb323 Bugfix Robuster Umgang mit k.A. 2025-03-29 21:46:28 +00:00
87412374f9 nochmal Spaltenaufteilung 2025-03-29 21:33:33 +00:00
531c2f3693 Bugfix Ergebnisse wurden alle in eine Zelle ausgegeben. sollten jetzt in mehrere Zellen ausgegeben w 2025-03-29 21:28:39 +00:00
7843348911 Bugfix Verlinkung API Key 2025-03-29 21:21:57 +00:00
aefa89ca15 komplett neue Version mit optimiertem Prompt 2025-03-29 21:08:31 +00:00
ef59697442 Erste Version 2025-03-29 18:47:15 +01:00