Commit Graph

62 Commits

Author SHA1 Message Date
55d820f702 Deepseek V6 2025-03-31 14:45:40 +00:00
1ba0359cec syntax fix 2025-03-31 14:32:29 +00:00
11e987dec4 Sntaxfehler 2025-03-31 14:27:09 +00:00
fcd343f1ad bugfix 2025-03-31 14:25:50 +00:00
192be3fe7a Chat GPT Bugfix für Deepseek 2025-03-31 14:25:01 +00:00
1da943819f Deepseek V5 2025-03-31 14:10:27 +00:00
f292b254d4 Deepseek Bugfix V2 2025-03-31 13:37:54 +00:00
81f3233043 Deepseek V4 Bugfix 2025-03-31 13:37:11 +00:00
37348c7221 Deepsek V4
Erweiterte Schlüsselwörter:

python
Copy
'branche': ['branche', 'industrie', 'produkte', ...],
'umsatz': ['umsatz', 'jahresumsatz', 'ergebnis', ...]
Robustere Infobox-Erkennung:

python
Copy
class_=lambda c: any(kw in c.lower() for kw in ['infobox', 'vcard', 'unternehmen'])
Verbesserte Zellenverarbeitung:

Berücksichtigt Listen (<li>-Elemente)

Ignoriert verschachtelte Tabellen

Sucht in allen relevanten Zellen (<th> und <td>)

Präzise Umsatzextraktion:

python
Copy
r'(\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{2})?)\s*(?:Mio\.?|Millionen|...)\s*(?:€|Euro|EUR)'
2025-03-31 13:35:53 +00:00
75f68e8e51 Deepseek V3
Fehlende Methode hinzugefügt:

python
Copy
def _extract_domain_hint(self, website):
    # Implementierung der Domain-Extraktion
Verbesserte Namensbereinigung:

Behandelt jetzt Sonderfälle wie "GmbH & Co. KG"

Entfernt Sonderzeichen vor dem Ähnlichkeitsvergleich

Optimierte Suchbegriffe-Generierung:

Splittet Namen in relevante Wörter

Entfernt Duplikate aus den Suchbegriffen

Detaillierteres Debugging:

Zeigt Ähnlichkeitswerte an

Protokolliert Domain-Prüfungen
2025-03-31 13:15:16 +00:00
42c2f9d843 Bugfix Deepseek1 2025-03-31 12:55:28 +00:00
6c485a6fd7 Deepseek V1
Klare Trennung der Verantwortlichkeiten:

GoogleSheetHandler: Alle Sheet-Interaktionen

WikipediaScraper: Suchlogik und Datenextraktion

DataProcessor: Steuerung des Gesamtflusses

Erweiterte Funktionalitäten:

Retry-Decorator für robustere API-Aufrufe

Verbesserte Validierung der Artikelrelevanz

Flexiblere Suchbegriff-Generierung

Zentrale Konfiguration

Dokumentation:

Ausführliche Docstrings für alle Methoden

Kommentare für komplexe Codeabschnitte

Klare Parameternamen

Wartbarkeit:

Einfache Erweiterung durch modularen Aufbau

Separierte Geschäftslogik von der Implementierung

Konsistente Fehlerbehandlung

Die ChatGPT-Bewertung (Teil 3) kann später als separate Klasse hinzugefügt werden, ohne die bestehende Struktur zu beeinflussen.
2025-03-31 12:54:22 +00:00
76ff42e544 chat GPT ist doof 2025-03-31 11:33:49 +00:00
e5c5f54672 Claude V 1.1
Hauptverbesserungen im überarbeiteten Code

Deutlich robustere Infobox-Erkennung:

Erweiterte Suche nach Infobox-Tabellen mit mehreren möglichen Klassen
Berücksichtigung verschiedener Schreibweisen und Varianten für "Branche" und "Umsatz"


Drei-Methoden-Ansatz zur Datenextraktion:

Methode 1: Direkte Suche in den Tabellenzeilen der Infobox
Methode 2: Volltext-Suche nach spezifischen Mustern mit regulären Ausdrücken
Methode 3: Suche in meta-Tags für zusätzliche Kontextinformationen


Intelligentere Firmennamen-Verarbeitung:

Entfernung von Rechtsformen (GmbH, AG, etc.) für bessere Suchtreffer
Extraktion von Kernname für alternative Suche


Wiederverwendung bestehender URLs:

Der Code prüft jetzt zuerst eine bestehende Wikipedia-URL, bevor er eine neue Suche startet
Reduziert unnötige Suchanfragen und verbessert die Konsistenz


Detaillierter Debug-Modus:

Ausführliches Logging für eine bessere Nachvollziehbarkeit
Anzeige von gefundenen Headers in der Infobox für Diagnose-Zwecke


Verbesserte Umsatzextaktion:

Reguläre Ausdrücke für Währungs- und Zahlenformate
Berücksichtigung verschiedener Formate (€, EUR, Mio., Mrd., etc.)


Deutlich bessere Datenbereinigung:

Umfangreichere Textbereinigung von HTML-Entitäten
Sicherer Umgang mit unterschiedlichen Datentypen



Diese Änderungen sollten die Probleme bei der Heimbach-Gruppe und ähnlichen Unternehmen beheben, bei denen die Daten trotz gefundenem Wikipedia-Artikel nicht korrekt extrahiert wurden.
Der DEBUG-Modus hilft zusätzlich dabei, die genauen Vorgänge nachzuvollziehen und bei zukünftigen Problemen gezielter zu diagnostizieren.
2025-03-31 10:28:00 +00:00
4322a9eeb0 Claude V 1.0
Key Improvements

Better HTML Parsing: I've replaced the XPath-based extraction with BeautifulSoup, which is more robust for parsing HTML content.
Improved Infobox Detection: The code now properly identifies and extracts data from Wikipedia infoboxes using a more flexible approach:

It looks for various synonyms of "Branche" and "Umsatz" in the header text
It handles different formats of these values within the infobox


Text Cleaning: Added a clean_text() function to:

Remove HTML tags and entities
Strip out references (text in square brackets)
Remove parenthetical text that might contain irrelevant information
Handle whitespace issues


Better Error Handling: The code now includes more robust error handling:

Multiple retries for Wikipedia data fetching
Proper exception handling with informative error messages
Fallback to existing values if new data can't be obtained


Domain Filtering: Improved the domain key extraction to ignore common subdomains like "www", "de", or "com".
Data Preservation: The code now preserves existing data in the sheet when new data can't be found, rather than overwriting with "k.A."
Better Logging: Added more detailed logging to help with debugging and tracking the progress of the script.

This improved version should more reliably extract industry and revenue information from Wikipedia articles and update your Google Sheet accordingly.
2025-03-31 09:55:56 +00:00
f1ca42d98e 1.0.10 Wiki
Wikipedia-Suche prüft jetzt explizit auf Namensähnlichkeit via SequenceMatcher.

Einträge ohne passenden Domainbezug oder ähnlichen Namen werden übersprungen.

Robustere Extraktion von Branche/Umsatz via lxml-XPath.

Versionierung korrekt in Spalte Q ausgegeben.
2025-03-31 09:45:39 +00:00
7e77223751 feat(version 1.0.9): zuverlässige Extraktion von Branche und Umsatz aus Heimbach-Gruppe Wikipedia-Ar
- Lese gezielt mit lxml und XPath aus der Infobox
- Prüfe Namensähnlichkeit und URL-Fit vor der Extraktion
- Ausgabe von Branche/Umsatz nur bei sicherem Treffer
2025-03-31 09:34:33 +00:00
c27f2cdca2 🔁 Refactor Wikipedia-Parser to stable v1.0.7 logic
- reverted to earlier reliable search strategy
- restored infobox-first extraction
- ensured fallback to categories only if infobox branch is missing
- maintained timestamp and version output
2025-03-31 09:00:44 +00:00
21415698e0 fix(wikipedia): Robustere Extraktion durch angepasste Infobox-Auswertung mit Synonym-Feldern
- XPath entfernt, da BeautifulSoup in Kombination mit Infobox-Selektor zuverlässiger
- Nur Branchen aus Infobox erlaubt, Kategorien nur als Fallback entfernt
- Verbesserte Ausgabe: Nur bei gefundenem Wikipedia-Link werden Werte eingetragen
- Versionskennung 1.0.6 eingeführt (Spalte Q)
2025-03-31 08:36:38 +00:00
42316cd66a feat(wikipedia): Refactored Wikipedia extraction logic in v1.0.9-wiki-refined
- Stellt wieder bewährte BeautifulSoup-basierte Infobox-Suche her
- Verbesserte Titelvalidierung durch Namenssplit und Substring-Matching
- Umsatz-Parsing via Regex auf deutsche Formatierung optimiert
- Fallback auf Kategorien nur bei fehlender Infobox
- Versionierung (z. B. 1.0.9-wiki-refined) wird nun in Spalte Q mitgeschrieben
2025-03-31 07:57:40 +00:00
16f5f77967 1.0.8-wiki-api aktualisiert.
Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz

Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain)

Kein Rückfall mehr auf Kategorien bei fehlender Infobox

Spalte Q enthält nun die Versionsnummer
2025-03-31 07:49:50 +00:00
897742ddc3 feat(wikipedia): Verbesserte Wikipedia-Erkennung und Infobox-Parsing (v1.0.4)
- Domain-Key-Extraktion zur besseren Treffererkennung
- Scoring-Mechanismus zur Auswahl des besten Wikipedia-Artikels
- Erweiterter Infobox-Parser mit Label-Synonymen
- Validierung durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Versionierung der Ergebnisse mit Spaltenausgabe
2025-03-31 06:46:48 +00:00
09885848ec Verbessert: Wikipedia-Suchlogik erneut optimiert (Version 1.0.2)
- Wieder eingeführt: Kombination aus vollständigem Firmennamen, ersten zwei Wörtern und Domain-Fragment zur Suche
- Erhöhte Trefferwahrscheinlichkeit durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Info aus Infobox (Branche & Umsatz) wird bevorzugt; Kategorien nur als Fallback
- Version in Spalte Q geschrieben zur Nachverfolgbarkeit
2025-03-31 06:12:53 +00:00
2b010effec feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb
🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only)

📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen

🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen

 Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht
2025-03-31 05:41:04 +00:00
d73eb9198a Verbesserte Wikipedia-Suche:
- Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen
- Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung
- Präzisere Ergebnis-Auswahl durch Matching-Score
- Blacklist bewusst NICHT verwendet
- Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben
2025-03-30 18:40:44 +00:00
516221bb4b Wiki Debugging
Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen).

Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz.

Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.).

Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz.

Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.
2025-03-30 18:25:03 +00:00
4038fc1d0e Use Selector in Wiki
Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector).

Fallback auf k.A. wenn Selektor nicht vorhanden ist.

get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse.

Ausgabe an Google Sheet unverändert.

GPT-Teil wurde temporär entfernt, wie besprochen.
2025-03-30 18:13:15 +00:00
80a70fcf3b Code in zwei Bereiche aufgeteilt
Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte.

Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist.

GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik).

gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.
2025-03-30 17:42:46 +00:00
28983aec43 bugfix Deepsek2 2025-03-30 15:31:38 +00:00
fd2dbd2e8b bugfix deepseek 2025-03-30 15:29:54 +00:00
282e1f2dfe Deepseek V2 2025-03-30 15:27:03 +00:00
d5787f1875 Deepseek Aktualisierung 2025-03-30 12:38:39 +00:00
a609ff5a8e Version von Deepseek 2025-03-30 12:10:55 +00:00
aee4eb1291 Update brancheneinstufung.py 2025-03-30 11:54:10 +00:00
ef9ec29d93 Bugfixes
 Fehlerbehandlung mit try/except in classify_company ergänzt (OpenAIError wird behandelt)

 Retry-Mechanismus für GPT-Calls eingeführt (max. 3 Versuche mit 10 Sekunden Pause)

 Logfile gpt_antworten_log.csv speichert jetzt zusätzlich einen Zeitstempel (erste Spalte jeder Zeile)

 Fehlerhafte Import-Anweisung (from openai.error) durch funktionierende ersetzt

 Prompt an GPT um Hinweis ergänzt: Wenn kein Wikipedia-Link vorhanden ist, sind Wikipedia-Branche und Umsatz (Mio €) als k.A. auszugeben

 Wikipedia-Branche & Umsatz werden nur gesetzt, wenn auch ein Wikipedia-Link gefunden wurde

 Ausgabe von Wikipedia-Ergebnissen jetzt zuverlässiger (bessere Strukturprüfung)

 Canvas vollständig synchronisiert
2025-03-30 11:35:44 +00:00
bd9e9fac07 Update brancheneinstufung.py 2025-03-30 11:15:10 +00:00
94032f1fc1 log datei schreiben anpassung
- Wikipedia-Branche und Umsatz werden jetzt nur gesetzt, wenn Wikipedia-Link vorhanden ist.
- GPT-Prompt erweitert, um Wikipedia-Werte bei vorhandenem Link als verbindlich zu behandeln.
- CSV-Logfile (`gpt_antworten_log.csv`) ergänzt um Zeitstempel als erste Spalte.
- Prompt-Ausgabe vollständig überarbeitet für Robustheit und Nachvollziehbarkeit.
2025-03-30 10:52:33 +00:00
e90a8591d1 Log erweitert: Zeitstempel in gpt_antworten_log.csv ergänzt 2025-03-30 10:36:32 +00:00
81f361b9ef Wiki Prio 2025-03-30 08:32:23 +00:00
3817537e21 Fix: Wikipedia-Daten bevorzugt verwenden & URL immer schreiben
wiki_final nutzt jetzt bevorzugt die ausgelesene Wikipedia-Branche.

umsatz_final verwendet, wenn möglich, den Wert aus der Infobox (statt GPT).

Wikipedia-URL wird garantiert in Spalte M geschrieben.

get_wikipedia_data() übergibt wieder wiki_branche, umsatz, url korrekt.

GPT-Prompt weiterhin mit Wikipedia-Link übergeben, aber nicht zur Extraktion verwendet.
2025-03-30 08:25:16 +00:00
996af71f8b Fix: SyntaxError im User-Prompt durch \n innerhalb f-String behoben
- ersetzt echten Zeilenumbruch durch escape-Zeichen `\n` innerhalb f-Strings
- Prompt wird nun korrekt an GPT übergeben
2025-03-30 08:17:43 +00:00
f0bc264417 Fix: SyntaxError im Prompt-Aufbau behoben
- f-String für den User-Prompt korrekt über mehrere Zeilen in Klammern gesetzt
- Ermöglicht saubere Übergabe der Wikipedia-URL an GPT
2025-03-30 08:03:28 +00:00
78dc6acbe6 Refactor: Wikipedia-Analyse vollständig an GPT übergeben
- Nur noch Wikipedia-URL lokal ermittelt
- URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …")
- GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren
- HTML-Parsing und lokale Extraktion entfallen vollständig
2025-03-30 08:01:05 +00:00
1e51601569 Fix: Wikipedia-Branche-Erkennung robuster gegen Formatabweichungen
- prüft Header-Zellen nun mit `th.text.lower().strip()` auf „branche“
- erkennt auch „ BRANCHE “, „branche\n“, oder Sonderzeichen korrekt
2025-03-30 07:52:55 +00:00
7740e9edfc Fix: Wikipedia-URL wurde nie gesetzt und GPT-Antwort fälschlich als Wikipedia-Branche übernommen
- Reihenfolge im Wikipedia-Parsing korrigiert: URL vor HTML-Abruf
- Wikipedia-Branche wird nur dann befüllt, wenn aus Wikipedia extrahiert (kein Fallback auf GPT)
2025-03-30 07:46:05 +00:00
774c78290e Fix: Wikipedia-Artikel wurden verworfen, weil HTML vor Prüfung nicht geladen war
- Verschiebe html = requests.get(url).text an den Anfang der Validierungsschleife
- Domainprüfung erfolgt nun korrekt im HTML-Kontext
- Wikipedia-URL wird jetzt wieder korrekt ausgegeben
2025-03-30 07:36:34 +00:00
5daab5c22c Enhancement: Wikipedia-Treffer durch Positivliste für Kategorien validiert
- Neue Konstante WHITELIST_KATEGORIEN definiert (z. B. „Unternehmen“, „Produktion“, „Maschinenbau“)
- Wenn keine Branche aus Infobox extrahiert wird, wird geprüft, ob eine der Wikipedia-Kategorien zur Whitelist passt
- Andernfalls wird der Artikel verworfen (→ Rückgabe „k.A.“)
2025-03-30 07:28:07 +00:00
63e31bb58f Zeilenversatz im Google Sheet behoben und Wikipedia-Fallback verbessert
- Anpassung der `range_name` von `G{i+2}:P{i+2}` auf `G{i+1}:P{i+1}` zur korrekten Zeilenadressierung
- Fallback-Logik für Wikipedia-Infobox hinzugefügt:
  - Wenn `.infobox` nicht gefunden wird, werden alle Tabellen geprüft
  - erste Tabelle mit einer `th`-Zelle, die „Branche“ enthält, wird als Infobox verwendet
2025-03-30 07:15:58 +00:00
5bb7d271b9 Wikipedia Bugfix
Wikipedia-Suche ist vollständig implementiert:

Suchbegriffe: vollständiger Firmenname, erste zwei Wörter, Domainname

wikipedia.search() liefert bis zu 3 Treffer

Titelvergleich verhindert falsche Zuordnung

HTML der Seite wird geladen

Infobox mit infobox oder infobox vcard wird geprüft

Branche wird aus <th>Branche</th> extrahiert

Umsatz wird aus „Umsatz“ extrahiert, falls „Mio“ enthalten, auf Zahl bereinigt (z. B. „159 Mio. €“ → 159)

 Wikipedia-Branche und Umsatz werden korrekt in wiki_branche bzw. umsatz gespeichert.

 Diese Werte werden beim Schreiben bevorzugt:

python
Copy
Edit
wiki_final = wiki_branche if wiki_branche != "k.A." else wiki
umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat
 Es werden alle Spalten korrekt im Sheet geschrieben (G bis P).
2025-03-30 07:05:06 +00:00
2e0eb3f5d4 Wikipedia Bugfix Einrückung 2025-03-30 06:52:33 +00:00