Commit Graph

80 Commits

Author SHA1 Message Date
5a94a3d4c5 Erweiterung der Re-Evaluierung mittels Flag und Optimierung der Umsatz- und Mitarbeiterextraktion (v
Flag-Spalte A:
Nur Zeilen mit einem "x" in Spalte A werden verarbeitet.

Verschiebung der Spaltenzuordnungen:

Firmenname in Spalte B, Website in Spalte C.

Ausgabe erfolgt in den Spalten H bis L (H: Wikipedia URL, I: erster Absatz, J: Branche, K: Umsatz in Mio €, L: Mitarbeiterzahl).

Datum und Uhrzeit in Spalte O, Version in Spalte R.

Umsatz-Extraktion:
Erweiterte Regex-Logik zur Erkennung von Tausendertrennzeichen und zur Umrechnung in Mio €.

Mitarbeiterextraktion:
Umstellung auf re.findall, um robust das erste Zahlenfragment zu erfassen.

Weitere Anpassungen:
Deprecation-Warnings bei den Update-Aufrufen wurden behoben (mittels benannter Argumente).
2025-04-01 02:50:59 +00:00
37ad58703a Optimierung der Wikipedia-Auswertung: Umsatz-Extraktion und Mitarbeiterzahl verbessert (v1.1.5)
Zusammenfassung:

Spaltenreihenfolge aktualisiert:

G: Wikipedia URL

H: Erster Absatz des Wikipedia-Artikels

I: Branche (aus der Infobox)

J: Umsatz (als Zahl in Mio €, z. B. "159")

K: Anzahl Mitarbeiter (aus der Infobox)

N: Datum und aktuelle Zeit

Q: Version

Umsatz-Extraktion:

Regex erkennt jetzt "Mio"/"Millionen" und "Mrd"/"Milliarden".

Ist keine Einheit vorhanden, wird der Wert in Euro in Mio € umgerechnet (Division durch 1.000.000).

Mitarbeiterzahl-Extraktion:

Regex wurde erweitert, um Zahlen mit Leerzeichen zu erfassen.

Zusätzliche Schlüsselwörter wie "Mitarbeiterzahl" werden berücksichtigt.

Deprecation-Warnings:

Die Update-Aufrufe für Google Sheets wurden so angepasst, dass die Werte vor dem Range-Namen übergeben werden.
2025-03-31 20:26:57 +00:00
caeb841e55 Optimierung der Wikipedia-Auswertung: Neue Spaltenreihenfolge, Datum/Uhrzeit und Version
Spaltenreihenfolge angepasst:

G: Wikipedia URL

H: Erster Absatz des Wikipedia-Artikels

I: Branche (aus Infobox)

J: Umsatz (als Zahl in Mio €, z. B. "159")

K: Anzahl Mitarbeiter (aus Infobox)

Neue Felder:

Spalte N: Aktuelles Datum und Zeit

Spalte Q: Version

Infobox-Ausgabe entfernt:
Die komplette Infobox wird nicht mehr ausgegeben.

Normalisierung der Firmennamen:
Erweiterte Regex entfernt nun eine umfangreiche Liste gängiger Firmierungsformen (u.a. GmbH, G.m.b.H., UG, AG, OHG, KG, GmbH & Co. KG, AG & Co. KG, e.K., Ltd., S.a r.l., Stiftung, Genossenschaft, gGmbH, gUG, PartG, KGaA, SE, OG, e.U., etc.).

Erster Absatz:
Eine neue Methode extrahiert den ersten sinnvollen Absatz des Wikipedia-Artikels.

Umsatzformatierung:
Umsatz wird als reine Zahl (in Mio €) ausgegeben.

Google Sheet Update:
Aktualisierung erfolgt nun in separaten Ranges für die gewünschten Spalten (G:K, N und Q).
2025-03-31 19:52:12 +00:00
3176c701bc Optimierung der Wikipedia-Auswertung: Neue Spaltenreihenfolge und erweiterte Extraktion (v1.1.3)
Spaltenreihenfolge angepasst:

G: Wikipedia URL

H: Erster Absatz des Wikipedia-Artikels

I: Branche (aus Infobox)

J: Umsatz (als Zahl in Mio €, z. B. "159")

K: Anzahl Mitarbeiter (aus Infobox)

Entfernung der kompletten Infobox-Ausgabe.

Extraktion des ersten Absatzes: Neue Methode extract_first_paragraph liefert den ersten sinnvollen Absatz.

Erweiterung der Infobox-Extraktion: Jetzt werden zusätzlich "Mitarbeiter" aus der Infobox extrahiert.

Umsatz-Formatierung: Umsatz wird als reine Zahl (in Mio €) ausgegeben.

Google Sheet Update: Aktualisierung erfolgt nun auf Spalte G bis K (5 Spalten).
2025-03-31 19:41:22 +00:00
3f30c63adc domain priorisierung
Vollständige Domain-Extraktion:
Implementiert über die neue Methode _get_full_domain, die nun den kompletten Domainnamen (inklusive TLD) liefert (z. B. "heimbach.com").

Normalisierung der Firmennamen:
Einführung der Funktion normalize_company_name, welche gängige Firmierungsformen (z. B. GmbH, AG, Aktiengesellschaft, Co. KG, mbH, & Co. KG, e.V., Limited, Ltd, Inc, Corp, Corporation, Gruppe) entfernt. Dies führt zu einem konsistenten Vergleich zwischen den Unternehmensdaten und Wikipedia-Titeln.

Verbesserte Artikelvalidierung:
In _validate_article werden nun:

Infobox-Links sowie externe Links geprüft, ob sie den vollständigen Domainnamen enthalten (ohne Dateilinks).

Der Vergleich der Wikipedia-Titel und des Firmennamens erfolgt auf Basis der normalisierten Namen.

Ein dynamischer Schwellenwert wird verwendet (0.60 statt 0.65), wenn ein definitiver Link-Match gefunden wurde.
2025-03-31 19:18:07 +00:00
37034e778e syntax korrektur 2025-03-31 18:58:12 +00:00
dec4fd4342 Priorisierung url in Infobox
Infobox-Links als definitiver Beleg:
In der Methode _validate_article wird nun die Infobox des Wikipedia-Artikels nach externen Links durchsucht. Wird der Domain-Key (extrahiert aus der URL) in einem dieser Links gefunden, wird der Artikel ohne weiteren Ähnlichkeitsvergleich als korrekt akzeptiert.

Optimierte Suchbegriff-Generierung:
Die Funktion _generate_search_terms nutzt nun zuerst den Domain-Key, dann die ersten zwei Wörter des Firmennamens und zuletzt den vollständigen Namen, um die relevantesten Treffer zu erzielen.

Weitere kleinere Verbesserungen:
Debug-Log-Ausgaben wurden angepasst, um den Such- und Validierungsprozess besser nachvollziehen zu können.
2025-03-31 18:54:46 +00:00
f112970bb8 Wiki Such Optimierung
Optimierte Suchbegriffe:
– Es werden nur der original Firmenname, seine ersten zwei Wörter und der Domain-Key (erstes Segment der URL) genutzt.
– So werden irrelevante Begriffe wie „www“ vermieden.

Validierung:
– Vor Akzeptanz eines Artikels wird geprüft, ob der Domain-Key im HTML vorkommt und der Titel des Artikels eine ausreichende Ähnlichkeit zum Firmennamen aufweist.

Struktur:
– Der Code ist in einer neuen Datei namens anpassungen.py zusammengefasst und einsatzbereit.
2025-03-31 18:40:50 +00:00
bd64fc7121 Update nach der ersten Version die einigermaßen funktioniert
URL-Normalisierung:
Die Methode _normalize_domain entfernt nun explizit Protokoll und „www“, sodass z. B. aus „www.heilemann-leo.de“ einfach „heilemann-leo.de“ wird.

Suchlogik:
In _generate_search_terms wird zuerst der normalisierte Domainname verwendet. Erst danach kommen der bereinigte Firmenname und ergänzende Begriffe. So wird irrelevanter Suchbegriff wie „www“ vermieden.

Validierung:
Die Artikel werden auf ihre Relevanz (unter anderem mittels Ähnlichkeitsvergleich) geprüft, sodass nur Artikel mit ausreichend hoher Ähnlichkeit akzeptiert werden.
2025-03-31 18:25:48 +00:00
f046311521 BugfixingChat GPT
GoogleSheetHandler: Der Update-Bereich wurde auf G{row_num}:R{row_num} erweitert, um 12 Spalten zu umfassen.

WikipediaScraper:

Die Methode extract_full_infobox holt den gesamten Infobox-Text mit | als Trenner.

Mit extract_fields_from_infobox_text werden gezielt die Felder "Branche" und "Umsatz" gesucht.

In extract_company_data wird zuerst versucht, die Werte aus dem kompletten Infobox-Text zu extrahieren, bevor der Fallback genutzt wird.

DataProcessor: Die Ausgabe im Sheet umfasst nun als erste Spalte den gesamten Infobox-Text.
2025-03-31 18:08:51 +00:00
89a6b97253 Chat GPT Bugfix 2025-03-31 17:38:39 +00:00
1468375170 Chat GPT Bugfixing Infobox ausgabe 2025-03-31 17:32:37 +00:00
0875a7c7df Deepseek bugfix v10
Wichtigste Änderungen:

Hinzugefügte search_company_article-Methode

extract_company_data-Methode ergänzt

Konsistente Fehlerbehandlung

Domain-Validierung in der Artikelsuche
2025-03-31 17:12:33 +00:00
44193fc6c1 Deepseek v8
Domain-Normalisierung:

python
Copy
def _normalize_domain(self, website):
    # Konvertiert URLs wie "https://www.heimerle-meule.com/de/" zu "heimerle-meule"
Optimierte Suchbegriffe:

Entfernt alle Rechtsformen systematisch

Kombiniert Domain-Namen und Schlüsselwörter

Beispiel: Aus "Heimerle + Meule GmbH" wird:

python
Copy
['Heimerle + Meule GmbH', 'Heimerle + Meule', 'heimerle-meule']
Erweiterte Infobox-Analyse:

30% mehr Schlüsselwörter für Branchen

Berücksichtigt alternative Umsatzbezeichnungen wie "Betriebsergebnis"

Verarbeitet verschiedene Zahlenformate:

"123,45 Mio. €"

"5.678.900 Euro"

"9,99 Mrd."

Robuste Textbereinigung:

python
Copy
# Aus "Medizintechnik [3](Stand: 2022)" wird "Medizintechnik"
re.sub(r'\[.*?\]|\(.*?\)', '', raw_value)
2025-03-31 16:57:51 +00:00
eecbf383b5 deepseek V7
Vollständige Implementierung der _extract_infobox_value-Methode

Erweiterte Schlüsselwörter für deutsche Infoboxen

Verbesserte Textbereinigung für Branchenangaben

Toleranz für verschiedene Zahlenformate

Debug-Output für jeden Verarbeitungsschritt
2025-03-31 16:45:02 +00:00
e8968836a3 Deepseek bugfix v3
Erklärung der Verbesserungen für Heine Optotechnik:

Erweiterte Header-Erkennung:

python
Copy
if any(kw in header_text for kw in keywords):
Erkennt jetzt auch "Tätigkeitsfeld" und "Aktivitäten"

Branchenbereinigung:

python
Copy
value = re.sub(r'\(.*?\)', '', value)
Entfernt Klammerzusätze wie "(seit 2020)"

Flexiblere Infobox-Erkennung:

python
Copy
infobox = soup.find('table', {'class': lambda c: c and 'infobox' in c.lower()})
Findet auch nicht-standardisierte Infobox-Klassen

Debug-Output:

python
Copy
debug_print(f"Prüfe Header: {header_text}")
Zeigt alle untersuchten Header an
2025-03-31 16:37:40 +00:00
f665612146 infobox bugfix
Erweiterte Infobox-Erkennung:

Unterstützt jetzt zusätzliche Klassen wie firma und unternehmensdaten

Berücksichtigt div-Elemente neben Tabellenzeilen

Verbesserte Schlüsselwörter:

50% mehr Keywords für Branchen- und Umsatzfelder

Berücksichtigt typisch deutsche Formulierungen

Flexible Wertextraktion:

Verarbeitet Listen (<li>-Elemente)

Ignoriert Navigationsboxen (navbox-Klasse)

Sucht in verschiedenen HTML-Elementen (div, td, th)

Robuste Umsatzanalyse:

Erkennt verschiedene Schreibweisen:

"123,45 Mio. €"

"1.234,56 Millionen Euro"

"5,6 Mrd. USD"

Führt automatische Umrechnung durch:

1 Milliarde → 1000 Millionen

Standardisiert die Ausgabe auf "X.X Mio €"

Erweiterte Debug-Informationen:

Protokolliert fehlgeschlagene Suchvorgänge

Zeigt erkannte Werte im Rohformat an
2025-03-31 15:11:39 +00:00
05185396c7 syntax fix 2025-03-31 14:46:16 +00:00
2607ea667f Deepseek V6 2025-03-31 14:45:40 +00:00
7aaa4147fa syntax fix 2025-03-31 14:32:29 +00:00
76e0259a63 Sntaxfehler 2025-03-31 14:27:09 +00:00
8dbfa64661 bugfix 2025-03-31 14:25:50 +00:00
2bdcc5fa09 Chat GPT Bugfix für Deepseek 2025-03-31 14:25:01 +00:00
7db265bebe Deepseek V5 2025-03-31 14:10:27 +00:00
d747581001 Deepseek Bugfix V2 2025-03-31 13:37:54 +00:00
5940b44406 Deepseek V4 Bugfix 2025-03-31 13:37:11 +00:00
65c7112500 Deepsek V4
Erweiterte Schlüsselwörter:

python
Copy
'branche': ['branche', 'industrie', 'produkte', ...],
'umsatz': ['umsatz', 'jahresumsatz', 'ergebnis', ...]
Robustere Infobox-Erkennung:

python
Copy
class_=lambda c: any(kw in c.lower() for kw in ['infobox', 'vcard', 'unternehmen'])
Verbesserte Zellenverarbeitung:

Berücksichtigt Listen (<li>-Elemente)

Ignoriert verschachtelte Tabellen

Sucht in allen relevanten Zellen (<th> und <td>)

Präzise Umsatzextraktion:

python
Copy
r'(\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{2})?)\s*(?:Mio\.?|Millionen|...)\s*(?:€|Euro|EUR)'
2025-03-31 13:35:53 +00:00
1c36e3185b Deepseek V3
Fehlende Methode hinzugefügt:

python
Copy
def _extract_domain_hint(self, website):
    # Implementierung der Domain-Extraktion
Verbesserte Namensbereinigung:

Behandelt jetzt Sonderfälle wie "GmbH & Co. KG"

Entfernt Sonderzeichen vor dem Ähnlichkeitsvergleich

Optimierte Suchbegriffe-Generierung:

Splittet Namen in relevante Wörter

Entfernt Duplikate aus den Suchbegriffen

Detaillierteres Debugging:

Zeigt Ähnlichkeitswerte an

Protokolliert Domain-Prüfungen
2025-03-31 13:15:16 +00:00
0ecd23ddfa Bugfix Deepseek1 2025-03-31 12:55:28 +00:00
7bd90f469a Deepseek V1
Klare Trennung der Verantwortlichkeiten:

GoogleSheetHandler: Alle Sheet-Interaktionen

WikipediaScraper: Suchlogik und Datenextraktion

DataProcessor: Steuerung des Gesamtflusses

Erweiterte Funktionalitäten:

Retry-Decorator für robustere API-Aufrufe

Verbesserte Validierung der Artikelrelevanz

Flexiblere Suchbegriff-Generierung

Zentrale Konfiguration

Dokumentation:

Ausführliche Docstrings für alle Methoden

Kommentare für komplexe Codeabschnitte

Klare Parameternamen

Wartbarkeit:

Einfache Erweiterung durch modularen Aufbau

Separierte Geschäftslogik von der Implementierung

Konsistente Fehlerbehandlung

Die ChatGPT-Bewertung (Teil 3) kann später als separate Klasse hinzugefügt werden, ohne die bestehende Struktur zu beeinflussen.
2025-03-31 12:54:22 +00:00
44528d555a chat GPT ist doof 2025-03-31 11:33:49 +00:00
6f822527e8 Claude V 1.1
Hauptverbesserungen im überarbeiteten Code

Deutlich robustere Infobox-Erkennung:

Erweiterte Suche nach Infobox-Tabellen mit mehreren möglichen Klassen
Berücksichtigung verschiedener Schreibweisen und Varianten für "Branche" und "Umsatz"


Drei-Methoden-Ansatz zur Datenextraktion:

Methode 1: Direkte Suche in den Tabellenzeilen der Infobox
Methode 2: Volltext-Suche nach spezifischen Mustern mit regulären Ausdrücken
Methode 3: Suche in meta-Tags für zusätzliche Kontextinformationen


Intelligentere Firmennamen-Verarbeitung:

Entfernung von Rechtsformen (GmbH, AG, etc.) für bessere Suchtreffer
Extraktion von Kernname für alternative Suche


Wiederverwendung bestehender URLs:

Der Code prüft jetzt zuerst eine bestehende Wikipedia-URL, bevor er eine neue Suche startet
Reduziert unnötige Suchanfragen und verbessert die Konsistenz


Detaillierter Debug-Modus:

Ausführliches Logging für eine bessere Nachvollziehbarkeit
Anzeige von gefundenen Headers in der Infobox für Diagnose-Zwecke


Verbesserte Umsatzextaktion:

Reguläre Ausdrücke für Währungs- und Zahlenformate
Berücksichtigung verschiedener Formate (€, EUR, Mio., Mrd., etc.)


Deutlich bessere Datenbereinigung:

Umfangreichere Textbereinigung von HTML-Entitäten
Sicherer Umgang mit unterschiedlichen Datentypen



Diese Änderungen sollten die Probleme bei der Heimbach-Gruppe und ähnlichen Unternehmen beheben, bei denen die Daten trotz gefundenem Wikipedia-Artikel nicht korrekt extrahiert wurden.
Der DEBUG-Modus hilft zusätzlich dabei, die genauen Vorgänge nachzuvollziehen und bei zukünftigen Problemen gezielter zu diagnostizieren.
2025-03-31 10:28:00 +00:00
3d30565c97 Claude V 1.0
Key Improvements

Better HTML Parsing: I've replaced the XPath-based extraction with BeautifulSoup, which is more robust for parsing HTML content.
Improved Infobox Detection: The code now properly identifies and extracts data from Wikipedia infoboxes using a more flexible approach:

It looks for various synonyms of "Branche" and "Umsatz" in the header text
It handles different formats of these values within the infobox


Text Cleaning: Added a clean_text() function to:

Remove HTML tags and entities
Strip out references (text in square brackets)
Remove parenthetical text that might contain irrelevant information
Handle whitespace issues


Better Error Handling: The code now includes more robust error handling:

Multiple retries for Wikipedia data fetching
Proper exception handling with informative error messages
Fallback to existing values if new data can't be obtained


Domain Filtering: Improved the domain key extraction to ignore common subdomains like "www", "de", or "com".
Data Preservation: The code now preserves existing data in the sheet when new data can't be found, rather than overwriting with "k.A."
Better Logging: Added more detailed logging to help with debugging and tracking the progress of the script.

This improved version should more reliably extract industry and revenue information from Wikipedia articles and update your Google Sheet accordingly.
2025-03-31 09:55:56 +00:00
e4b4d3afc9 1.0.10 Wiki
Wikipedia-Suche prüft jetzt explizit auf Namensähnlichkeit via SequenceMatcher.

Einträge ohne passenden Domainbezug oder ähnlichen Namen werden übersprungen.

Robustere Extraktion von Branche/Umsatz via lxml-XPath.

Versionierung korrekt in Spalte Q ausgegeben.
2025-03-31 09:45:39 +00:00
7becf2da22 feat(version 1.0.9): zuverlässige Extraktion von Branche und Umsatz aus Heimbach-Gruppe Wikipedia-Ar
- Lese gezielt mit lxml und XPath aus der Infobox
- Prüfe Namensähnlichkeit und URL-Fit vor der Extraktion
- Ausgabe von Branche/Umsatz nur bei sicherem Treffer
2025-03-31 09:34:33 +00:00
f914871570 🔁 Refactor Wikipedia-Parser to stable v1.0.7 logic
- reverted to earlier reliable search strategy
- restored infobox-first extraction
- ensured fallback to categories only if infobox branch is missing
- maintained timestamp and version output
2025-03-31 09:00:44 +00:00
c32fef45b9 fix(wikipedia): Robustere Extraktion durch angepasste Infobox-Auswertung mit Synonym-Feldern
- XPath entfernt, da BeautifulSoup in Kombination mit Infobox-Selektor zuverlässiger
- Nur Branchen aus Infobox erlaubt, Kategorien nur als Fallback entfernt
- Verbesserte Ausgabe: Nur bei gefundenem Wikipedia-Link werden Werte eingetragen
- Versionskennung 1.0.6 eingeführt (Spalte Q)
2025-03-31 08:36:38 +00:00
85021e2eff feat(wikipedia): Refactored Wikipedia extraction logic in v1.0.9-wiki-refined
- Stellt wieder bewährte BeautifulSoup-basierte Infobox-Suche her
- Verbesserte Titelvalidierung durch Namenssplit und Substring-Matching
- Umsatz-Parsing via Regex auf deutsche Formatierung optimiert
- Fallback auf Kategorien nur bei fehlender Infobox
- Versionierung (z. B. 1.0.9-wiki-refined) wird nun in Spalte Q mitgeschrieben
2025-03-31 07:57:40 +00:00
ff386e53d4 1.0.8-wiki-api aktualisiert.
Korrektes XPath mit normalize-space() zur besseren Erkennung von Branche/Umsatz

Bessere Trefferqualität durch Score-Gewichtung (Namensähnlichkeit + Domain)

Kein Rückfall mehr auf Kategorien bei fehlender Infobox

Spalte Q enthält nun die Versionsnummer
2025-03-31 07:49:50 +00:00
0d3e320f85 feat(wikipedia): Verbesserte Wikipedia-Erkennung und Infobox-Parsing (v1.0.4)
- Domain-Key-Extraktion zur besseren Treffererkennung
- Scoring-Mechanismus zur Auswahl des besten Wikipedia-Artikels
- Erweiterter Infobox-Parser mit Label-Synonymen
- Validierung durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Versionierung der Ergebnisse mit Spaltenausgabe
2025-03-31 06:46:48 +00:00
418ed7e271 Verbessert: Wikipedia-Suchlogik erneut optimiert (Version 1.0.2)
- Wieder eingeführt: Kombination aus vollständigem Firmennamen, ersten zwei Wörtern und Domain-Fragment zur Suche
- Erhöhte Trefferwahrscheinlichkeit durch Titel-, Inhalts-, Domain- und Ähnlichkeitsprüfung
- Info aus Infobox (Branche & Umsatz) wird bevorzugt; Kategorien nur als Fallback
- Version in Spalte Q geschrieben zur Nachverfolgbarkeit
2025-03-31 06:12:53 +00:00
c85acec981 feat(wikipedia): Versionierung und Logging verbessert – Ausgabe enthält nun Version für Nachverfolgb
🧠 Refactoring: Einführung einer globalen VERSION-Konstante (1.0.0-wiki-only)

📅 Feature: Zeitstempel und Version werden nun zusätzlich in Google Sheet eingetragen

🛠️ Fix: sheet.update() erweitert, um die neue Spalte Q (Version) zu berücksichtigen

 Struktur: Code durchgängig vereinheitlicht und robuster gegen Fehler gemacht
2025-03-31 05:41:04 +00:00
6aa4704cb8 Verbesserte Wikipedia-Suche:
- Titelprüfung ergänzt: Namensfragmente müssen im Seitentitel vorkommen
- Validierungsmethode erweitert: Kombiniert Titel- und Inhaltsprüfung
- Präzisere Ergebnis-Auswahl durch Matching-Score
- Blacklist bewusst NICHT verwendet
- Leere oder fehlerhafte Wikipedia-Ergebnisse werden sicher erkannt und mit "k.A." ausgegeben
2025-03-30 18:40:44 +00:00
21d9eb41ef Wiki Debugging
Wikipedia-Validierung über validate_wikipedia_page ergänzt (stellt sicher, dass Seiteninhalt oder Domain zum Firmennamen passen).

Fallback-Parsing parse_infobox_with_fallback() eingebaut für robustere Extraktion von Branche/Umsatz.

Branchenbegriff-Erkennung verbessert (Synonyme wie „Tätigkeitsfeld“, „Industriezweig“ etc.).

Bedingte Auswertung verbessert: Wenn kein Wikipedia-Link → "k.A." für Branche/Umsatz.

Selektor-basierte Extraktion entfernt, da sie fehleranfällig war → durch flexible Infobox-Logik ersetzt.
2025-03-30 18:25:03 +00:00
e917ace53c Use Selector in Wiki
Selektor-basierte Extraktion für Branche und Umsatz ergänzt (parse_infobox_with_selector).

Fallback auf k.A. wenn Selektor nicht vorhanden ist.

get_wikipedia_data nutzt nun ausschließlich parse_infobox_with_selector für konsistente Ergebnisse.

Ausgabe an Google Sheet unverändert.

GPT-Teil wurde temporär entfernt, wie besprochen.
2025-03-30 18:13:15 +00:00
0dc40e119e Code in zwei Bereiche aufgeteilt
Aufteilung des Codes in zwei unabhängige Verarbeitungsschritte.

Wikipedia-Branche und Umsatz werden nur geschrieben, wenn Wikipedia-URL vorhanden ist.

GPT-Aufruf überarbeitet (inkl. Timeout und Retry-Logik).

gpt_antworten_log.csv wird mit Zeitstempel aktualisiert.
2025-03-30 17:42:46 +00:00
6b67bdf85d bugfix Deepsek2 2025-03-30 15:31:38 +00:00
59e64f41f5 bugfix deepseek 2025-03-30 15:29:54 +00:00
ecaf5a50ef Deepseek V2 2025-03-30 15:27:03 +00:00
70b47d65d4 Deepseek Aktualisierung 2025-03-30 12:38:39 +00:00