Chat GPT Bugfix für Deepseek

2025-03-31 14:25:01 +00:00
parent 7db265bebe
commit 2bdcc5fa09
1 changed files with 105 additions and 102 deletions
--- a/brancheneinstufung.py
+++ b/brancheneinstufung.py
@@ -89,108 +89,7 @@ class GoogleSheetHandler:
        )
 # ==================== WIKIPEDIA SCRAPER ====================
-class WikipediaScraper:
+class_=lambda c: c and any(
    """Klasse zur Handhabung der Wikipedia-Suche und Datenextraktion"""
    def __init__(self):
        wikipedia.set_lang(Config.LANG)
    def _extract_domain_hint(self, website):
        """Extrahiert den Domain-Schlüssel aus der Website-URL"""
        if not website:
            return ""
        # Entferne Protokoll und www, zerlege in Teile
        clean_url = website.lower().replace("https://", "").replace("http://", "").replace("www.", "")
        domain_parts = clean_url.split(".")
        return domain_parts[0] if domain_parts else ""
    def _generate_search_terms(self, company_name, website_hint=""):
        """Generiert Suchbegriffe aus Firmenname und Website"""
        search_terms = [company_name.strip()]
        # Bereinigung von Rechtsformen und Sonderzeichen
        clean_name = re.sub(
            r'\s+(?:GmbH|AG|KG|OHG|e\.V\.|mbH|& Co\. KG| GmbH & Co\. KG).*$', 
            '', 
            company_name
        ).strip()
        # Füge bereinigten Namen hinzu, wenn unterschiedlich
        if clean_name and clean_name != company_name:
            search_terms.append(clean_name)
        # Extrahiere erste zwei relevante Wörter
        name_words = [w for w in re.split(r'\W+', clean_name) if w]
        if len(name_words) >= 2:
            search_terms.append(" ".join(name_words[:2]))
        # Domain-Hint hinzufügen
        domain_hint = self._extract_domain_hint(website_hint)
        if domain_hint and domain_hint not in ["de", "com", "org", "net"]:
            search_terms.append(domain_hint)
        debug_print(f"Generierte Suchbegriffe: {search_terms}")
        return list(set(search_terms))  # Duplikate entfernen
    def _validate_article(self, page, company_name, domain_hint=""):
        """Überprüft ob der Artikel zum Unternehmen passt"""
        # Normalisiere beide Namen
        page_title = re.sub(r'\(.*?\)', '', page.title).strip().lower()
        search_name = re.sub(r'[^a-zA-Z0-9äöüß ]', '', company_name).strip().lower()
        # Ähnlichkeitsprüfung
        similarity = SequenceMatcher(None, page_title, search_name).ratio()
        debug_print(f"Ähnlichkeit '{page_title}' vs '{search_name}': {similarity:.2f}")
        # Zusätzliche Domain-Prüfung
        if domain_hint:
            html_content = requests.get(page.url).text.lower()
            if domain_hint not in html_content:
                debug_print(f"Domain-Hint '{domain_hint}' nicht im Artikel gefunden")
                return False
        return similarity >= Config.SIMILARITY_THRESHOLD
    @retry_on_failure
    def search_company_article(self, company_name, website_hint=""):
        """Hauptfunktion zur Artikelsuche"""
        search_terms = self._generate_search_terms(company_name, website_hint)
        domain_hint = self._extract_domain_hint(website_hint)
        for term in search_terms:
            try:
                results = wikipedia.search(term, results=Config.WIKIPEDIA_SEARCH_RESULTS)
                debug_print(f"Suchergebnisse für '{term}': {results}")
                for title in results:
                    try:
                        page = wikipedia.page(title, auto_suggest=False)
                        if self._validate_article(page, company_name, domain_hint):
                            return page
                    except wikipedia.exceptions.DisambiguationError:
                        continue
            except Exception as e:
                debug_print(f"Fehler bei Suche nach {term}: {str(e)}")
                continue
        return None
    def extract_company_data(self, page_url):
        """Extrahiert Branche und Umsatz aus dem Wikipedia-Artikel"""
        response = requests.get(page_url)
        soup = BeautifulSoup(response.text, Config.HTML_PARSER)
        return {
            'branche': self._extract_infobox_value(soup, 'branche'),
            'umsatz': self._extract_infobox_value(soup, 'umsatz'),
            'url': page_url
        }
 # ==================== WIKIPEDIA SCRAPER ====================
 class WikipediaScraper:
    def _extract_infobox_value(self, soup, target):
        """Extrahiert spezifischen Wert aus der Infobox mit erweiterten Suchmustern"""
        # Erweiterte Infobox-Erkennung
        infobox = soup.find('table', class_=lambda c: c and any(
            kw in c.lower() for kw in ['infobox', 'vcard', 'unternehmen']
        ))
@@ -239,6 +138,110 @@ class WikipediaScraper:
        return "k.A."
 class WikipediaScraper:
    def __init__(self):
        wikipedia.set_lang(Config.LANG)
    def _extract_domain_hint(self, website):
            """Extrahiert den Domain-Schlüssel aus der Website-URL"""
            if not website:
                return ""
            # Entferne Protokoll und www, zerlege in Teile
            clean_url = website.lower().replace("https://", "").replace("http://", "").replace("www.", "")
            domain_parts = clean_url.split(".")
            return domain_parts[0] if domain_parts else ""
    def _generate_search_terms(self, company_name, website_hint=""):
            """Generiert Suchbegriffe aus Firmenname und Website"""
            search_terms = [company_name.strip()]
            # Bereinigung von Rechtsformen und Sonderzeichen
            clean_name = re.sub(
                r'\s+(?:GmbH|AG|KG|OHG|e\.V\.|mbH|& Co\. KG| GmbH & Co\. KG).*$', 
                '', 
                company_name
            ).strip()
            # Füge bereinigten Namen hinzu, wenn unterschiedlich
            if clean_name and clean_name != company_name:
                search_terms.append(clean_name)
            # Extrahiere erste zwei relevante Wörter
            name_words = [w for w in re.split(r'\W+', clean_name) if w]
            if len(name_words) >= 2:
                search_terms.append(" ".join(name_words[:2]))
            # Domain-Hint hinzufügen
            domain_hint = self._extract_domain_hint(website_hint)
            if domain_hint and domain_hint not in ["de", "com", "org", "net"]:
                search_terms.append(domain_hint)
            debug_print(f"Generierte Suchbegriffe: {search_terms}")
            return list(set(search_terms))  # Duplikate entfernen
    def _validate_article(self, page, company_name, domain_hint=""):
            """Überprüft ob der Artikel zum Unternehmen passt"""
            # Normalisiere beide Namen
            page_title = re.sub(r'\(.*?\)', '', page.title).strip().lower()
            search_name = re.sub(r'[^a-zA-Z0-9äöüß ]', '', company_name).strip().lower()
            # Ähnlichkeitsprüfung
            similarity = SequenceMatcher(None, page_title, search_name).ratio()
            debug_print(f"Ähnlichkeit '{page_title}' vs '{search_name}': {similarity:.2f}")
            # Zusätzliche Domain-Prüfung
            if domain_hint:
                html_content = requests.get(page.url).text.lower()
                if domain_hint not in html_content:
                    debug_print(f"Domain-Hint '{domain_hint}' nicht im Artikel gefunden")
                    return False
            return similarity >= Config.SIMILARITY_THRESHOLD
        @retry_on_failure
    def search_company_article(self, company_name, website_hint=""):
            """Hauptfunktion zur Artikelsuche"""
            search_terms = self._generate_search_terms(company_name, website_hint)
            domain_hint = self._extract_domain_hint(website_hint)
            for term in search_terms:
                try:
                    results = wikipedia.search(term, results=Config.WIKIPEDIA_SEARCH_RESULTS)
                    debug_print(f"Suchergebnisse für '{term}': {results}")
                    for title in results:
                        try:
                            page = wikipedia.page(title, auto_suggest=False)
                            if self._validate_article(page, company_name, domain_hint):
                                return page
                        except wikipedia.exceptions.DisambiguationError:
                            continue
                except Exception as e:
                    debug_print(f"Fehler bei Suche nach {term}: {str(e)}")
                    continue
            return None
    def extract_company_data(self, page_url):
            """Extrahiert Branche und Umsatz aus dem Wikipedia-Artikel"""
            response = requests.get(page_url)
            soup = BeautifulSoup(response.text, Config.HTML_PARSER)
            return {
                'branche': self._extract_infobox_value(soup, 'branche'),
                'umsatz': self._extract_infobox_value(soup, 'umsatz'),
                'url': page_url
            }
    # ==================== WIKIPEDIA SCRAPER ====================
    class WikipediaScraper:
    def _extract_infobox_value(self, soup, target):
            """Extrahiert spezifischen Wert aus der Infobox mit erweiterten Suchmustern"""
            # Erweiterte Infobox-Erkennung
            infobox = soup.find('table',
 # ==================== DATA PROCESSOR ====================
 class DataProcessor:
    """Klasse zur Steuerung des Gesamtprozesses"""