URL normalisierung

2025-04-09 05:27:31 +00:00
parent 6e768a092b
commit 621cc67df7
1 changed files with 41 additions and 6 deletions
--- a/brancheneinstufung.py
+++ b/brancheneinstufung.py
@@ -61,14 +61,48 @@ def retry_on_failure(func):
 # ==================== LOGGING & HELPER FUNCTIONS ====================
 def simple_normalize_url(url):
    """
    Normalisiert einen URL-String und gibt nur 'www.domain.tld' zurück.
    - Entfernt das Schema (http://, https://)
    - Schneidet den Pfad und eventuelle Portinformationen ab
    - Fügt 'www.' hinzu, falls es fehlt.
    Args:
        url (str): Der Original-URL-String.
    Returns:
        str: Normalisierte URL im Format 'www.domain.tld' oder "k.A.", falls etwas fehlschlägt.
    """
    if not url:
        return "k.A."
    # Falls kein Schema vorhanden ist, hinzufügen
    if not url.lower().startswith("http"):
        url = "https://" + url
    try:
        # Entferne das Schema
        parts = url.split("://", 1)
        domain_part = parts[1] if len(parts) > 1 else parts[0]
        # Entferne den Pfad (alles ab dem ersten "/")
        domain_part = domain_part.split("/", 1)[0]
        # Entferne einen eventuellen Port (z.B. ":8080")
        domain_part = domain_part.split(":", 1)[0]
        # Wenn die Domain nicht mit "www." beginnt, hinzufügen
        if not domain_part.lower().startswith("www."):
            domain_part = "www." + domain_part
        return domain_part
    except Exception as e:
        return "k.A."
 def serp_website_lookup(company_name):
    """
    Ermittelt über SERPAPI (Google-Suche) die Website zum Unternehmen.
-    - Verwendet als Query den Firmennamen.
+    - Verwendet als Query den Firmennamen mit dem Zusatz "Website".
    - Filtert Ergebnisse anhand einer Blacklist (z.B. bloomberg.com, northdata.de, finanzen.net, handelsblatt.com).
    - Gibt die normalisierte Website-URL (im Format "www.domain.tld") zurück.
    Returns:
-        Die gefundene Website-URL oder "k.A.", falls kein passendes Ergebnis gefunden wurde.
+        str: Normalisierte Website-URL oder "k.A.", falls kein passendes Ergebnis gefunden wurde.
    """
    # Blacklist unerwünschter Domains
    blacklist = ["bloomberg.com", "northdata.de", "finanzen.net", "handelsblatt.com"]
@@ -92,10 +126,11 @@ def serp_website_lookup(company_name):
        if "organic_results" in data:
            for result in data["organic_results"]:
                url = result.get("link", "")
-                # Filtere Ergebnisse, die in der Blacklist stehen
+                # Überprüfen, ob die URL nicht in der Blacklist enthalten ist
                if url and not any(bad in url for bad in blacklist):
-                    debug_print(f"SERP-Website Lookup: Gefundene Website '{url}' für {company_name}")
+                    normalized_url = simple_normalize_url(url)
-                    return url
+                    debug_print(f"SERP-Website Lookup: Gefundene Website '{normalized_url}' für {company_name}")
                    return normalized_url
        return "k.A."
    except Exception as e:
        debug_print(f"Fehler beim SERP-API Website Lookup für {company_name}: {e}")