dealfront_enrichment.py aktualisiert

2025-07-10 13:41:26 +00:00
parent 051a341323
commit c6e6b20f01
1 changed files with 36 additions and 36 deletions
--- a/dealfront_enrichment.py
+++ b/dealfront_enrichment.py
@@ -118,47 +118,47 @@ class DealfrontScraper:
            return False

        def extract_current_page_results(self):
-        """
-        Extrahiert Daten mit einem schnellen, direkten Ansatz, der Geister-Zeilen ignoriert.
-        """
-        try:
-            logger.info("Extrahiere Ergebnisse mit dem finalen, direkten Selektor-Ansatz...")
-            results = []
-            
-            # 1. Warten, bis die erste Daten-Zelle (Firmenname) sichtbar ist.
-            # Dies ist unser einziger Wartepunkt und bestätigt, dass die Daten geladen sind.
-            first_company_link_selector = (By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
-            self.wait.until(EC.visibility_of_element_located(first_company_link_selector))
-            
-            # 2. Finde ALLE Firmen-Links und ALLE Website-Links auf der Seite auf einmal.
-            # Das ist extrem schnell, da es nur zwei Suchbefehle an den Browser sind.
-            company_elements = self.driver.find_elements(By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
-            website_elements = self.driver.find_elements(By.CSS_SELECTOR, "a.text-gray-400.t-highlight-text")
+            """
+            Extrahiert Daten mit einem schnellen, direkten Ansatz, der Geister-Zeilen ignoriert.
+            """
+            try:
+                logger.info("Extrahiere Ergebnisse mit dem finalen, direkten Selektor-Ansatz...")
+                results = []
+                
+                # 1. Warten, bis die erste Daten-Zelle (Firmenname) sichtbar ist.
+                # Dies ist unser einziger Wartepunkt und bestätigt, dass die Daten geladen sind.
+                first_company_link_selector = (By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
+                self.wait.until(EC.visibility_of_element_located(first_company_link_selector))
+                
+                # 2. Finde ALLE Firmen-Links und ALLE Website-Links auf der Seite auf einmal.
+                # Das ist extrem schnell, da es nur zwei Suchbefehle an den Browser sind.
+                company_elements = self.driver.find_elements(By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
+                website_elements = self.driver.find_elements(By.CSS_SELECTOR, "a.text-gray-400.t-highlight-text")

-            logger.info(f"{len(company_elements)} Firmennamen und {len(website_elements)} Webseiten-Elemente gefunden.")
+                logger.info(f"{len(company_elements)} Firmennamen und {len(website_elements)} Webseiten-Elemente gefunden.")

-            # 3. Ordne die Ergebnisse anhand ihrer Reihenfolge im DOM zu.
-            # Wir gehen davon aus, dass die Anzahl übereinstimmt.
-            if not company_elements:
-                logger.warning("Keine Firmen mit dem angegebenen Selektor gefunden.")
+                # 3. Ordne die Ergebnisse anhand ihrer Reihenfolge im DOM zu.
+                # Wir gehen davon aus, dass die Anzahl übereinstimmt.
+                if not company_elements:
+                    logger.warning("Keine Firmen mit dem angegebenen Selektor gefunden.")
+                    self._save_debug_artifacts()
+                    return []
+
+                for i in range(len(company_elements)):
+                    company_name = company_elements[i].get_attribute("title").strip()
+                    # Wir ordnen die Webseite anhand des Indexes zu.
+                    # Wenn es weniger Webseiten als Firmen gibt, fangen wir das ab.
+                    website = website_elements[i].text.strip() if i < len(website_elements) else "N/A"
+                    results.append({'name': company_name, 'website': website})
+                
+                logger.info(f"Extraktion abgeschlossen. {len(results)} Firmen verarbeitet.")
+                return results
+                
+            except Exception as e:
+                logger.error(f"Schwerwiegender Fehler bei der Extraktion: {type(e).__name__}", exc_info=True)
                self._save_debug_artifacts()
                return []

-            for i in range(len(company_elements)):
-                company_name = company_elements[i].get_attribute("title").strip()
-                # Wir ordnen die Webseite anhand des Indexes zu.
-                # Wenn es weniger Webseiten als Firmen gibt, fangen wir das ab.
-                website = website_elements[i].text.strip() if i < len(website_elements) else "N/A"
-                results.append({'name': company_name, 'website': website})
-            
-            logger.info(f"Extraktion abgeschlossen. {len(results)} Firmen verarbeitet.")
-            return results
-            
-        except Exception as e:
-            logger.error(f"Schwerwiegender Fehler bei der Extraktion: {type(e).__name__}", exc_info=True)
-            self._save_debug_artifacts()
-            return []
-
    def close(self):
        if self.driver:
            logger.info("Schließe den WebDriver.")