dealfront_enrichment.py aktualisiert

2025-07-10 13:41:26 +00:00
parent 051a341323
commit c6e6b20f01
1 changed files with 36 additions and 36 deletions
--- a/dealfront_enrichment.py
+++ b/dealfront_enrichment.py
@@ -118,47 +118,47 @@ class DealfrontScraper:
            return False
        def extract_current_page_results(self):
-        """
+            """
-        Extrahiert Daten mit einem schnellen, direkten Ansatz, der Geister-Zeilen ignoriert.
+            Extrahiert Daten mit einem schnellen, direkten Ansatz, der Geister-Zeilen ignoriert.
-        """
+            """
-        try:
+            try:
-            logger.info("Extrahiere Ergebnisse mit dem finalen, direkten Selektor-Ansatz...")
+                logger.info("Extrahiere Ergebnisse mit dem finalen, direkten Selektor-Ansatz...")
-            results = []
+                results = []
-            
+                
-            # 1. Warten, bis die erste Daten-Zelle (Firmenname) sichtbar ist.
+                # 1. Warten, bis die erste Daten-Zelle (Firmenname) sichtbar ist.
-            # Dies ist unser einziger Wartepunkt und bestätigt, dass die Daten geladen sind.
+                # Dies ist unser einziger Wartepunkt und bestätigt, dass die Daten geladen sind.
-            first_company_link_selector = (By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
+                first_company_link_selector = (By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
-            self.wait.until(EC.visibility_of_element_located(first_company_link_selector))
+                self.wait.until(EC.visibility_of_element_located(first_company_link_selector))
-            
+                
-            # 2. Finde ALLE Firmen-Links und ALLE Website-Links auf der Seite auf einmal.
+                # 2. Finde ALLE Firmen-Links und ALLE Website-Links auf der Seite auf einmal.
-            # Das ist extrem schnell, da es nur zwei Suchbefehle an den Browser sind.
+                # Das ist extrem schnell, da es nur zwei Suchbefehle an den Browser sind.
-            company_elements = self.driver.find_elements(By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
+                company_elements = self.driver.find_elements(By.CSS_SELECTOR, "td.sticky-column a.t-highlight-text")
-            website_elements = self.driver.find_elements(By.CSS_SELECTOR, "a.text-gray-400.t-highlight-text")
+                website_elements = self.driver.find_elements(By.CSS_SELECTOR, "a.text-gray-400.t-highlight-text")
-            logger.info(f"{len(company_elements)} Firmennamen und {len(website_elements)} Webseiten-Elemente gefunden.")
+                logger.info(f"{len(company_elements)} Firmennamen und {len(website_elements)} Webseiten-Elemente gefunden.")
-            # 3. Ordne die Ergebnisse anhand ihrer Reihenfolge im DOM zu.
+                # 3. Ordne die Ergebnisse anhand ihrer Reihenfolge im DOM zu.
-            # Wir gehen davon aus, dass die Anzahl übereinstimmt.
+                # Wir gehen davon aus, dass die Anzahl übereinstimmt.
-            if not company_elements:
+                if not company_elements:
-                logger.warning("Keine Firmen mit dem angegebenen Selektor gefunden.")
+                    logger.warning("Keine Firmen mit dem angegebenen Selektor gefunden.")
                    self._save_debug_artifacts()
                    return []
                for i in range(len(company_elements)):
                    company_name = company_elements[i].get_attribute("title").strip()
                    # Wir ordnen die Webseite anhand des Indexes zu.
                    # Wenn es weniger Webseiten als Firmen gibt, fangen wir das ab.
                    website = website_elements[i].text.strip() if i < len(website_elements) else "N/A"
                    results.append({'name': company_name, 'website': website})
                logger.info(f"Extraktion abgeschlossen. {len(results)} Firmen verarbeitet.")
                return results
            except Exception as e:
                logger.error(f"Schwerwiegender Fehler bei der Extraktion: {type(e).__name__}", exc_info=True)
                self._save_debug_artifacts()
                return []
            for i in range(len(company_elements)):
                company_name = company_elements[i].get_attribute("title").strip()
                # Wir ordnen die Webseite anhand des Indexes zu.
                # Wenn es weniger Webseiten als Firmen gibt, fangen wir das ab.
                website = website_elements[i].text.strip() if i < len(website_elements) else "N/A"
                results.append({'name': company_name, 'website': website})
            logger.info(f"Extraktion abgeschlossen. {len(results)} Firmen verarbeitet.")
            return results
        except Exception as e:
            logger.error(f"Schwerwiegender Fehler bei der Extraktion: {type(e).__name__}", exc_info=True)
            self._save_debug_artifacts()
            return []
    def close(self):
        if self.driver:
            logger.info("Schließe den WebDriver.")