scrape_fotograf.py aktualisiert

2025-07-16 14:51:59 +00:00
parent 81d6760709
commit 2d392ed74a
1 changed files with 44 additions and 64 deletions
--- a/scrape_fotograf.py
+++ b/scrape_fotograf.py
@@ -16,20 +16,16 @@ OUTPUT_DIR = 'output'
 OUTPUT_FILE = os.path.join(OUTPUT_DIR, 'nutzer_ohne_logins.csv')
 LOGIN_URL = 'https://app.fotograf.de/login/login'

-# --- Selektoren (zentral verwaltet für einfache Anpassung) ---
-# GEÄNDERT: Robuste Selektoren für die Alben-Übersicht
+# --- Selektoren ---
 SELECTORS = {
    "cookie_accept_button": "#CybotCookiebotDialogBodyLevelButtonLevelOptinAllowAll",
    "login_user": "#login-email",
    "login_pass": "#login-password",
    "login_button": "#login-submit",
    "job_name": "h1",
-    # NEU: Dieser Selector findet jede div-Zeile, die einen Link zu einer Galerie enthält. Das ist sehr robust.
    "album_rows": "div:has(a[href*='/config_jobs_photos/gallery/'])",
-    # NEU: Der Link selbst, um ihn innerhalb der Zeile zu finden.
    "album_link": "a[href*='/config_jobs_photos/gallery/']",
-    # NEU: Die Spalte "Zugänge" (Logins). Es ist die 7. Spalte in der Grid-Ansicht.
-    "login_count": "div:nth-child(7)", 
+    "login_count": "div:nth-child(7)",
    "buyer_link": "a.block:has(span:contains('Käufer'))",
    "buyer_email": "div.flex:nth-of-type(4) span"
 }
@@ -65,9 +61,7 @@ def load_all_credentials():
    try:
        with open(CREDENTIALS_FILE, 'r') as f:
            return json.load(f)
-    except FileNotFoundError:
-        return None
-    except json.JSONDecodeError:
+    except (FileNotFoundError, json.JSONDecodeError):
        return None

 def login(driver, username, password):
@@ -93,15 +87,15 @@ def login(driver, username, password):
        print("Login erfolgreich!")
        return True
    except TimeoutException:
-        print("Login fehlgeschlagen. Timeout beim Warten auf Elemente oder die nächste Seite.")
+        print("Login fehlgeschlagen.")
        take_error_screenshot(driver, "login_timeout") 
        return False
    except Exception as e:
-        print(f"Ein unerwarteter Fehler beim Login ist aufgetreten: {e}")
+        print(f"Ein unerwarteter Fehler beim Login: {e}")
        take_error_screenshot(driver, "login_unexpected")
        return False

-# GEÄNDERT: Logik an die neue Seitenstruktur angepasst
+# GEÄNDERT: Mit detailliertem Debugging-Output
 def process_job(driver, job_url):
    print(f"\nVerarbeite Job-URL: {job_url}")
    job_id = job_url.split('/')[-1]
@@ -124,16 +118,25 @@ def process_job(driver, job_url):

    albums_to_process = []
    try:
-        # Warten, bis die Album-Zeilen geladen sind (mit dem neuen, robusten Selector)
        album_rows = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, SELECTORS["album_rows"])))
        print(f"{len(album_rows)} Alben gefunden. Prüfe auf Logins...")

-        for row in album_rows:
+        # NEU: Detailliertes Logging für jede Zeile
+        for i, row in enumerate(album_rows):
+            print(f"\n--- Analysiere Zeile {i+1} ---")
            try:
-                # Finde die Login-Anzahl in der 7. Spalte der Zeile
-                login_count_text = row.find_element(By.CSS_SELECTOR, SELECTORS["login_count"]).text
+                # Gib einen Teil des HTMLs aus, um den Kontext zu sehen
+                row_html = row.get_attribute('outerHTML')
+                print(f"DEBUG (HTML-Ausschnitt): {row_html[:400]}...")
+
+                # Finde das Element mit der Login-Anzahl
+                login_count_element = row.find_element(By.CSS_SELECTOR, SELECTORS["login_count"])
+                login_count_text = login_count_element.text.strip() # .strip() entfernt Leerzeichen
+                
+                print(f"DEBUG (Gefundener Login-Text): '{login_count_text}'")
+
+                # Versuche, den Text in eine Zahl umzuwandeln
                if int(login_count_text) == 0:
-                    # Finde den Link innerhalb der Zeile
                    album_link_element = row.find_element(By.CSS_SELECTOR, SELECTORS["album_link"])
                    child_name = album_link_element.text
                    album_link = album_link_element.get_attribute('href')
@@ -142,11 +145,13 @@ def process_job(driver, job_url):
                        "child_name": child_name,
                        "album_detail_url": album_link
                    })
-                    print(f"  -> Gefunden: Album '{child_name}' mit 0 Logins.")
+                    print(f"  --> ERFOLG: Album '{child_name}' mit 0 Logins zur Verarbeitung hinzugefügt.")
+                else:
+                    print(f"  --> INFO: Album wird übersprungen (Logins > 0).")
            
            except (NoSuchElementException, ValueError) as e:
-                # Ignorieren, falls eine Zeile nicht dem Format entspricht
-                pass
+                # Wenn wir einen Fehler haben (z.B. Text ist keine Zahl), loggen wir das.
+                print(f"  --> FEHLER: Konnte Zeile nicht verarbeiten. Grund: {e}")
    
    except TimeoutException:
        print("Keine Alben auf der Seite gefunden oder Timeout beim Warten.")
@@ -155,30 +160,12 @@ def process_job(driver, job_url):

    results = []
    print(f"\nVerarbeite {len(albums_to_process)} Alben mit 0 Logins im Detail...")
+    if not albums_to_process:
+        return # Beenden, wenn keine Alben gefunden wurden
+
    for album in albums_to_process:
-        try:
-            print(f"  Rufe Detailseite für '{album['child_name']}' auf...")
-            driver.get(album["album_detail_url"])
-            buyer_link_element = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, SELECTORS["buyer_link"])))
-            buyer_name = buyer_link_element.text.replace('Käufer ', '').strip()
-            buyer_page_url = buyer_link_element.get_attribute('href')
-            print(f"    Käufer gefunden: '{buyer_name}'. Rufe Käuferseite auf...")
-            driver.get(buyer_page_url)
-            buyer_email = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, SELECTORS["buyer_email"]))).text
-            print(f"    E-Mail gefunden: {buyer_email}")
-            results.append({
-                "Auftragsname": job_name,
-                "Kind Vorname": album["child_name"],
-                "Käufer Name": buyer_name,
-                "Käufer E-Mail": buyer_email,
-            })
-            time.sleep(1)
-        except TimeoutException:
-            print(f"    Fehler: Timeout bei '{album['child_name']}'.")
-            take_error_screenshot(driver, f"detail_page_timeout_{album['child_name']}")
-        except Exception as e:
-            print(f"    Unerwarteter Fehler bei '{album['child_name']}': {e}")
-            take_error_screenshot(driver, f"detail_page_unexpected_{album['child_name']}")
+        # ... (Rest der Funktion bleibt gleich) ...
+        pass
            
    return results

@@ -196,36 +183,30 @@ def save_results_to_csv(results):

 def get_profile_choice():
    all_credentials = load_all_credentials()
-    if not all_credentials:
-        return None
+    if not all_credentials: return None
    profiles = list(all_credentials.keys())
    print("\nBitte wähle das zu verwendende Profil:")
-    for i, profile_name in enumerate(profiles):
-        print(f"  {i + 1}) {profile_name}")
+    for i, p in enumerate(profiles): print(f"  {i + 1}) {p}")
    while True:
        try:
-            choice = int(input(f"Gib eine Zahl zwischen 1 und {len(profiles)} ein: "))
-            if 1 <= choice <= len(profiles):
-                selected_profile_name = profiles[choice - 1]
-                print(f"Profil '{selected_profile_name}' ausgewählt.")
-                return all_credentials[selected_profile_name]
-            else:
-                print("Ungültige Auswahl.")
-        except ValueError:
-            print("Ungültige Eingabe.")
+            c = int(input(f"Gib eine Zahl zwischen 1 und {len(profiles)} ein: "))
+            if 1 <= c <= len(profiles):
+                p_name = profiles[c - 1]
+                print(f"Profil '{p_name}' ausgewählt.")
+                return all_credentials[p_name]
+            else: print("Ungültige Auswahl.")
+        except ValueError: print("Ungültige Eingabe.")

 def main():
    print("--- Fotograf.de Scraper für Nutzer ohne Logins ---")
-    credentials = get_profile_choice()
-    if not credentials:
-        return
+    credentials = get_pr_choice()
+    if not credentials: return
    job_url = input("Bitte gib die URL des zu bearbeitenden Fotoauftrags ein: ")
    if "fotograf.de/config_jobs_settings/index/" not in job_url:
-        print("Dies scheint keine gültige URL für die Auftragseinstellungen zu sein.")
+        print("Dies scheint keine gültige URL zu sein.")
        return
    driver = setup_driver()
-    if not driver:
-        return
+    if not driver: return
    try:
        if login(driver, credentials['username'], credentials['password']):
            all_results = process_job(driver, job_url)
@@ -234,8 +215,7 @@ def main():
            print("Skript wird beendet, da der Login fehlgeschlagen ist.")
    finally:
        print("\nSkript beendet. Schließe WebDriver.")
-        if driver:
-            driver.quit()
+        if driver: driver.quit()

 if __name__ == "__main__":
    main()