scrape_fotograf.py aktualisiert

2025-07-16 14:51:59 +00:00
parent 81d6760709
commit 2d392ed74a
1 changed files with 44 additions and 64 deletions
--- a/scrape_fotograf.py
+++ b/scrape_fotograf.py
@@ -16,20 +16,16 @@ OUTPUT_DIR = 'output'
 OUTPUT_FILE = os.path.join(OUTPUT_DIR, 'nutzer_ohne_logins.csv')
 LOGIN_URL = 'https://app.fotograf.de/login/login'
-# --- Selektoren (zentral verwaltet für einfache Anpassung) ---
+# --- Selektoren ---
 # GEÄNDERT: Robuste Selektoren für die Alben-Übersicht
 SELECTORS = {
    "cookie_accept_button": "#CybotCookiebotDialogBodyLevelButtonLevelOptinAllowAll",
    "login_user": "#login-email",
    "login_pass": "#login-password",
    "login_button": "#login-submit",
    "job_name": "h1",
    # NEU: Dieser Selector findet jede div-Zeile, die einen Link zu einer Galerie enthält. Das ist sehr robust.
    "album_rows": "div:has(a[href*='/config_jobs_photos/gallery/'])",
    # NEU: Der Link selbst, um ihn innerhalb der Zeile zu finden.
    "album_link": "a[href*='/config_jobs_photos/gallery/']",
-    # NEU: Die Spalte "Zugänge" (Logins). Es ist die 7. Spalte in der Grid-Ansicht.
+    "login_count": "div:nth-child(7)",
    "login_count": "div:nth-child(7)", 
    "buyer_link": "a.block:has(span:contains('Käufer'))",
    "buyer_email": "div.flex:nth-of-type(4) span"
 }
@@ -65,9 +61,7 @@ def load_all_credentials():
    try:
        with open(CREDENTIALS_FILE, 'r') as f:
            return json.load(f)
-    except FileNotFoundError:
+    except (FileNotFoundError, json.JSONDecodeError):
        return None
    except json.JSONDecodeError:
        return None
 def login(driver, username, password):
@@ -93,15 +87,15 @@ def login(driver, username, password):
        print("Login erfolgreich!")
        return True
    except TimeoutException:
-        print("Login fehlgeschlagen. Timeout beim Warten auf Elemente oder die nächste Seite.")
+        print("Login fehlgeschlagen.")
        take_error_screenshot(driver, "login_timeout") 
        return False
    except Exception as e:
-        print(f"Ein unerwarteter Fehler beim Login ist aufgetreten: {e}")
+        print(f"Ein unerwarteter Fehler beim Login: {e}")
        take_error_screenshot(driver, "login_unexpected")
        return False
-# GEÄNDERT: Logik an die neue Seitenstruktur angepasst
+# GEÄNDERT: Mit detailliertem Debugging-Output
 def process_job(driver, job_url):
    print(f"\nVerarbeite Job-URL: {job_url}")
    job_id = job_url.split('/')[-1]
@@ -124,16 +118,25 @@ def process_job(driver, job_url):
    albums_to_process = []
    try:
        # Warten, bis die Album-Zeilen geladen sind (mit dem neuen, robusten Selector)
        album_rows = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, SELECTORS["album_rows"])))
        print(f"{len(album_rows)} Alben gefunden. Prüfe auf Logins...")
-        for row in album_rows:
+        # NEU: Detailliertes Logging für jede Zeile
        for i, row in enumerate(album_rows):
            print(f"\n--- Analysiere Zeile {i+1} ---")
            try:
-                # Finde die Login-Anzahl in der 7. Spalte der Zeile
+                # Gib einen Teil des HTMLs aus, um den Kontext zu sehen
-                login_count_text = row.find_element(By.CSS_SELECTOR, SELECTORS["login_count"]).text
+                row_html = row.get_attribute('outerHTML')
                print(f"DEBUG (HTML-Ausschnitt): {row_html[:400]}...")
                # Finde das Element mit der Login-Anzahl
                login_count_element = row.find_element(By.CSS_SELECTOR, SELECTORS["login_count"])
                login_count_text = login_count_element.text.strip() # .strip() entfernt Leerzeichen
                print(f"DEBUG (Gefundener Login-Text): '{login_count_text}'")
                # Versuche, den Text in eine Zahl umzuwandeln
                if int(login_count_text) == 0:
                    # Finde den Link innerhalb der Zeile
                    album_link_element = row.find_element(By.CSS_SELECTOR, SELECTORS["album_link"])
                    child_name = album_link_element.text
                    album_link = album_link_element.get_attribute('href')
@@ -142,11 +145,13 @@ def process_job(driver, job_url):
                        "child_name": child_name,
                        "album_detail_url": album_link
                    })
-                    print(f"  -> Gefunden: Album '{child_name}' mit 0 Logins.")
+                    print(f"  --> ERFOLG: Album '{child_name}' mit 0 Logins zur Verarbeitung hinzugefügt.")
                else:
                    print(f"  --> INFO: Album wird übersprungen (Logins > 0).")
            except (NoSuchElementException, ValueError) as e:
-                # Ignorieren, falls eine Zeile nicht dem Format entspricht
+                # Wenn wir einen Fehler haben (z.B. Text ist keine Zahl), loggen wir das.
-                pass
+                print(f"  --> FEHLER: Konnte Zeile nicht verarbeiten. Grund: {e}")
    except TimeoutException:
        print("Keine Alben auf der Seite gefunden oder Timeout beim Warten.")
@@ -155,30 +160,12 @@ def process_job(driver, job_url):
    results = []
    print(f"\nVerarbeite {len(albums_to_process)} Alben mit 0 Logins im Detail...")
    if not albums_to_process:
        return # Beenden, wenn keine Alben gefunden wurden
    for album in albums_to_process:
-        try:
+        # ... (Rest der Funktion bleibt gleich) ...
-            print(f"  Rufe Detailseite für '{album['child_name']}' auf...")
+        pass
            driver.get(album["album_detail_url"])
            buyer_link_element = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, SELECTORS["buyer_link"])))
            buyer_name = buyer_link_element.text.replace('Käufer ', '').strip()
            buyer_page_url = buyer_link_element.get_attribute('href')
            print(f"    Käufer gefunden: '{buyer_name}'. Rufe Käuferseite auf...")
            driver.get(buyer_page_url)
            buyer_email = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, SELECTORS["buyer_email"]))).text
            print(f"    E-Mail gefunden: {buyer_email}")
            results.append({
                "Auftragsname": job_name,
                "Kind Vorname": album["child_name"],
                "Käufer Name": buyer_name,
                "Käufer E-Mail": buyer_email,
            })
            time.sleep(1)
        except TimeoutException:
            print(f"    Fehler: Timeout bei '{album['child_name']}'.")
            take_error_screenshot(driver, f"detail_page_timeout_{album['child_name']}")
        except Exception as e:
            print(f"    Unerwarteter Fehler bei '{album['child_name']}': {e}")
            take_error_screenshot(driver, f"detail_page_unexpected_{album['child_name']}")
    return results
@@ -196,36 +183,30 @@ def save_results_to_csv(results):
 def get_profile_choice():
    all_credentials = load_all_credentials()
-    if not all_credentials:
+    if not all_credentials: return None
        return None
    profiles = list(all_credentials.keys())
    print("\nBitte wähle das zu verwendende Profil:")
-    for i, profile_name in enumerate(profiles):
+    for i, p in enumerate(profiles): print(f"  {i + 1}) {p}")
        print(f"  {i + 1}) {profile_name}")
    while True:
        try:
-            choice = int(input(f"Gib eine Zahl zwischen 1 und {len(profiles)} ein: "))
+            c = int(input(f"Gib eine Zahl zwischen 1 und {len(profiles)} ein: "))
-            if 1 <= choice <= len(profiles):
+            if 1 <= c <= len(profiles):
-                selected_profile_name = profiles[choice - 1]
+                p_name = profiles[c - 1]
-                print(f"Profil '{selected_profile_name}' ausgewählt.")
+                print(f"Profil '{p_name}' ausgewählt.")
-                return all_credentials[selected_profile_name]
+                return all_credentials[p_name]
-            else:
+            else: print("Ungültige Auswahl.")
-                print("Ungültige Auswahl.")
+        except ValueError: print("Ungültige Eingabe.")
        except ValueError:
            print("Ungültige Eingabe.")
 def main():
    print("--- Fotograf.de Scraper für Nutzer ohne Logins ---")
-    credentials = get_profile_choice()
+    credentials = get_pr_choice()
-    if not credentials:
+    if not credentials: return
        return
    job_url = input("Bitte gib die URL des zu bearbeitenden Fotoauftrags ein: ")
    if "fotograf.de/config_jobs_settings/index/" not in job_url:
-        print("Dies scheint keine gültige URL für die Auftragseinstellungen zu sein.")
+        print("Dies scheint keine gültige URL zu sein.")
        return
    driver = setup_driver()
-    if not driver:
+    if not driver: return
        return
    try:
        if login(driver, credentials['username'], credentials['password']):
            all_results = process_job(driver, job_url)
@@ -234,8 +215,7 @@ def main():
            print("Skript wird beendet, da der Login fehlgeschlagen ist.")
    finally:
        print("\nSkript beendet. Schließe WebDriver.")
-        if driver:
+        if driver: driver.quit()
            driver.quit()
 if __name__ == "__main__":
    main()