scrape_fotograf.py aktualisiert

This commit is contained in:
2025-07-16 19:23:10 +00:00
parent 19d29e932d
commit 9b339cc97c

View File

@@ -3,7 +3,7 @@ import os
import time
import csv
import math
import re # NEU: Modul für reguläre Ausdrücke importieren
import re # Modul für reguläre Ausdrücke
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
@@ -37,6 +37,7 @@ SELECTORS = {
"buyer_email": "//span[contains(., '@')]"
}
# --- Hilfsfunktionen (unverändert) ---
def take_error_screenshot(driver, error_name):
os.makedirs(OUTPUT_DIR, exist_ok=True)
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
@@ -96,16 +97,20 @@ def login(driver, username, password):
take_error_screenshot(driver, "login_error")
return False
# --- Hauptlogik (unverändert) ---
def process_full_job(driver, job_url):
wait = WebDriverWait(driver, 15)
# Der Job-Name wird von der Einstellungs-Seite geholt, da diese stabil ist.
# Wir konstruieren die URL aus der eingegebenen URL, egal welche es war.
try:
job_id = re.search(r'/(\d+)$', job_url).group(1)
job_id_match = re.search(r'/(\d+)', job_url)
if not job_id_match:
raise ValueError("Konnte keine numerische Job-ID finden.")
job_id = job_id_match.group(1)
# Wir konstruieren die Einstellungs-URL, um den Job-Namen zu holen
settings_url = f"https://app.fotograf.de/config_jobs_settings/index/{job_id}"
except (AttributeError, IndexError):
print(f"!!! FEHLER: Konnte keine Job-ID aus der URL '{job_url}' extrahieren.")
except (AttributeError, IndexError, ValueError) as e:
print(f"!!! FEHLER: Konnte keine Job-ID aus der URL '{job_url}' extrahieren. Grund: {e}")
return []
print(f"\nVerarbeite Job-ID: {job_id}")
@@ -242,6 +247,7 @@ def get_profile_choice():
else: print("Ungültige Auswahl.")
except ValueError: print("Ungültige Eingabe.")
# --- Finale, korrigierte main-Funktion ---
def main():
print("--- Fotograf.de Scraper für Nutzer mit wenig Logins (0 oder 1) ---")
credentials = get_profile_choice()
@@ -249,15 +255,15 @@ def main():
job_url_raw = input("Bitte gib eine beliebige URL des zu bearbeitenden Fotoauftrags ein: ")
# NEU: Robuste URL-Extraktion mit Regex, um Terminal-Steuerzeichen zu entfernen
match = re.search(r'https?://[^\s]+', job_url_raw)
# NEU: Kugelsichere URL-Extraktion mit Regex, um Terminal-Steuerzeichen zu entfernen
match = re.search(r'(https?://[^\s]+)', job_url_raw)
if not match:
print("Keine gültige URL in der Eingabe gefunden.")
return
job_url = match.group(0)
job_url = match.group(1).strip()
# NEU: Flexible Überprüfung, die jede Job-Seite akzeptiert
if "fotograf.de/config_jobs_" not in job_url:
# NEU: Flexiblere Überprüfung
if "fotograf.de/config_jobs_" not in job_url or not re.search(r'/\d+', job_url):
print("Dies scheint keine gültige URL für einen Fotoauftrag zu sein.")
return