data_processor.py aktualisiert
This commit is contained in:
@@ -1984,22 +1984,25 @@ class DataProcessor:
|
|||||||
self.logger.info(
|
self.logger.info(
|
||||||
f"Wikipedia-Verifizierungs-Batch abgeschlossen. {processed_count} Zeilen verarbeitet (in Batch aufgenommen), {skipped_count} Zeilen uebersprungen ({skipped_no_wiki_url} wegen fehlender M-URL).") # <<< GEÄNDERT
|
f"Wikipedia-Verifizierungs-Batch abgeschlossen. {processed_count} Zeilen verarbeitet (in Batch aufgenommen), {skipped_count} Zeilen uebersprungen ({skipped_no_wiki_url} wegen fehlender M-URL).") # <<< GEÄNDERT
|
||||||
|
|
||||||
def _scrape_raw_text_task(self, task_info, scrape_function):
|
def _scrape_website_task(self, task_info):
|
||||||
"""
|
"""
|
||||||
Worker-Funktion für das parallele Scrapen.
|
Worker-Funktion für das parallele Scrapen von Websites.
|
||||||
Passt sich an, um sowohl Rohtext als auch Meta-Details zu liefern.
|
Ruft die "gehärteten" Helper-Funktionen auf und gibt IMMER ein Dictionary zurück.
|
||||||
"""
|
"""
|
||||||
url = task_info.get('url')
|
url = task_info.get('url')
|
||||||
row_num = task_info.get('row_num')
|
row_num = task_info.get('row_num')
|
||||||
self.logger.debug(f" -> Scrape Task gestartet für Zeile {row_num}: {url}")
|
self.logger.debug(f" -> Scrape Task gestartet für Zeile {row_num}: {url}")
|
||||||
try:
|
|
||||||
# Wir rufen jetzt zwei Helper-Funktionen auf
|
# Rufe die gehärteten Helper-Funktionen auf.
|
||||||
raw_text = get_website_raw(url)
|
# Diese geben garantiert immer einen String zurück.
|
||||||
meta_details = scrape_website_details(url)
|
raw_text_result = get_website_raw(url)
|
||||||
return {'row_num': row_num, 'raw_text': raw_text, 'meta_details': meta_details, 'error': None}
|
meta_details_result = scrape_website_details(url)
|
||||||
except Exception as e:
|
|
||||||
self.logger.error(f"Fehler im Scraping Worker für Zeile {row_num}: {e}")
|
# Gib immer ein Dictionary zurück, um den AttributeError im Hauptthread zu vermeiden.
|
||||||
return {'row_num': row_num, 'raw_text': f'k.A. (Fehler: {e})', 'meta_details': 'k.A.', 'error': True}
|
return {
|
||||||
|
'raw_text': raw_text_result,
|
||||||
|
'meta_details': meta_details_result
|
||||||
|
}
|
||||||
|
|
||||||
def process_website_scraping(
|
def process_website_scraping(
|
||||||
self,
|
self,
|
||||||
|
|||||||
Reference in New Issue
Block a user