Commit Graph

97 Commits

Author SHA1 Message Date
145153e471 data_processor.py aktualisiert 2025-07-28 13:28:15 +00:00
189d692cef data_processor.py aktualisiert 2025-07-28 13:04:35 +00:00
a5b246998c data_processor.py aktualisiert 2025-07-28 13:01:58 +00:00
9757ad02a4 data_processor.py aktualisiert 2025-07-28 12:45:02 +00:00
986dca714c Implementierung der Batch-Brancheneinstufung zur Kostenoptimierung
- FEATURE: Brancheneinstufung erfolgt nun in Batches (z.B. 20 Unternehmen pro API-Call), um die Token-Kosten drastisch zu senken.
- REFACTOR: Neue Funktion `evaluate_branches_batch` in `helpers.py` erstellt, die den komplexen Batch-Prompt generiert.
- REFACTOR: `reclassify_all_branches` in `data_processor.py` überarbeitet, um die Batch-Verarbeitung und das Ergebnis-Mapping zu steuern.
2025-07-28 12:43:36 +00:00
65b268c50c data_processor.py aktualisiert 2025-07-28 11:13:25 +00:00
f6e5a59cb3 Implementierung der kontextbasierten Brancheneinstufung
- FEATURE: Brancheneinstufung 2.0 implementiert; nutzt nun die reichhaltigen Definitionen und Beispiele aus `config.py` für ein hochpräzises, kontextuelles Matching.
- REFACTOR: `evaluate_branche_chatgpt` in `helpers.py` komplett neugeschrieben; gibt nun eine detaillierte Begründung für die Zuordnung zurück.
- FEATURE: Neuer Batch-Modus `reclassify_branches` in `data_processor.py` hinzugefügt, um eine vollständige Neubewertung aller Accounts zu ermöglichen.
2025-07-28 09:49:51 +00:00
dd09d5e268 Feat: Add thin content and cookie banner detection
- Enhances the `_scrape_website_task_batch` worker to improve data quality assessment.
- Implements a "Thin Content" check: If the extracted text is less than 200 characters, the URL status is set to `URL_SCRAPE_THIN_CONTENT`.
- Adds a heuristic for detecting cookie banners: If the text is short (< 500 chars) and contains a high density of cookie-related keywords, the status is set to `URL_SCRAPE_COOKIE_BANNER`.
- These new statuses provide more granular insights into scraping issues, allowing for better-targeted reprocessing and quality control.
2025-07-20 19:22:11 +00:00
7d426f0d86 data_processor.py aktualisiert 2025-07-20 18:22:26 +00:00
9161b7dfe0 data_processor.py aktualisiert 2025-07-20 12:46:55 +00:00
a69dee0218 data_processor.py aktualisiert 2025-07-20 12:42:23 +00:00
9278ff01e0 data_processor.py aktualisiert 2025-07-20 12:41:31 +00:00
5c6d2581a6 data_processor.py aktualisiert 2025-07-20 12:37:45 +00:00
5e50c33b62 data_processor.py aktualisiert 2025-07-20 10:43:42 +00:00
31389b97f0 großes rework, vieles gelöscht
- Refactors the website scraping batch process to fix critical stability issues.
- Replaces multiple redundant and conflicting scraping functions (`_scrape_website_task`, `_scrape_raw_text_task`, `_scrape_and_summarize_task`) with a single, robust worker function: `_scrape_website_task_batch`.
- The new worker function now consistently returns a structured dictionary, resolving the `TypeError` that prevented results from being written to the sheet.
- The main batch function `process_website_scraping_batch` is updated to correctly handle this new dictionary structure, including error states.
- Functionality is now aligned with the single-row processing mode by also fetching meta-details in the batch process, not just raw text.
- The two large, duplicated, and now obsolete `process_website_scraping` functions have been removed to improve code clarity and maintainability.
2025-07-20 09:18:49 +00:00
9753a17405 data_processor.py aktualisiert 2025-07-20 08:49:15 +00:00
8684db60ce data_processor.py aktualisiert 2025-07-20 08:47:54 +00:00
1fb722ac56 data_processor.py aktualisiert 2025-07-20 08:33:21 +00:00
a8de588ed7 data_processor.py aktualisiert 2025-07-20 08:05:15 +00:00
10e47b7f66 data_processor.py aktualisiert 2025-07-20 07:57:06 +00:00
7818de3cb8 data_processor.py aktualisiert 2025-07-20 07:56:31 +00:00
f9b1ffa405 data_processor.py aktualisiert 2025-07-20 07:52:24 +00:00
224a205a3c data_processor.py aktualisiert 2025-07-20 07:48:03 +00:00
f61b20e4af data_processor.py aktualisiert 2025-07-20 07:46:35 +00:00
7ad517e71b data_processor.py aktualisiert 2025-07-20 07:40:30 +00:00
977a130e0c data_processor.py aktualisiert 2025-07-20 07:21:01 +00:00
c4731635b3 data_processor.py aktualisiert 2025-07-20 06:04:56 +00:00
6f21ab9eb1 data_processor.py aktualisiert 2025-07-20 06:03:11 +00:00
015dab0e3a data_processor.py aktualisiert 2025-07-20 05:26:00 +00:00
ceb22fb317 data_processor.py aktualisiert 2025-07-20 04:47:04 +00:00
7555ba31d8 data_processor.py aktualisiert 2025-07-20 04:28:51 +00:00
b5ba9b1e39 data_processor.py aktualisiert 2025-07-19 20:25:35 +00:00
e5749d46f9 data_processor.py aktualisiert 2025-07-19 20:24:50 +00:00
fe6cdb8fd7 data_processor.py aktualisiert 2025-07-19 20:23:56 +00:00
51ae25f076 data_processor.py aktualisiert 2025-07-19 20:03:28 +00:00
09ad335815 data_processor.py aktualisiert 2025-07-19 19:56:18 +00:00
ccd6740984 Regex anpassung
COLUMN_MAP\["([^"]+)"\]
get_col_idx("$1")
2025-07-19 19:45:01 +00:00
0c814944af data_processor.py aktualisiert 2025-07-19 19:14:16 +00:00
785a4d5a42 data_processor.py aktualisiert 2025-07-19 18:42:41 +00:00
3c343caddf Anpassung reeval 2025-07-19 15:38:56 +00:00
086655720c Anpassung Verify Wiki 2025-07-19 15:25:34 +00:00
5563fcca97 data_processor.py aktualisiert 2025-07-18 18:09:22 +00:00
0025933515 data_processor.py aktualisiert 2025-07-18 16:45:22 +00:00
f47804d9dc data_processor.py aktualisiert 2025-07-18 15:49:47 +00:00
7fad32b201 data_processor.py aktualisiert 2025-07-18 15:45:05 +00:00
0269ca097c data_processor.py aktualisiert 2025-07-18 14:55:21 +00:00
3497b6f411 data_processor.py aktualisiert 2025-07-18 14:40:30 +00:00
683b108e33 data_processor.py aktualisiert 2025-07-18 14:00:29 +00:00
a4827414c2 data_processor.py aktualisiert 2025-07-18 13:59:34 +00:00
6dc00b1542 data_processor.py aktualisiert 2025-07-18 13:50:31 +00:00