Commit Graph

123 Commits

Author SHA1 Message Date
f5034ecf7a data_processor.py aktualisiert 2025-08-04 17:35:18 +00:00
9b9697d676 data_processor.py aktualisiert 2025-08-04 17:32:23 +00:00
b6f1786525 data_processor.py aktualisiert 2025-08-04 17:29:55 +00:00
815398651e data_processor.py aktualisiert
Regex suche "self\.sheet_handler\._get_col_letter" replace by "_get_col_letter"
2025-08-04 17:07:07 +00:00
ae1191dbe2 data_processor.py aktualisiert 2025-08-04 16:44:27 +00:00
8b1577c956 data_processor.py aktualisiert 2025-08-04 15:19:32 +00:00
110faee883 data_processor.py aktualisiert 2025-08-04 15:13:08 +00:00
25368b3726 data_processor.py aktualisiert 2025-08-04 14:29:46 +00:00
a555a8d9a9 data_processor.py aktualisiert 2025-08-04 14:28:30 +00:00
406285ebfc data_processor.py aktualisiert 2025-08-04 14:24:59 +00:00
ae12bc13cc data_processor.py aktualisiert 2025-08-04 14:23:29 +00:00
df8f22aeb2 data_processor.py aktualisiert 2025-08-04 14:13:50 +00:00
138f354415 data_processor.py aktualisiert 2025-08-04 14:13:15 +00:00
6f445c3272 data_processor.py aktualisiert 2025-08-04 14:12:29 +00:00
b5fba4d556 data_processor.py aktualisiert 2025-08-04 13:43:30 +00:00
fa882099b5 data_processor.py aktualisiert 2025-08-04 13:39:11 +00:00
d98443a1ff data_processor.py aktualisiert 2025-08-04 13:32:19 +00:00
08640f4a12 data_processor.py aktualisiert 2025-08-04 12:43:19 +00:00
813e1444a1 data_processor.py aktualisiert 2025-08-04 12:32:31 +00:00
10eb643d3e data_processor.py aktualisiert 2025-08-04 12:21:55 +00:00
11d15b0bcf data_processor.py aktualisiert 2025-08-04 12:18:31 +00:00
85fbd3ddea data_processor.py aktualisiert 2025-08-04 12:16:18 +00:00
df6aca3175 data_processor.py aktualisiert 2025-08-04 12:13:32 +00:00
7f47c14d45 v2.0.3: fix: Stabilize DataProcessor core logic
- Korrektur der Spaltenzugriffe in `prepare_data_for_modeling` zur Behebung von `TypeError`.
- Umbenennung von `reclassify_all_branches` zu `process_reclassify_branches` zur Behebung des Dispatcher-Fehlers.
- Korrektur des `alignment_demo` Aufrufs, um auf die zentrale Helper-Funktion zu verweisen.
- Härtung verschiedener Batch-Prozesse gegen fehlerhafte Daten und `None`-Werte.
2025-08-04 11:29:40 +00:00
cb698db01e v2.0.2: feat: Implement modular versioning
- Einführung von __version__ Attributen in allen Kernmodulen (data_processor, helpers etc.).
- Erstellung einer zentralen Funktion log_module_versions in helpers.py.
- Integration des Version-Loggings beim Start des Hauptskripts für volle Nachvollziehbarkeit.
2025-08-04 09:47:11 +00:00
cbc796ebd1 data_processor.py aktualisiert 2025-08-01 14:06:42 +00:00
cf374d6777 data_processor.py aktualisiert 2025-07-28 13:28:15 +00:00
14a5f87969 data_processor.py aktualisiert 2025-07-28 13:04:35 +00:00
789afc99d6 data_processor.py aktualisiert 2025-07-28 13:01:58 +00:00
667dfc49e3 data_processor.py aktualisiert 2025-07-28 12:45:02 +00:00
9b682a8617 Implementierung der Batch-Brancheneinstufung zur Kostenoptimierung
- FEATURE: Brancheneinstufung erfolgt nun in Batches (z.B. 20 Unternehmen pro API-Call), um die Token-Kosten drastisch zu senken.
- REFACTOR: Neue Funktion `evaluate_branches_batch` in `helpers.py` erstellt, die den komplexen Batch-Prompt generiert.
- REFACTOR: `reclassify_all_branches` in `data_processor.py` überarbeitet, um die Batch-Verarbeitung und das Ergebnis-Mapping zu steuern.
2025-07-28 12:43:36 +00:00
36e7ac157a data_processor.py aktualisiert 2025-07-28 11:13:25 +00:00
e5a29cb348 Implementierung der kontextbasierten Brancheneinstufung
- FEATURE: Brancheneinstufung 2.0 implementiert; nutzt nun die reichhaltigen Definitionen und Beispiele aus `config.py` für ein hochpräzises, kontextuelles Matching.
- REFACTOR: `evaluate_branche_chatgpt` in `helpers.py` komplett neugeschrieben; gibt nun eine detaillierte Begründung für die Zuordnung zurück.
- FEATURE: Neuer Batch-Modus `reclassify_branches` in `data_processor.py` hinzugefügt, um eine vollständige Neubewertung aller Accounts zu ermöglichen.
2025-07-28 09:49:51 +00:00
3872ee292c Feat: Add thin content and cookie banner detection
- Enhances the `_scrape_website_task_batch` worker to improve data quality assessment.
- Implements a "Thin Content" check: If the extracted text is less than 200 characters, the URL status is set to `URL_SCRAPE_THIN_CONTENT`.
- Adds a heuristic for detecting cookie banners: If the text is short (< 500 chars) and contains a high density of cookie-related keywords, the status is set to `URL_SCRAPE_COOKIE_BANNER`.
- These new statuses provide more granular insights into scraping issues, allowing for better-targeted reprocessing and quality control.
2025-07-20 19:22:11 +00:00
5f5dd16c1c data_processor.py aktualisiert 2025-07-20 18:22:26 +00:00
706ba082e9 data_processor.py aktualisiert 2025-07-20 12:46:55 +00:00
8f1d28dc07 data_processor.py aktualisiert 2025-07-20 12:42:23 +00:00
2947312236 data_processor.py aktualisiert 2025-07-20 12:41:31 +00:00
df52c9ab7e data_processor.py aktualisiert 2025-07-20 12:37:45 +00:00
9771cabf55 data_processor.py aktualisiert 2025-07-20 10:43:42 +00:00
8dfe7d23ec großes rework, vieles gelöscht
- Refactors the website scraping batch process to fix critical stability issues.
- Replaces multiple redundant and conflicting scraping functions (`_scrape_website_task`, `_scrape_raw_text_task`, `_scrape_and_summarize_task`) with a single, robust worker function: `_scrape_website_task_batch`.
- The new worker function now consistently returns a structured dictionary, resolving the `TypeError` that prevented results from being written to the sheet.
- The main batch function `process_website_scraping_batch` is updated to correctly handle this new dictionary structure, including error states.
- Functionality is now aligned with the single-row processing mode by also fetching meta-details in the batch process, not just raw text.
- The two large, duplicated, and now obsolete `process_website_scraping` functions have been removed to improve code clarity and maintainability.
2025-07-20 09:18:49 +00:00
155675d827 data_processor.py aktualisiert 2025-07-20 08:49:15 +00:00
b0a7b8893a data_processor.py aktualisiert 2025-07-20 08:47:54 +00:00
4037656029 data_processor.py aktualisiert 2025-07-20 08:33:21 +00:00
7dbd8a59f2 data_processor.py aktualisiert 2025-07-20 08:05:15 +00:00
b38fcaa7fd data_processor.py aktualisiert 2025-07-20 07:57:06 +00:00
7b76cc09ef data_processor.py aktualisiert 2025-07-20 07:56:31 +00:00
5cef0b0260 data_processor.py aktualisiert 2025-07-20 07:52:24 +00:00
071be8a410 data_processor.py aktualisiert 2025-07-20 07:48:03 +00:00
a09746dadd data_processor.py aktualisiert 2025-07-20 07:46:35 +00:00