tasks.md aktualisiert

This commit is contained in:
2025-08-18 12:48:54 +00:00
parent 10b453091c
commit bec3cea80d

View File

@@ -1,23 +1,25 @@
# Projektaufgaben & Offene Punkte v2.1.1
# Projektaufgaben & Offene Punkte v2.2.0
## 1. Kritische offene Punkte (Blocker)
## 1. Abgeschlossene Meilensteine
- [X] **Brancheneinstufung 2.0:** Implementierung des kontextbasierten Batch-Abgleichs.
- [X] **Content-Engine:** Erstellung der Skripte zur Generierung der Wissensbasis und der finalen Marketing-Texte.
- [X] **Remote-Steuerung (PoC):** Erfolgreiche Implementierung des Docker-Containers mit `app.py` und `ngrok`, um Skripte aus Google Sheets zu starten.
- [ ] **Stabilität der `DataProcessor`-Klasse:** Die Methoden `prepare_data_for_modeling` und `reclassify_all_branches` enthalten Fehler, die zu Abstürzen führen. Die Interaktion mit dem `GoogleSheetHandler` ist an mehreren Stellen fehlerhaft.
- [ ] **Konsistenz der `GoogleSheetHandler`-Klasse:** Die Klasse wurde mehrfach umgebaut. Es muss eine finale, saubere Version etabliert werden, die von allen anderen Skripten konsistent genutzt wird.
- [ ] **Brancheneinstufung 2.0:** Das Konzept zur Nutzung der detaillierten Branchen-Definitionen ist klar, aber die Implementierung in `helpers.py` und `data_processor.py` ist noch nicht abgeschlossen oder fehlerhaft.
## 2. Unmittelbare nächste Aufgaben (Blocker zuerst)
## 2. Unmittelbare nächste Aufgaben (Systematischer Neustart)
- [ ] **Bugfix `duplicate_checker.py` (Priorität 1 - Blocker):**
- [ ] Analysiere das letzte erfolgreiche Log, um den genauen Punkt des Abbruchs nach dem Matching zu finden.
- [ ] Überprüfe den Code-Block zum Zusammenfügen der `pandas` DataFrames (`pd.concat`) und zum Konvertieren in eine Liste für den Upload (`data_to_write`).
- [ ] Implementiere einen robusteren Schreibprozess, der Index-Fehler oder Typ-Inkonsistenzen vermeidet.
- [ ] Führe einen lokalen Testlauf durch (`python duplicate_checker.py`), um den Schreibvorgang zu validieren.
- [ ] Teste den erfolgreichen Durchlauf über die Google Sheets-Schnittstelle.
- [ ] **Übergabe des vollständigen Projektstandes:** Im nächsten Chat werden alle `.py`-Dateien, die `config.py` und die `marketing_wissen.yaml` bereitgestellt.
- [ ] **Code-Analyse:**
- [ ] Den gesamten Code auf veraltete Funktionsaufrufe prüfen (z.B. `generate_fsm_argument` vs. `generate_fsm_pitch`).
- [ ] Den Zugriff auf Konfigurationsvariablen vereinheitlichen (`Config.VARIABLE` vs. `VARIABLE`).
- [ ] Den Datenzugriff im `GoogleSheetHandler` finalisieren (z.B. `_all_data_with_headers` als einzige Quelle).
- [ ] **Fehlerbehebung (Priorität 1): `train_technician_model`**
- [ ] `prepare_data_for_modeling` in `data_processor.py` korrigieren, sodass es die Daten korrekt aus dem `GoogleSheetHandler` liest.
- [ ] **Fehlerbehebung (Priorität 2): `reclassify_branches`**
- [ ] Sicherstellen, dass der neue Modus korrekt im `brancheneinstufung.py`-Dispatcher aufgerufen wird.
- [ ] Die `evaluate_branche_chatgpt`-Funktion in `helpers.py` final implementieren.
- [ ] **Validierungslauf:**
- [ ] Einen Testlauf mit `--mode train_technician_model` erfolgreich durchführen.
- [ ] Einen Testlauf mit `--mode reclassify_branches --limit 5` erfolgreich durchführen.
- [ ] **Produktivsetzung der Remote-Steuerung (Priorität 2):**
- [ ] Account für einen `ngrok`-Paid-Plan erstellen und eine statische Domain reservieren.
- [ ] Den `ngrok.connect()`-Aufruf in `app.py` anpassen, um die statische Domain zu verwenden.
- [ ] Die `NGROK_URL` in `Code.gs` final auf die permanente Adresse setzen.
- [ ] **Skalierung der Wissensbasis (Priorität 3):**
- [ ] `build_knowledge_base.py` für alle 54 Branchen ausführen.
- [ ] Die resultierende `marketing_wissen_final.yaml` stichprobenartig prüfen.
- [ ] `generate_marketing_text.py` ausführen, um das "Texte_Automation"-Sheet vollständig zu befüllen.