Floke daab0caa5c v1.6.1: Verbessere Website-Scraping zur Umgehung von Cookie-Bannern
- Überarbeite `get_website_raw` zur besseren Handhabung von Cookie-Bannern.
- Priorisiere Scraping von Hauptinhalt-Tags (`<main>`, `<article>`, spezifische IDs/Klassen).
- Implementiere Fallback auf `<body>` mit Versuch, häufige Banner-Elemente zu entfernen (`.decompose()`).
- Füge Heuristik hinzu, um extrahierten Text zu verwerfen, wenn er wahrscheinlich nur Banner-Inhalt ist.
- Erhöhe Request-Timeout in `get_website_raw` leicht auf 15 Sekunden.
2025-04-15 20:14:47 +00:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
2025-04-04 17:04:06 +00:00
2025-03-29 18:47:15 +01:00
2025-03-29 18:47:15 +01:00
Description
No description provided
2.8 GiB
Languages
Python 63.6%
TypeScript 19.2%
JavaScript 15.6%
HTML 0.7%
Dockerfile 0.4%
Other 0.5%