daab0caa5c0b30dd4eb4de5573aedd6040912a76
- Überarbeite `get_website_raw` zur besseren Handhabung von Cookie-Bannern. - Priorisiere Scraping von Hauptinhalt-Tags (`<main>`, `<article>`, spezifische IDs/Klassen). - Implementiere Fallback auf `<body>` mit Versuch, häufige Banner-Elemente zu entfernen (`.decompose()`). - Füge Heuristik hinzu, um extrahierten Text zu verwerfen, wenn er wahrscheinlich nur Banner-Inhalt ist. - Erhöhe Request-Timeout in `get_website_raw` leicht auf 15 Sekunden.
Description
No description provided
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%