daab0caa5c0b30dd4eb4de5573aedd6040912a76
- Überarbeite `get_website_raw` zur besseren Handhabung von Cookie-Bannern. - Priorisiere Scraping von Hauptinhalt-Tags (`<main>`, `<article>`, spezifische IDs/Klassen). - Implementiere Fallback auf `<body>` mit Versuch, häufige Banner-Elemente zu entfernen (`.decompose()`). - Füge Heuristik hinzu, um extrahierten Text zu verwerfen, wenn er wahrscheinlich nur Banner-Inhalt ist. - Erhöhe Request-Timeout in `get_website_raw` leicht auf 15 Sekunden.
Description
No description provided
Languages
Python
61.8%
TypeScript
20.2%
JavaScript
14.5%
HTML
2.5%
Dockerfile
0.4%
Other
0.6%