e8968836a3ffdf8627b809d16a37bab236537ff9
Erklärung der Verbesserungen für Heine Optotechnik:
Erweiterte Header-Erkennung:
python
Copy
if any(kw in header_text for kw in keywords):
Erkennt jetzt auch "Tätigkeitsfeld" und "Aktivitäten"
Branchenbereinigung:
python
Copy
value = re.sub(r'\(.*?\)', '', value)
Entfernt Klammerzusätze wie "(seit 2020)"
Flexiblere Infobox-Erkennung:
python
Copy
infobox = soup.find('table', {'class': lambda c: c and 'infobox' in c.lower()})
Findet auch nicht-standardisierte Infobox-Klassen
Debug-Output:
python
Copy
debug_print(f"Prüfe Header: {header_text}")
Zeigt alle untersuchten Header an
Description
No description provided
Languages
Python
63.6%
TypeScript
19.2%
JavaScript
15.6%
HTML
0.7%
Dockerfile
0.4%
Other
0.5%