From 1c36599b15eaac55dc2937bfaf128de56ffcaf91 Mon Sep 17 00:00:00 2001 From: Floke Date: Sun, 30 Mar 2025 08:01:05 +0000 Subject: [PATCH] =?UTF-8?q?Refactor:=20Wikipedia-Analyse=20vollst=C3=A4ndi?= =?UTF-8?q?g=20an=20GPT=20=C3=BCbergeben?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Nur noch Wikipedia-URL lokal ermittelt - URL wird an GPT im Prompt übergeben (Zeile: "Wikipedia-Link: …") - GPT soll Umsatz + Branche eigenständig aus Artikel extrahieren - HTML-Parsing und lokale Extraktion entfallen vollständig --- brancheneinstufung.py | 13 +++++++------ 1 file changed, 7 insertions(+), 6 deletions(-) diff --git a/brancheneinstufung.py b/brancheneinstufung.py index 7bc421d6..afe69c69 100644 --- a/brancheneinstufung.py +++ b/brancheneinstufung.py @@ -166,10 +166,11 @@ def get_wikipedia_data(name, website_hint=""): return "", "k.A.", "k.A." # === GPT BEWERTUNG === -def classify_company(row): +def classify_company(row, wikipedia_url=""): user_prompt = { "role": "user", - "content": f"{row[0]};{row[1]};{row[2]};{row[4]};{row[5]}" + "content": f"{row[0]};{row[1]};{row[2]};{row[4]};{row[5]} +Wikipedia-Link: {wikipedia_url}" } response = openai.chat.completions.create( model="gpt-3.5-turbo", @@ -193,11 +194,11 @@ for i in range(start, min(start + DURCHLÄUFE, len(sheet_values))): row = sheet_values[i] print(f"[{time.strftime('%H:%M:%S')}] Verarbeite Zeile {i+1}: {row[0]}") - url, wiki_branche, umsatz = get_wikipedia_data(row[0], row[1]) - wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row) + url, _, _ = get_wikipedia_data(row[0], row[1]) + wiki, linkedin, umsatz_chat, new_cat, reason, fsm, techniker, techniker_reason = classify_company(row, wikipedia_url=url) - wiki_final = wiki_branche - umsatz_final = umsatz if umsatz != "k.A." else umsatz_chat + wiki_final = wiki + umsatz_final = umsatz_chat values = [ wiki_final,