bugfix
This commit is contained in:
@@ -29,6 +29,7 @@ import csv
|
|||||||
import gender_guesser.detector as gender
|
import gender_guesser.detector as gender
|
||||||
from urllib.parse import urlparse, urlencode
|
from urllib.parse import urlparse, urlencode
|
||||||
from difflib import SequenceMatcher
|
from difflib import SequenceMatcher
|
||||||
|
import argparse
|
||||||
|
|
||||||
# Optional: tiktoken für Token-Zählung (Modus 8)
|
# Optional: tiktoken für Token-Zählung (Modus 8)
|
||||||
try:
|
try:
|
||||||
@@ -2349,24 +2350,35 @@ class DataProcessor:
|
|||||||
# ----------------- Main-Funktion -----------------
|
# ----------------- Main-Funktion -----------------
|
||||||
def main():
|
def main():
|
||||||
global MODE, LOG_FILE
|
global MODE, LOG_FILE
|
||||||
print("Bitte wählen Sie den Betriebsmodus:")
|
# Argumentparser initialisieren
|
||||||
print("wiki: Nur Wikipedia-Verifizierung (Batch)")
|
parser = argparse.ArgumentParser(description="Brancheneinstufung Skript")
|
||||||
print("website: Nur Website-Scraping (Batch)")
|
parser.add_argument("--mode", type=str, help="Betriebsmodus: wiki, website, branch, combined, etc.")
|
||||||
print("branch: Nur Brancheneinschätzung (Batch)")
|
parser.add_argument("--row_limit", type=int, help="Anzahl der zu verarbeitenden Zeilen/Accounts", default=None)
|
||||||
print("combined: Alle Funktionen (Wikipedia, Website, Branch) in einem Durchlauf")
|
args = parser.parse_args()
|
||||||
print("1: Vollständige Verarbeitung (alle Funktionen)")
|
|
||||||
print("11: Re-Evaluation markierter Zeilen (nur 'x' in Spalte A)")
|
# Betriebsmodus aus Kommandozeile oder interaktiv ermitteln
|
||||||
print("21: Website-Scraping Testmodus (nur Website-Rohtext & Zusammenfassung)")
|
if args.mode:
|
||||||
print("22: SERP-API Website Lookup (nur Website-Daten ermitteln)")
|
MODE = args.mode.strip().lower()
|
||||||
print("23: Website Detail Extraction (nur für Zeilen mit 'x')")
|
print(f"Betriebsmodus (aus Kommandozeile): {MODE}")
|
||||||
print("31: Nur ChatGPT-Auswertung (alle ChatGPT-Routinen)")
|
else:
|
||||||
print("41: Nur Wikipedia-Scraping")
|
print("Bitte wählen Sie den Betriebsmodus:")
|
||||||
print("6: Contact Research (LinkedIn)")
|
print("wiki: Nur Wikipedia-Verifizierung (Batch)")
|
||||||
print("8: Batch Token-Zählung")
|
print("website: Nur Website-Scraping (Batch)")
|
||||||
|
print("branch: Nur Brancheneinschätzung (Batch)")
|
||||||
|
print("combined: Alle Funktionen (Wikipedia, Website, Branch) in einem Durchlauf")
|
||||||
|
print("1: Vollständige Verarbeitung (alle Funktionen)")
|
||||||
|
print("11: Re-Evaluation markierter Zeilen (nur 'x' in Spalte A)")
|
||||||
|
print("21: Website-Scraping Testmodus (nur Website-Rohtext & Zusammenfassung)")
|
||||||
|
print("22: SERP-API Website Lookup (nur Website-Daten ermitteln)")
|
||||||
|
print("23: Website Detail Extraction (nur für Zeilen mit 'x')")
|
||||||
|
print("31: Nur ChatGPT-Auswertung (alle ChatGPT-Routinen)")
|
||||||
|
print("41: Nur Wikipedia-Scraping")
|
||||||
|
print("6: Contact Research (LinkedIn)")
|
||||||
|
print("8: Batch Token-Zählung")
|
||||||
|
MODE = input("Geben Sie den Modus ein (z.B. wiki, website, branch, combined oder alte Zahl): ").strip().lower()
|
||||||
|
if not MODE:
|
||||||
|
MODE = "combined"
|
||||||
|
|
||||||
MODE = input("Geben Sie den Modus ein (z.B. wiki, website, branch, combined oder alte Zahl): ").strip().lower()
|
|
||||||
if not MODE:
|
|
||||||
MODE = "combined"
|
|
||||||
LOG_FILE = create_log_filename(MODE)
|
LOG_FILE = create_log_filename(MODE)
|
||||||
debug_print(f"Start Betriebsmodus {MODE}")
|
debug_print(f"Start Betriebsmodus {MODE}")
|
||||||
|
|
||||||
@@ -2375,12 +2387,19 @@ def main():
|
|||||||
|
|
||||||
dp = DataProcessor()
|
dp = DataProcessor()
|
||||||
|
|
||||||
if MODE in ["wiki", "website", "branch", "combined"]:
|
# Row_limit aus Kommandozeile oder interaktiv ermitteln
|
||||||
|
if args.row_limit is not None:
|
||||||
|
row_limit = args.row_limit
|
||||||
|
print(f"Zeilenlimit (aus Kommandozeile): {row_limit}")
|
||||||
|
else:
|
||||||
try:
|
try:
|
||||||
row_limit = int(input("Wie viele Zeilen sollen insgesamt bearbeitet werden? "))
|
row_limit = int(input("Wie viele Zeilen sollen insgesamt bearbeitet werden? "))
|
||||||
except Exception as e:
|
except Exception as e:
|
||||||
debug_print(f"Fehler bei der Eingabe der Zeilenanzahl: {e}. Es werden alle Zeilen verarbeitet.")
|
debug_print(f"Fehler bei der Eingabe der Zeilenanzahl: {e}. Es werden alle Zeilen verarbeitet.")
|
||||||
row_limit = None
|
row_limit = None
|
||||||
|
|
||||||
|
# Auswahl des Arbeitsmodus
|
||||||
|
if MODE in ["wiki", "website", "branch", "combined"]:
|
||||||
run_dispatcher(MODE, row_limit)
|
run_dispatcher(MODE, row_limit)
|
||||||
elif MODE == "1":
|
elif MODE == "1":
|
||||||
dp.process_rows()
|
dp.process_rows()
|
||||||
|
|||||||
Reference in New Issue
Block a user