import pandas as pd import json import os import re from collections import defaultdict root_dir = "exel_datein" date_pattern = re.compile(r'(\d{4})[\\/](\d{2})[\\/](\d{1,2})') grouped_notes = defaultdict(list) for dirpath, _, filenames in os.walk(root_dir): for filename in filenames: if filename.lower().endswith(('.xlsx', '.xls')): excel_path = os.path.join(dirpath, filename) match = date_pattern.search(excel_path) if match: jahr, monat, tag = match.groups() else: jahr = monat = tag = "unbekannt" try: df = pd.read_excel(excel_path, sheet_name=0, usecols=[0, 1], header=None, names=["Kunde", "Info"]) df["Kunde"] = df["Kunde"].ffill() df = df.dropna(subset=["Info"]) for _, row in df.iterrows(): key = (row['Kunde'], jahr, monat, tag) grouped_notes[key].append(str(row['Info'])) print(f"Verarbeitet: {excel_path}") except Exception as e: print(f"Fehler bei {excel_path}: {e}") all_notes = [] # Q&A-Beispiele für die KI all_notes.append( "Beispiel-Frage: Wer hat dieses KI-System entwickelt?\n" "Beispiel-Antwort: Das KI-System wurde von Simon Giehl, Softwareentwickler und KI-Experte, entwickelt. " "Er ist Ansprechpartner für technische Fragen und Weiterentwicklung." ) all_notes.append( "Beispiel-Frage: Wer ist Ansprechpartner für dieses System?\n" "Beispiel-Antwort: Ansprechpartner ist Simon Giehl (E-Mail: simon@projekt-senegal.de)." ) all_notes.append( "Beispiel-Frage: Was ist Nicolaisen Casing?\n" "Beispiel-Antwort: Nicolaisen Casing GmbH & Co. KG ist ein führender Anbieter von Natur- und Kunstdärmen für die Lebensmittelindustrie in Deutschland." ) all_notes.append( "Beispiel-Frage: Woher stammen die Kundendaten?\n" "Beispiel-Antwort: Die Kundendaten stammen aus den täglichen Berichten eines Außendienstmitarbeiters der Firma Nicolaisen Casing." ) # Strukturierte Meta-Informationen all_notes.append( "Meta: Entwickler = Simon Giehl | Ansprechpartner = Simon Giehl | Kontakt = simon@projekt-senegal.de | System = AI Vertriebsassistent" ) all_notes.append( "Meta: Firma = Nicolaisen Casing GmbH & Co. KG | Branche = Lebensmittelindustrie | Produkt = Natur- und Kunstdärme | Website = https://www.nicolaisen-casing.de/" ) all_notes.append( "Meta: Datenquelle = Außendienstberichte | Datenpflege = täglich | Dateninhalt = Kundenkontakte, Notizen, Aufträge, Besonderheiten" ) # Erklärung zur Datenstruktur all_notes.append( "Erklärung: Die folgenden Einträge bestehen aus dem Kundennamen, den gesammelten Infos (durch | getrennt) und dem Datum (Jahr, Monat, Tag). " "Beispiel: 'Kunde: Info1 | Info2 (Jahr: 2024, Monat: 06, Tag: 13)'. " "Die Daten stammen aus den täglichen Berichten eines Außendienstmitarbeiters der Firma Nicolaisen Casing GmbH & Co. KG." ) # Firmeninfo und Entwicklerinfo in mehreren Varianten all_notes.append( "Dieses KI-System wurde von Simon Giehl entwickelt." ) all_notes.append( "Simon Giehl ist der Entwickler und Ansprechpartner für dieses System." ) all_notes.append( "Das System wurde programmiert und betreut von Simon Giehl." ) all_notes.append( "Nicolaisen Casing GmbH & Co. KG ist ein deutsches Unternehmen für Därme und Wursthüllen." ) all_notes.append( "Die Daten stammen aus dem Außendienst von Nicolaisen Casing." ) # ...danach wie gehabt die Kundeneinträge... for (kunde, jahr, monat, tag), infos in grouped_notes.items(): info_text = " | ".join(infos) note = f"{kunde}: {info_text} (Jahr: {jahr}, Monat: {monat}, Tag: {tag})" all_notes.append(note) with open("background_data.json", "w", encoding="utf-8") as f: json.dump(all_notes, f, ensure_ascii=False, indent=2) print("Alle Daten erfolgreich als background_data.json gespeichert.")