KI im Museum: Datenalltag im Museum mit Generativer KI
Generative KI und Prompt Engineering für das Museum mit Christopher Pollin
Der zweite Workshop vertiefte die praktische Dimension. Nach den übergeordneten Diskussionen des ersten Teils standen nun die technischen Grundlagen von LLMs und ihre konkrete Anwendung im Fokus. Es ging um die Grundlagen von LLMs, Tokens, Embeddings und Context Windows sowie um das ominöse Prompt Engineering. Anhand von Beispielen aus dem Kriminalmuseum wurde veranschaulicht, wie sich museale Daten in strukturierte Forschungsdaten überführen lassen.
Tokenisierung und Embeddings
LLMs verarbeiten Text nicht als einzelne Buchstaben oder Wörter, sondern als sogenannte Token. Ein Token ist die atomare Einheit für LLMs, wobei 100 Token etwa 75 englischen Wörtern entsprechen. Die Tokenisierung erschwert buchstabengetreue Operationen, da die Modelle primär auf Subword-/Wort-Einheiten arbeiten und Buchstabiermuster statistisch rekonstruieren. Das funktioniert oft, ist aber nicht garantiert. Ein LLM sieht nicht das Wort „Blueberry“ mit all seinen Buchstaben, sondern lediglich eine Repräsentation der Token, die „Blueberry“ ergeben. Es hat gar keinen Zugang zu den einzelnen Buchstaben.
Embeddings sind Vektoren, also eine Folge von Zahlen, die einen Pfeil repräsentieren, und kodieren semantische Beziehungen. Ähnliche Konzepte liegen im Vektorraum nah beieinander. „König” minus „Mann” plus „Frau” ergibt beispielsweise einen Vektor nahe „Königin”. Diese geometrische Struktur ermöglicht es LLMs, Bedeutungszusammenhänge zu erfassen, ohne die Bedeutung tatsächlich zu „verstehen”. Embeddings bilden die Grundlage für Retrieval Augmented Generation (RAG) in musealen Anwendungen. Dabei werden Sammlungsdaten anhand der Vektorähnlichkeit durchsucht.
Das Verhalten von Sprachmodellen lässt sich gut an einfachen Aufgaben illustrieren, etwa am Beispiel „Buchstabiere das Wort Hallo“. Modelle verarbeiten Texte nicht auf der Ebene einzelner Buchstaben, sondern als Token, also Einheiten, die meist aus ganzen Wörtern oder Wortbestandteilen bestehen. Das Token „Hallo“ wird daher als eine geschlossene Einheit behandelt. Wenn ein Modell das Wort dennoch korrekt buchstabiert, beruht dies auf statistisch erlernten Mustern, nicht auf einer tatsächlichen Analyse der Zeichenfolge. Ein ähnliches Prinzip gilt für Rechenaufgaben, bei denen Modelle keine Berechnungen durchführen, sondern den Anschein rechnerischer Logik durch Wahrscheinlichkeitsmuster erzeugen.
Large Language Models als .zip des Internets
LLMs stellen verlustbehaftete und probabilistische Komprimierungen multimodaler Daten dar. Im Trainingsprozess werden Billionen von Tokens aus Web-Daten in neuronale Netzwerke komprimiert. Diese Kompression weist drei zentrale Eigenschaften auf. Sie ist verlustbehaftet und funktioniert damit nicht als perfekter Speicher. Sie arbeitet probabilistisch und erfasst Muster statt exakter Fakten. Zudem ist sie zeitlich begrenzt auf den Wissensstand zum Trainingszeitpunkt. Die Metapher der ZIP-Datei verdeutlicht diesen Prozess. Wie eine komprimierte Datei nicht alle Details des Originals bewahrt, speichern LLMs statistische Muster anstelle exakter Informationen.
Trainingsphasen: Pre- und Post-Training
Die Kompression der Inhalte bleibt in allen Trainingsphasen zentral. Sprachmodelle sind keine Datenbanken, sondern statistische Abbildungen sprachlicher Strukturen. Im sogenannten Pretraining werden große Textmengen in ein neuronales Netz komprimiert, wobei das Modell statistische Beziehungen zwischen Tokens erlernt, jedoch keine konkreten Fakten speichert. In der anschließenden Phase des Posttrainings wird das Modell durch menschliches Feedback und spezialisierte Datensätze weiter verfeinert. Auf diese Weise entstehen aus allgemeinen Sprachmodellen spezialisierte Varianten wie Dialogsysteme, Planungsassistenten oder Werkzeuge zur Datenextraktion.
LLMs führen eine Next Token Prediction durch und sagen dabei das nächste Token auf Basis von Kontext und Trainingsdaten voraus. Jedes vorhergesagte Token wird autoregressiv Teil des Kontexts für die nächste Vorhersage. Dieser einfache Mechanismus erzeugt bei massiver Skalierung emergente Eigenschaften. Es entstehen komplexe Fähigkeiten aus der schieren Größe und Datenmenge, ohne dass diese explizit programmiert wurden.
LLMs können per se beispielsweise nicht direkt auf Wikipedia-Artikel oder andere Webseiten zugreifen. Nach Karpathy haben sie lediglich Zugriff auf die "Gestalt" des Textes in Form komprimierter statistischer Muster aus dem Training. Der Besuch von Webseiten ist LLMs nicht möglich. Eine Websuche funktioniert ausschließlich über spezielle Tool-Use-Mechanismen. Diese Unterscheidung zwischen interner Wissensrepräsentation und externer Informationsbeschaffung bildet eine fundamentale Grundlage für das Verständnis ihrer Limitationen.
Deterministische Verfahren und hybride Workflows
Effiziente KI-Workflows entstehen aus der gezielten Kombination deterministischer Routinen mit probabilistischer Mustererkennung. Sprachmodelle können komplexe Muster identifizieren, erzeugen jedoch Ausgaben, die aufgrund ihrer statistischen Natur nicht in jedem Durchlauf identisch sind. Für klar strukturierte Aufgaben wie die Extraktion von Datumsangaben, Maßen oder Materialbezeichnungen ist es daher oft zweckmäßiger, deterministische Verfahren einzusetzen. Modelle können hierfür Programmcode generieren, der solche Aufgaben reproduzierbar ausführt, etwa Python-Skripte mit regulären Ausdrücken zur Erkennung von Datumsformaten, Paragraphenverweisen oder Inventarnummern. Das Modell dient dabei als Code-Generator, während die eigentliche Verarbeitung durch regelbasierte Routinen erfolgt.
Dieses Zusammenspiel von probabilistischer Analyse und deterministischer Validierung verringert Fehlerrisiken, verbessert die Nachvollziehbarkeit und ermöglicht eine hybride Arbeitsweise. Bei der im ersten Workshop vorgestellten Wilderersammlung kamen zunächst regelbasierte Verfahren zum Einsatz. Diese erkannten eindeutig strukturierte Muster wie Datumsangaben oder Aktenzeichen. Erst wenn diese Methoden nicht ausreichten, wurden Sprachmodelle für komplexere Aufgaben wie Querverweise, mehrzeilige Zuordnungen oder thematische Zusammenfassungen verwendet.
Der gestufte Ansatz verbindet die Effizienz deterministischer Prozesse mit der Flexibilität probabilistischer Modelle. Er sichert Reproduzierbarkeit, reduziert Kosten und gewährleistet, dass Sprachmodelle gezielt dort eingesetzt werden, wo sie einen tatsächlichen Mehrwert bieten.
Vom Prompt Engineering zum Context Engineering
Prompt Engineering bezeichnet das gezielte Auffinden jener Formulierung, die aus dem latenten Programmspeicher eines LLM das nützlichste Verfahren abruft. Dieser Prozess bleibt iterativ und erfordert fachliche Validierung.
Mit reasoning-fähigen Modellen wandelt sich die Praxis. Ad-hoc-Hacks und Personas verlieren an Wirkung. Klare Aufgaben-, Ziel- und Output-Spezifikationen mit sauberer Struktur (Markdown/XML, Delimiter, Formatvorgaben) greifen zuverlässiger. Künstliche soziale Intelligenz hilft beim Einschätzen von Modellantworten und adaptiven Nachsteuern bei Halluzinationen.
Markdown-Strukturen (Listen, Überschriften, Codeblöcke) helfen, Instruktionen und Daten sauber zu trennen. Ein klar strukturierter Prompt mit Überschrift, Datenblock usf. und präzisen Aufgaben am Ende führt zu stabileren Ergebnissen.
Der Schwerpunkt verlagert sich zu Context Engineering: systematische Orchestrierung von statischen Instruktionen (20%) und dynamischem Kontext (80%) inklusive Retrieval, Memories, Tool-Aufrufen und Zustandsmanagement. Wirksame Techniken umfassen Chain-of-Thought (bei Reasoning-Modellen meist implizit), problemorientierte Dekomposition (least-to-most) sowie Verdichtungsstrategien (Chain-of-Density).
Thesaurus-Integration und semantisches Mapping
Ein wesentlicher Aspekt der Datenaufbereitung ist die Sicherung terminologischer Einheitlichkeit. Im musealen Kontext bedeutet dies, dass Bezeichnungen wie „Holz“ oder „Stahl“ nicht frei gewählt werden, sondern an kontrollierte Vokabulare und Thesauri gebunden sind. In der Webinar-Diskussion wurde gezeigt, dass sich solche kontrollierten Begriffssysteme wie Material- oder Objektklassifikationen direkt in den Prompt integrieren lassen, um die semantische Präzision und Konsistenz der Ergebnisse zu verbessern.
Am wirksamsten ist eine hierarchische Darstellung im Markdown-Format, etwa als verschachtelte Liste:
- Baustoff
- Anorganisch
- Metall
- Organisch
- Holz
- Holz
- Anorganisch
Das LLM erhält so eine explizite Kontextstruktur und kann die Begriffe aus dieser Liste gezielt verwenden. Eine ergänzende Instruktion wie „verwende nur Materialien aus dem gegebenen Thesaurus“ erhöht die Zuverlässigkeit der Extraktion.
Für große oder komplexe Thesauri empfiehlt sich eine segmentierte Einbindung – etwa nur der relevanten Teilbereiche (z. B. Waffen oder Werkstoffe). Dadurch sinkt der Tokenverbrauch, und die Modellantwort bleibt stabiler.
Ressourcen und Kosten
Die Infrastrukturanforderungen sind erheblich. Pro Anfrage fallen 0.0003 kWh an (entspricht 8-10 Sekunden Netflix-Streaming), bei Kosten von 0.05-0.14 $ per Million Token. Googles 33-fache Effizienzsteigerung binnen eines Jahres zeigt die rapide Entwicklung, dennoch bleiben die Ressourcenanforderungen für umfangreiche Digitalisierungsprojekte substanziell.
Modellwahl: Proprietär versus Open Source
Die Unterscheidung zwischen proprietären Frontier-Modellen (zum Beispiel Claude, GPT und Gemini) und Open-Source-Alternativen (wie Mistral, Apertus und Aleph Alpha) hat direkte Auswirkungen auf institutionelle Entscheidungen. Proprietäre Modelle bieten zwar eine überlegene Leistung, schaffen aber auch Abhängigkeiten. Open-Source-Modelle ermöglichen lokales Hosting und Transparenz, haben aber meist eine geringere Leistungsfähigkeit. Für manche Aufgaben können jedoch auch kleinere Modelle besser geeignet sein. Es gilt, einen Mechanismus zu entwickeln, um herauszufinden, welches Modell für Aufgaben im Museum am besten geeignet ist. Das wird niemand anderes für einen übernehmen.
Open Weights ist nicht Open Source ist nicht proprietär.
Erkenntnisse und Perspektiven
LLM-Integration in museale Datenworkflows erfordert neue Kompetenzen. Als wichtig erweisen sich dabei: Context Engineering für präzise Prompts, die systematische Zerlegung von Problemen in deterministische und probabilistische Komponenten sowie das Verständnis statistischer Prozesse.
Die Methodik lässt sich auf andere Sammlungstypen wie Protokollbücher, Inventarlisten oder Korrespondenzen anwenden. Jeder Anwendungsfall erfordert separate Evaluation. Die Balance zwischen Automatisierung und Qualitätssicherung bestimmt den Erfolg. Für das Hans-Gross-Kriminalmuseum ermöglichen die strukturierten Daten erstmals quantitative Analysen historischer Kriminalfälle. Diese systematische Erschließung eröffnet Forschungsperspektiven, die mit manuellen Methoden nicht realisierbar waren.
Emergente Eigenschaften von LLMs ermöglichen neue Arbeitsweisen, erfordern aber kontinuierliche kritische Reflexion ihrer Outputs. Der Workshop vermittelte nicht nur technische Fertigkeiten, sondern auch das notwendige konzeptionelle Verständnis für den verantwortungsvollen Einsatz dieser Technologien im Museumskontext.
Zur Qualitätssicherung eignen sich gestufte Verfahren wie menschliche Stichproben, Tests durch ein zweites Modell („LLM as a Judge“) oder automatisierte Validierungsskripte. Zu viele Iterationen können allerdings zu Überkorrekturen führen – in der Regel sind ein bis zwei Durchläufe ausreichend.










