KI im Museum: Grundlagen Generative KI und Prompt Engineering
Generative KI und Prompt Engineering für das Museum mit Christopher Pollin
Die Entwicklung generativer KI-Systeme stellt Museen vor neue Herausforderungen. Tech-Konzerne setzen mit ihren Frontier-AI-Modellen neue Standards und schaffen eine potenzielle Monopolisierung von Forschungs- und Analysewerkzeugen, die proprietäre Systeme zur zunehmenden Automatisierung von Forschung und Programmierung nutzt. Christopher Pollin plädierte im Workshop für eine „aufgeklärte Neugier“ als Haltung gegenüber KI – weder blinder Hype noch reflexartige Ablehnung. Die dreiteilige Workshopreihe behandelte Grundlagen generativer KI, Praxisbeispiele und Forschungsunterstützung mit Fokus auf museale Forschungsdaten. Im Zentrum stand die Frage, wie Museen diese mächtigen, aber limitierten Werkzeuge nutzen können, ohne ihre wissenschaftliche Unabhängigkeit zu gefährden – falls dies überhaupt möglich ist.
Grenzen und Möglichkeiten am praktischen Beispiel
Das Hans-Gross-Kriminalmuseum in Graz bildete den praktischen Ausgangspunkt für die Untersuchung generativer KI in der Museumsarbeit. Christopher Pollin verfasste 2017 am Zentrum für Informationsmodellierung der Universität Graz im Fach Europe, Digital Media, Arts and Cultural Heritage Studies seine Masterarbeit zu diesem Thema. Im Rahmen eines Studierendenprojekts wurde der Bestand an Wilderer-Exponaten des Kriminalmuseums digitalisiert und als Forschungsdaten im Geisteswissenschaftlichen Asset Management System (GAMS) publiziert.
Während der Schwerpunkt 2017 auf der manuellen Implementierung von Webinterfaces zur Exploration der Forschungsdaten lag, demonstrierte Pollin im Workshop die veränderten Möglichkeiten durch aktuelle KI-Modelle. Das Interface unter https://chpollin.github.io/km/ entstand innerhalb weniger Stunden mittels KI-Unterstützung und zeigt erweiterte Funktionalitäten gegenüber der ursprünglichen Implementierung. Diese Low-Code/No-Code-Ansätze demokratisieren die Softwareentwicklung: Museumsmitarbeiter:innen können ohne tiefes Programmierwissen funktionale Prototypen erstellen. Was früher Wochen externer Entwicklung benötigte, entsteht heute in Stunden – ein Paradigmenwechsel, der besonders für ressourcenknappe Kulturinstitutionen relevant ist.
Dieser Vergleich illustriert die Entwicklung der Modelle, insbesondere bei der Datenerfassung und Code-Generierung für kleinere, überschaubare Tools im Unterschied zu komplexer Softwareentwicklung.
In einem weiteren Workshop wurden konkrete Beispiele demonstriert. Die Analyse einer historischen Karteikarte aus dem Wilderer-Bestand machte spezifische Einschränkungen deutlich. Claude Sonnet 4.5 verfügt beispielsweise nicht über eine Handschrifterkennungsfunktion. Für diese Aufgabe eignen sich spezialisierte Tools wie eScriptorium oder Transkribus besser. Mit dem transkribierten Plain Text kann Claude Sonnet 4.5 hingegen effektiv arbeiten und strukturierte Analysen durchführen. Wichtig ist, dass LLMs Arbeiten vielmehr simulieren müssen. Das bedeutet, dass sie vorher Informationen extrahieren, strukturieren und dann in ein bestimmtes Format überführen müssen.
Die OCR-Fähigkeiten aktueller Large Language Models (LLM) variieren je nach Anwendungsfall und Material. Während sie bei gedruckten Texten und modernen Dokumenten funktionieren können, zeigen sich bei historischen Handschriften unterschiedliche Erfolgsraten. Die Wahl des geeigneten Tools hängt vom spezifischen Workflow ab. Grundsätzlich sollten etablierte, spezialisierte Alternativen geprüft werden, bevor LLMs für OCR-Aufgaben eingesetzt werden.
Bei der strukturierten Objektanalyse verhielt es sich anders. LLMs sind vielmehr multimodale Modelle, die sowohl Text als auch Bilder und teilweise auch Videos verarbeiten können. So konnte die KI eine Wilderermaske aus demselben Bestand detailliert beschreiben. Sie identifizierte die verwendeten Materialien, analysierte die dreidimensionale Form des Objekts und ordnete es in mögliche kulturhistorische Kontexte ein.
Die multimodalen Fähigkeiten aktueller KI-Systeme gehen über Text- und Bildanalyse hinaus. SUNO v5 ermöglicht produktreife Musikgenerierung, was grundlegende Fragen nach Walter Benjamins Aura und der Authentizität künstlerisch-kultureller Erzeugnisse aufwirft. Video-Generatoren wie VEO 3 und Sora 2 werden oft als Physiksimulatoren missverstanden, obwohl ihnen echtes Weltverständnis fehlt – sie approximieren visuelle Muster, ohne die zugrundeliegenden physikalischen Gesetze zu verstehen. Tools wie Vibe Coding zeigen Ansätze für Agentic Coding, bleiben aber beim Promptotyping stehen, da die für echte Autonomie nötigen Weltmodelle fehlen.
Expert-in-the-Loop als zentrales Prinzip
Den theoretischen Rahmen des Workshops bildete Ethan Mollicks Konzept der Co-Intelligence. KI-Systeme funktionieren im Museumskontext als Verstärkung von Expert:innenwissen, nicht als dessen Ersatz. Diese Beobachtung prägte den Workshop-Ansatz, da bekannte Probleme wie Halluzinationen, also das Erzeugen von inkorrekten Antworten, und Sycophancy, das zu starke Zustimmen von User-Input, bei LLMs systematische Workflows erfordern. An dieser Stelle seien nur diese zwei Probleme und eine Reihe weiterer Probleme des Einsatzes von LLMs in der Anwendung genannt.
Ein entwickelter Workflow für Deep-Research-gestützte Literaturanalyse demonstrierte diesen Ansatz, in dem Expert:innen Möglichkeiten haben, LLM-generierte Inhalte zu verifizieren. Das Beispiel stammte aus einem laufenden Forschungsprojekt zu feministischer AI-Literacy, die Methodik lässt sich jedoch auf museale Literaturrecherchen übertragen. Der Prozess umfasst vier Schritte: Erstens die Identifikation relevanter akademischer Literatur aus den Jahren 2023 bis 2025. Zweitens die Erstellung einer strukturierten Zusammenfassung mit maximal 150 Wörtern pro Quelle. Drittens die Zitierung im APA-Format mit vollständigen URLs. Viertens die systematische Qualitätsbewertung anhand von Peer-Review-Status, Impact Factor und Zitationshäufigkeit.
Zentral für diesen Workflow sind die sogenannten Deep-Research-Mechanismen. Dabei handelt es sich um Multi-Agenten-Systeme, die über einen längeren Zeitraum hinweg sehr viele Websuchen durchführen, die Inhalte dabei destillieren und sie gegebenenfalls auch überprüfen (soweit ein LLM das kann). Ein Prompt, um solche Deep Researches zu konfigurieren, wurde im Workshop gemeinsam besprochen.
Technologische Asymmetrien und institutionelle Herausforderungen
Die Qualitätsunterschiede zwischen kommerziellen Frontier-Modellen und Open-Source-Alternativen sind messbar. GPT-5, Claude Opus 4.1, Sonnet 4.5 und Gemini 2.5 Pro liefern Ergebnisse und Funktionen, die von freien Modellen derzeit nicht erreicht werden. Diese Asymmetrie kann für öffentliche Institutionen zu Abhängigkeiten führen. Entweder man entscheidet sich für Open-Source-Modelle, bei denen nachvollziehbar ist, was passiert, und die im Idealfall auch in der eigenen Infrastruktur gehostet werden können, oder man verwendet die deutlich besseren proprietären und kommerziellen Tools. Beide Varianten, und vielleicht gibt es auch noch andere, erscheinen nicht vollends zufriedenstellend zu sein.
Hinzu kommen rechtliche und ethische Aspekte als zusätzliche Faktoren. Die Vereinbarkeit der Nutzung solcher Dienste mit den Anforderungen der DSGVO bleibt unklar. Museen müssen klare Datenpolitiken entwickeln: Welche Informationen dürfen in Cloud-Systeme, welche müssen lokal verarbeitet werden? Ohne solche Klassifizierungssysteme riskieren Institutionen Datenschutzverletzungen oder blockieren sich durch übervorsichtiges Handeln selbst. Gleichzeitig stellt sich die Frage nach der Kontrolle über digitalisierte Kulturgüter, wenn deren Analyse über proprietäre Systeme erfolgt. Wichtig ist, dass solche Problemstellungen angegangen werden!
Praktische Anwendungsfelder für Museen
Neben diesen Herausforderungen existieren konkrete Einsatzmöglichkeiten. Bei der Transformation unstrukturierter Sammlungsdaten in durchsuchbare Forschungsdatenbanken sind KI-Systeme einsetzbar. Die Extraktion von Informationen aus Bildern und Texten, deren Überführung in strukturierte Datenformate und die Generierung einfacher Web-Interfaces sind realisierbare Aufgaben.
Der Fokus liegt auf überschaubaren Tools statt auf komplexer Softwareentwicklung. Multi-Agenten-Systeme wie Claude Code oder die Deep-Research-Mechanismen von OpenAI, Anthropic und Perplexity ermöglichen tiefgehende Recherchen. Diese sind jedoch keine echte Agentic AI, da die notwendigen Weltmodelle fehlen. Die Weltmodelle – ein kohärentes Verständnis von Kausalität und physikalischen Gesetzmäßigkeiten – sind bei den großen Tech-Labs aber scheinbar gerade in Entwicklung.
Im Workshop wurden fünf Schritte für die praktische Implementierung entwickelt:
- Museen können mit einzelnen Objekten oder kleinen Beständen beginnen;
- KI-Systeme werden als Komponenten in größere Workflows integriert, nicht als Standalone-Lösungen;
- die kontinuierliche Einbindung von Fachexpert:innen wurde als notwendig identifiziert;
- jedes KI-generierte Ergebnis erfordert Überprüfung;
- Erfolge wie Misserfolge sollten dokumentiert werden.










