KI im Museum: Angewandte Generative KI und Forschungsunterstützung
Generative KI und Prompt Engineering für das Museum mit Christopher Pollin
Der dritte Workshop der Reihe „KI im Museum" verband die theoretischen Grundlagen und praktischen Erfahrungen der ersten beiden Teile mit konkreten Forschungsanwendungen. Im Zentrum stand die systematische Transformation historischer Sammlungsdaten am Beispiel der Flechten-Fundorte aus der „Flora von Tirol" von Dalla Torre und Sarnthein. Diese Demonstration zeigte, wie museale Datenbestände mit hybriden KI-Systemen erschlossen werden können.
Das Flechten-Beispiel als Anwendungsfall
Ausgangspunkt waren historische Fundorteinträge aus der Zeit um 1900, die in den Darwin Core Archive Standard (DwCA) überführt werden mussten – ein internationales Format für Biodiversitätsdaten mit über 160 Felddefinitionen. Neben der Extraktion einzelner Entitäten wie wissenschaftlicher Artnamen oder Fundorte galt es, hierarchische Strukturen korrekt zu interpretieren. Varietäten erschienen als Untergliederungen der Hauptart, während Fundorte einem wiederkehrenden, jedoch nicht vollständig konsistenten Muster folgten: Regionalkürzel, Ortsangabe und Literaturzitat in Klammern.
Christopher Pollin demonstrierte anhand konkreter Beispiele die Komplexität dieser Transformation. Ein Eintrag wie „O bei Landeck auf Kalk an schattigen Felsen" erforderte die Auflösung des Regionalkürzels O für Oberinntal, die Unterscheidung zwischen geografischer Lokalität und ökologischem Habitat sowie die korrekte Zuordnung zu den entsprechenden DwCA-Feldern. Diese vielschichtige Aufgabe verdeutlichte die Notwendigkeit eines systematischen Ansatzes, der über einfache Textextraktion hinausgeht.
Wissensdestillation und explizites Context Management
Wissensdestillation erwies sich als zentraler methodischer Baustein. Anstatt die vollständige DwCA-Dokumentation in jeden Arbeitsschritt einzubeziehen, wurde das relevante Wissen in ein kompaktes Markdown-Dokument verdichtet. Diese Referenz umfasste ausschließlich die essentiellen Felddefinitionen, Validierungsregeln und Mapping-Vorgaben für die Demonstration.
Die explizite Wissensverwaltung ermöglichte Versionierung und Reproduzierbarkeit, reduzierte den Token-Verbrauch bei LLM-Anfragen erheblich und machte den Prozess unabhängig von externen Retrieval-Diensten. Teilnehmende erkannten die Übertragbarkeit auf eigene Kontexte, etwa bei der Arbeit mit LIDO, CIDOC-CRM oder institutionsspezifischen Metadatenstandards.
Hybride Systemarchitektur in der Praxis
Das demonstrierte System kombinierte deterministische Regeln mit generativer KI in einem zweistufigen Verfahren. Die erste Stufe umfasste regelbasierte Komponenten für eindeutig strukturierte Aufgaben. Die Auflösung der historischen Regionalkürzel erfolgte über festgelegte Zuordnungen. Taxonomische Namen wurden gegen etablierte Nomenklatur-Datenbanken validiert. Diese deterministischen Verfahren gewährleisteten Fehlerfreiheit bei klar definierten Mustern.
Die zweite Stufe nutzte ein Sprachmodell für semantisch komplexe Aufgaben. Die Unterscheidung zwischen Habitat und Lokalität erforderte kontextabhängige Interpretation. Die Formulierung „auf Kalk an schattigen Felsen" musste als Habitatbeschreibung erkannt und vom geografischen Fundort getrennt werden.
Über die technische Umsetzung hinaus rückte im Workshop die Frage in den Fokus, wie KI-Systeme operativ in Forschungsumgebungen eingebettet werden können.
Neuere agentische Arbeitsumgebungen wie Claude Code verdeutlichen, dass Sprachmodelle zunehmend über reine Texterzeugung hinausgehen. Sie können Code ausführen, Dateien anlegen, Dokumente öffnen und komplexe Verarbeitungsschritte selbständig durchführen – allerdings in abgeschlossenen, kontrollierbaren Umgebungen. Diese Fähigkeit, KI-Systeme direkt in den Forschungsworkflow einzubetten, erweitert die praktische Anwendbarkeit im musealen Kontext erheblich. Diskutiert wurde zugleich die Frage der Datensouveränität: Während cloudbasierte Systeme hohe Performanz bieten, sprechen Datenschutz und institutionelle Kontrolle für lokale oder europäische Modelle, die innerhalb der eigenen Infrastruktur betrieben werden können.
Neuere agentische Arbeitsumgebungen wie Claude Code verdeutlichen, dass Sprachmodelle zunehmend über reine Texterzeugung hinausgehen. Sie können Code ausführen, Dateien anlegen, Dokumente öffnen und komplexe Verarbeitungsschritte selbständig durchführen – allerdings in abgeschlossenen, kontrollierbaren Umgebungen. Diese Fähigkeit, KI-Systeme direkt in den Forschungsworkflow einzubetten, erweitert die praktische Anwendbarkeit im musealen Kontext erheblich. Diskutiert wurde zugleich die Frage der Datensouveränität: Während cloudbasierte Systeme hohe Performanz bieten, sprechen Datenschutz und institutionelle Kontrolle für lokale oder europäische Modelle, die innerhalb der eigenen Infrastruktur betrieben werden können.
Präzisierung der Arbeitsanweisungen
Vier spezifische Anweisungen strukturierten den Extraktionsprozess und verbesserten die Qualität der Ergebnisse deutlich. Erstens die explizite Vorgabe zur Erhaltung geografischer Hierarchien in der Lokalitätsbeschreibung. Zweitens die Instruktion zur getrennten Extraktion von Habitat und Fundort. Drittens die Anforderung, den Originaltext als verbatimLocality zu bewahren. Viertens die Vorgabe zur konsistenten Handhabung von Literaturzitaten.
Diese Erfahrung bestätigte die im zweiten Workshop diskutierte These, dass Context Engineering und präzise Formulierung entscheidend für erfolgreiche Datenextraktion sind.
Die Workshopdiskussion machte deutlich, dass erfolgreiche KI-Nutzung weniger von der Größe eines Modells als von der Qualität seiner Anweisungen abhängt. Context Engineering – also die gezielte Gestaltung und Begrenzung des Kontexts, in dem ein Modell arbeitet – erwies sich als Schlüsseltechnik. Teilnehmende experimentierten mit der Übertragung von Prinzipien der Softwareentwicklung, etwa der Formulierung von User Stories („Als Kuratorin möchte ich …“), um Anforderungen und Zielzustände präziser zu definieren. Iterative Prompt-Strategien, die Modelle zum „Nachdenken“ zwingen, verbesserten die Ergebnisqualität messbar und führten zu reproduzierbareren Extraktionen.
Taxonomische Klärungen und fachliche Validierung
Die Arbeit mit den Flechtendaten erforderte fachspezifische Klärungen. Eine Web-Recherche ergab, dass Flechten in der Global Biodiversity Information Facility korrekt als kingdom Fungi klassifiziert werden. Diese Zuordnung folgt der taxonomischen Konvention, nach der der Mycobiont, also der Pilzpartner der Flechtensymbiose, als Namensgeber fungiert. Solche fachlichen Details unterstrichen die Notwendigkeit der kontinuierlichen Experteneinbindung.
Parallel dazu wurde die infrastrukturelle Dimension diskutiert.
Über den unmittelbaren Anwendungsrahmen hinaus wurden die aktuellen Entwicklungen im Bereich generativer KI auch politisch und strategisch eingeordnet. Große US-amerikanische und chinesische Unternehmen treiben die Entwicklung agentischer Systeme mit enormen Rechenressourcen voran – bis hin zur Vision einer „Artificial General Intelligence“. Gleichzeitig gewinnen offene Modelle und lokale Deployments an Bedeutung, da sie europäischen Institutionen ermöglichen, mit eigenen Datenräumen und souveränen Infrastrukturen zu experimentieren. Für Museen eröffnet sich damit ein Spannungsfeld zwischen technologischem Fortschritt und der Verantwortung, Forschungs- und Sammlungsdaten langfristig unabhängig und nachvollziehbar zu halten.
Über den unmittelbaren Anwendungsrahmen hinaus wurden die aktuellen Entwicklungen im Bereich generativer KI auch politisch und strategisch eingeordnet. Große US-amerikanische und chinesische Unternehmen treiben die Entwicklung agentischer Systeme mit enormen Rechenressourcen voran – bis hin zur Vision einer „Artificial General Intelligence“. Gleichzeitig gewinnen offene Modelle und lokale Deployments an Bedeutung, da sie europäischen Institutionen ermöglichen, mit eigenen Datenräumen und souveränen Infrastrukturen zu experimentieren. Für Museen eröffnet sich damit ein Spannungsfeld zwischen technologischem Fortschritt und der Verantwortung, Forschungs- und Sammlungsdaten langfristig unabhängig und nachvollziehbar zu halten.
Validierte Outputs und Werkzeuge
Die finalen Outputs umfassten ein validiertes Excel-File mit DwCA-konformen Records, eine korrigierte Mapping-Tabelle mit Extraktionsregeln und Regionalkürzel-Auflösungen sowie eine Lessons-Learned-Dokumentation. Diese kondensierte alle identifizierten Fehlertypen, Validierungsregeln und Best Practices für zukünftige Digital-Humanities-Anwendungen.
Eine praktische Erkenntnis betraf dabei die Rolle etablierter Werkzeuge in der KI-unterstützten Datenarbeit. Excel erwies sich in der Demonstration als entscheidende Brücke zwischen maschineller Verarbeitung und menschlicher Kontrolle. Als Eingabeformat bot es die Möglichkeit, semi-strukturierte Daten kontrolliert vorzubereiten; als Ausgabeformat ermöglichte es eine transparente Verifikation und manuelle Nachjustierung der Ergebnisse. Besonders hilfreich war der Einsatz kleiner, kuratierter Teildatensätze, um Modelle gezielt zu testen und ihre Kontextgrenzen auszuloten. Auf diese Weise wurde Excel nicht nur zu einem Werkzeug der Datenhaltung, sondern zu einem Bestandteil des kuratorisch-kritischen Prüfprozesses.
Praktische Übertragung und institutionelle Integration
Der Workshop widmete sich der Übertragbarkeit auf andere Sammlungskontexte. Protokollbücher mit semi-strukturierten Einträgen, historische Inventarlisten mit inkonsistenter Nomenklatur oder Korrespondenzen mit impliziten Verweisstrukturen wiesen ähnliche Transformationsanforderungen auf.
Die vorgestellte Methodik skalierte entsprechend unterschiedlicher institutioneller Voraussetzungen. Einfache Extraktionsaufgaben ließen sich mit Copy-Paste-Workflows in kommerziellen KI-Interfaces realisieren. Komplexere Transformationen erforderten programmatische Lösungen mit API-Anbindung.
Ressourcenbetrachtung
Die API-Kosten blieben bei den demonstrierten Beispielen niedrig, können jedoch bei größeren Datenmengen und leistungsfähigeren Modellen erheblich ansteigen. Die Entwicklung des Workflows, die Wissensdestillation und die Etablierung der Validierungsprozesse erforderten erhebliche Vorinvestitionen. Diese amortisierten sich jedoch bei wiederholter Anwendung oder der Bearbeitung größerer Datenbestände.
Auch strategische Fragen wurden adressiert, insbesondere im Hinblick auf den richtigen Zeitpunkt für KI-gestützte Projekte. In der Abschlussdiskussion wurde die Frage aufgeworfen, ob es sinnvoll sei, datenintensive Projekte aufzuschieben, bis zukünftige Modelle höhere Präzision versprechen. Der Konsens lautete: Warten kann eine legitime Strategie sein – jedoch nur technisch, nicht institutionell. Kompetenzen im Umgang mit KI-gestützten Arbeitsprozessen müssen jetzt aufgebaut werden, um die kommenden Technologien aktiv gestalten zu können. Der Aufbau methodischer Routinen und Dokumentationspraktiken wurde daher als zentrale Zukunftsaufgabe benannt.
Ausblick und nächste Entwicklungsschritte
Für zukünftige Optimierungen wurden weitere Ansätze diskutiert. Die Verwendung strukturierter XML-Tags, ein lokaler Validierungsschritt in Python sowie die Anbindung eines nativen JSON-Schemas über Tool-Use-Schnittstellen sollten sowohl die Kosten als auch die Latenzzeiten reduzieren und zugleich die strukturelle Konsistenz erhöhen.
Die Integration deterministischer Regeln mit einem semantisch arbeitenden Modell erwies sich als besonders effizient. Regelbasierte Elemente erreichten vollständige Genauigkeit bei strukturierten Mustern, während das Sprachmodell bei kontextabhängigen Aufgaben seine Stärken ausspielte. Das Zusammenspiel beider Komponenten ermöglichte eine reproduzierbare Datenextraktion.
Ergänzend wurde betont, dass die Wahl der Methode stets nach dem Prinzip „so deterministisch wie möglich, so generativ wie nötig“ erfolgen sollte. In der Diskussion wurde herausgearbeitet, dass deterministische Methoden dort bevorzugt werden sollten, wo sie machbar sind, um Nachvollziehbarkeit zu sichern. Generative Modelle kommen vor allem bei semantisch komplexen oder unstrukturierten Aufgaben zum Einsatz. Die Kombination beider Ansätze – ein hybrides Vorgehen – wurde als methodisch robust und zukunftsfähig identifiziert.
Methodische Reflexion
Der dritte Workshop vervollständigte das Bild der generativen KI im Museumskontext. Nach den konzeptionellen Grundlagen und dem praktischen Datenalltag zeigte die Forschungsunterstützung die Synthese beider Aspekte. Die Flechten-Demonstration verdeutlichte, dass erfolgreiche KI-Integration systematische, fachlich fundierte und iterativ verbesserte Arbeitsabläufe erfordert.
Die Demonstration zeigte, wie historische Biodiversitätsdaten mit hybriden KI-Systemen erschlossen werden können. Die Verbindung deterministischer Regeln mit generativer Sprachverarbeitung ermöglichte einen reproduzierbaren, wissenschaftlich überprüfbaren Workflow.
Damit verbunden ist eine neue Form wissenschaftlicher Arbeitskultur, die nicht nur Ergebnisse, sondern auch Prozesse transparent macht. Eine besonders fruchtbare Erkenntnis des Workshops war die Bedeutung der begleitenden Dokumentation. Durch das bewusste Simulieren eines Projekts – mit klaren Ordnerstrukturen, Markdown-Referenzen und versionierten Mapping-Regeln – entsteht ein digitales Laborbuch, das sowohl den Prozess nachvollziehbar als auch reproduzierbar macht. Dieses Prinzip der „Dokumentation durch Struktur“ verbindet technisches und kuratorisches Arbeiten und eröffnet neue Wege für nachhaltige Wissensorganisation im Forschungsalltag.
Die systematische Herangehensweise bewährte sich als Brücke zwischen explorativer Entwicklung und produktiven Workflows. Die Teilnehmenden erhielten konkrete Ansatzpunkte für eigene Anwendungsfälle und das methodische Rüstzeug, die Transformation musealer Datenbestände mit den vorgestellten Methoden anzugehen.










