Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung. Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.
Semantische Klassifikation lexikographischer Inhalte mithilfe künstlicher Intelligenz neu denken? Ergebnisse einer Studie zur Erweiterung des Bayerischen Wörterbuchs um Ontologie mithilfe von LLMs.
Manuel Raaf, Ines Röhrer
Bayerische Akademie der Wissenschaften, Deutschland
In diesem Beitrag stellen wir eine umfangreiche Studie zur semantischen Klassifikation von Wörterbuchinhalten vor. Ziel der Experimente war es, herauszufinden, inwiefern große Sprachmodelle – sogenannte Large Language Models (LLMs) – den redaktionellen Prozess in einem Wörterbuchprojekt zielführend unterstützen könnten. Neben diversen offenen Modellen wurden kommerzielle Produkte (u.a. ChatGPT) genutzt, um zehntausende Bedeutungsangaben des „Bayerischen Wörterbuchs“ um onomasiologische Sachgruppen zu erweitern. Hierfür erprobten wir verschiedene Prompts, die von den kommerziellen Produkten bzw. auf spezieller KI-Hardware des Leibniz-Rechenzentrums ausgeführt wurden. Zur Evaluation bedienten wir uns eines Goldstandards, der aus der Sachgruppenzuordnung des „Pfälzischen Wörterbuchs“ extrahiert wurde. Die Ergebnisse zeigen, dass kommerzielle Modelle in über 90% der Fälle eine korrekte Sachgruppenzuordnung erreichen, Open-Source-Modelle jedoch nur geringfügig schlechter abschneiden – sofern das offene Sprachmodell nicht stark quantisiert ist und die Anweisungen wohlüberlegt sind. Die Studie belegt einerseits die potenzielle Eignung generativer KI zur Unterstützung redaktioneller Prozesse in der Wörterbucharbeit. Andererseits verdeutlicht sie zugleich die Notwendigkeit menschlicher Qualitätskontrollen. Im Ausblick zeigen wir, wie die besten Ergebnisse in einen webbasierten Workflow integriert werden und diskutieren zukünftige Schritte zur weiteren KI-gestützten lexikographischen Arbeit.
Restaurierungswissen digital vernetzen – Von textlichen Dokumentationen zu maschinenlesbaren Begriffen
Kristina Fischer, Lasse Mempel-Länger
Leibniz-Zentrum für Archäologie, Deutschland
Die Konservierung und Restaurierung kulturhistorischer Objekte ist eine interdisziplinäre Wissenschaft, die geistes- und naturwissenschaftliche Ansätze vereint und den Umgang mit heterogenen Daten aus verschiedenen Disziplinen erfordert. Ein zentrales Problem ist dabei die fragmentierte Datenstruktur und die uneinheitliche Terminologie, was Datenaustausch und Zusammenarbeit erschwert.
Um diesen Herausforderungen zu begegnen, wurde am Leibniz-Zentrum für Archäologie (LEIZA) im Rahmen von NFDI4Objects ein "Konservierungs- und Restaurierungsfachthesaurus für archäologische Kulturgüter" entwickelt. Dieser basiert auf dem Simple Knowledge Organization System (SKOS) und folgt den FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable).
Der Thesaurus ermöglicht die systematische Erfassung von fachspezifischem Wissen durch die semantische Verknüpfung hierarchischer, äquivalenter und assoziativer Beziehungen zwischen Fachbegriffen. Die Entwicklung dieses Thesaurus wurde methodisch und technisch durch eine eigene Webanwendung unterstützt, die Validierung, Visualisierung und kollaborative Weiterentwicklung des Vokabulars ermöglicht. Der validierte Thesaurus kann als RDF-Turtle oder JSON-Datei exportiert und in zentrale Repositorien integriert werden. Version 1.0 des Konservierungsthesaurus soll demnächst öffentlich verfügbar sein und exemplarisch zeigen, wie semantische Technologien das Forschungsdatenmanagement optimieren können.
RO-crate the Manuscripts! Infrastruktur für Automatisierung und semantische Standardisierung von geisteswissenschaftlichen Forschungsdaten
Hagen Peukert
Universität Hamburg, Deutschland
Institutionelle Forschungsdatenrepositorien zeigen insbesondere bei der Bereitstellung von Daten aus geisteswissenschaftlichen Disziplinen hohe Skalierungseffekte, da zwar eher kleine Datenmengen, aber sehr unterschiedliche Datenformate, Datenmodelle und Datenstandards von vielen, unterschiedlichen Forschungsprojekten in einer Anwendung zugänglich gehalten werden können. Umso mehr stellt sich bei der Nachnutzung dieser Daten die Frage nach einer automatisierten Visualisierung und Kuration. Eine mögliche Lösung ist, die Forschungsdateninfrastruktur so zu gestalten, dass bereits zum Zeitpunkt der Erstellung der Daten die bekannten Probleme der Datenkuration gelöst werden. Dies geschieht durch entsprechende Schnittstellen und Standards.