FORGE 2023 - ConfTool Pro Printout

Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

Datum: Mittwoch, 04.10.2023

12:00 - 13:00

Registrierung und Kaffee

13:00 - 14:30

Workshop: Handschriftentranskription
Ort: Brechtbau Raum 36

KI statt Paläographie: Automatische Transkription von Handschriften und Drucken – Einführung in Transkribus und eScriptorium

Larissa Will¹, Dorothee Huff²

¹Universitätsbibliothek Mannheim, Deutschland; ²Universitätsbibliothek Tübingen, Deutschland

Texterkennungs- und Transkriptionsplattformen wie Transkribus und eScriptorium können bei der Erschließung historischer Quellen unterstützen und bieten gegenüber kommandozeilenbasierter Texterkennungssoftware den Vorteil einer einfachen Anwendung über eine graphische Oberfläche. Dabei spielt es keine Rolle, ob es sich um eine Postkarte, eine historische Zeitung oder eine mittelalterliche Handschrift handelt. Von der Layouterkennung und -korrektur über die automatisierte Texterkennung bis hin zur manuellen Korrektur der OCR-Ergebnisse und dem Training eigener Modelle werden die grundlegenden Funktionen von Transkribus und eScriptorium vorgestellt und können von den Teilnehmenden selbst an Beispielen getestet werden. Das Mitbringen eines eigenen Laptops wird empfohlen für aktive Teilnahme; gerne kann vorab bereits eine Registrierung bei Transkribus (https://readcoop.eu/transkribus/) erfolgen.

14:30 - 15:00

Kaffeepause

15:00 - 18:30

Workshop: Semantische Annotation
Ort: Brechtbau Raum 6

Semantic Annotation of Heterogeneous, Multimedia Cultural Research Data: A FOSS Toolchain for the Digital Humanities

Lozana Rossenova, Lucia Sohmen, Paul Duchesne, Lukas Günther, Zoe Schubert, Ina Blumel

TIB – Leibniz Information Centre for Science and Technology, Deutschland

This workshop will present a workflow for structuring and annotating multimedia datasets within a collaborative, linked open data environment that accurately preserves data provenance. Participants will take part in practical demonstrations of the Semantic Kompakkt toolchain that connects three existing open source software tools: 1) OpenRefine – for data reconciliation and batch upload; 2) Wikibase – for linked open data storage; and 3) Kompakkt – for rendering and annotating 3D models, and other 2D and AV media files. This toolchain was developed in the context of NFDI4Culture with a particular focus on increasing interoperability and data reuse across different domains of cultural research. Participants are encouraged to bring their own laptops to the workshop in order to be able to take part in the hands-on exercises.

15:00 - 18:30

Workshop: Digitale Editionen
Ort: Brechtbau Raum 27

Dieser Workshop ist auf max. 40 Teilnehmende beschränkt.

FAIRes FDM für digitale Editionen

Philipp Hegel⁶, Kilian Hensen², Sandra König⁴, Christoph Kudella⁵, Karoline Lemke¹, Daniela Schulz³, Melanie Seltmann⁷

¹Berlin-Brandenburgische Akademie der Wissenschaften; ²CCeH, Universität zu Köln; ³Herzog August Bibliothek Wolfenbüttel; ⁴Leopoldina - Nationale Akademie der Wissenschaften, Deutschland; ⁵Niedersächsische Staats- und Universitätsbibliothek Göttingen; ⁶Technische Universität Darmstadt; ⁷ULB Darmstadt

Die Berücksichtigung der FAIR-Prinzipien während des editorischen Prozesses bildet die Grundlage für ein ganzheitliches und nachhaltiges Forschungsdatenmanagement, welches nur gemeinschaftlich umgesetzt werden kann. Ziel des Workshops ist es, unter den Teilnehmer:innen das Problembewusstsein dafür zu schärfen, vor welchen Herausforderungen sie in diesem Prozess stehen. Anhand kurzer Impulse werden die FAIR-Prinzipien, weitere Leitlinien sowie deren Niederschlag in der Forschungsförderung skizziert, bevor gemeinsam Maßnahmen zu deren Umsetzung erarbeitet werden. Der Workshop richtet sich an alle am Prozess von Datenerstellung, Datenmanagements und -nutzung beteiligten Personen. Der Workshop wird von der Datendomäne Editionen des NFDI-Konsortiums Text+ organisiert und findet im World Café-Format statt.

15:00 - 18:30

Workshop: XR-Ausstellungen
Ort: Brechtbau Raum 37

Einführung in ExPress-XR: Einfache Erstellung von öffentlichkeitswirksamen XR-Ausstellungen im Kunst & Kulturbereich

Kevin Körner, Luca Dreiling

Universität Tübingen, Deutschland

Um junge Menschen zu motivieren, mehr ins Museum zu gehen, ist es wichtig, die medialen Interessen der Zielgruppe zu kennen – beispielsweise die Erweiterte Realität (XR) – und diese in Kunst- und Kulturausstellungen zu integrieren. Wir möchten auf der Forge23-Tagung einen Workshop zum ExPress-XR-Projekt anbieten, der es ermöglicht, Applikationen der Erweiterten Realität ohne Programmiererfahrung zu entwickeln. Zudem stellt er über den OpenXR-Standard sicher, dass erstellte Anwendungen auf den verbreitetsten XR-Geräten ohne großen Änderungsaufwand verwendet werden können. Der Workshop soll eine XR-Livesession umfassen, auf der die Teilnehmenden Erfahrungen mit der Technologie sammeln dürfen, sowie eine Hands-on-Session zur Arbeit mit ExPress-XR.

16:30 - 17:00

Kaffeepause

Datum: Donnerstag, 05.10.2023

8:00 - 9:00

Registrierung und Kaffee

9:00 - 11:00

Workshop: Data Literacy Bedarfe
Ort: Brechtbau Raum 6

Dieser Workshop ist auf max. 15 Teilnehmende beschränkt.

Die Ermittlung von Data Literacy Bedarfen in Studium, Lehre und Qualifikation in den historisch arbeitenden Wissenschaften. Ein kritischer Blick auf die Zwischenergebnisse der Erhebung

Laura Döring, Marina Lemaire

Universität Trier, Deutschland

In Forschung und Lehre ist die frühe und zielgruppengerechte Integration von FDM- und DL-Inhalten elementar, um Datenkompetenzen effizient zu vermitteln sowie nachhaltig in die Forschungspraxis zu integrieren. Um den aktuellen Bedarf an Data Literacy Lehr- und Lernangeboten für die verschiedenen Qualifikationsstufen in den historisch orientierten Disziplinen zu ermitteln, wird in NFDI4Memory im Laufe des Jahres eine Bedarfserhebung durchgeführt. In dem Workshop sollen erste Zwischenergebnisse präsentiert, auffällige Beobachtungen in den Auswertungen mit den Workshopteilnehmenden diskutiert und weitere Fragen der Teilnehmenden an die Daten gesammelt und soweit möglich direkt anhand der Daten beantwortet werden.

9:00 - 12:00

Workshop: Provenienzforschung
Ort: Brechtbau Raum 27

Wissenslücken, sensible Daten, größtmögliche Transparenz? Provenienzforschung zu Sammlungsgut aus kolonialen Kontexten ermöglichen und nach den FAIR- und CARE-Prinzipien zugänglich machen

Sarah Fründt¹, Romy Köhler², Sabrina Werner¹

¹Deutsches Zentrum Kulturgutverluste, Deutschland; ²Deutsche Digitale Bibliothek, Deutschland

Seit einigen Jahren ist der angemessene Umgang mit Sammlungsgut aus kolonialen Kontexten in deutschen Einrichtungen ein wichtiges kulturpolitisches Thema. In diesem Zusammenhang wurden zwei Portale entwickelt, die Zugang zu den Sammlungen und ihrer jeweiligen Provenienz gewährleisten sollen: das Portal „Sammlungsgut aus kolonialen Kontexten“ („Collections from Colonial Contexts“= CCC-Portal) innerhalb der Deutschen Digitalen Bibliothek und die Datenbank „Proveana“ am Deutschen Zentrum Kulturgutverluste. Im Workshop können verschiedene Formen der Provenienzausweisung in beiden Portalen erprobt und diskutiert werden. Dabei geht es um das spezifische Zusammenwirken von FAIR- und CARE-Prinzipien und das Spannungsfeld zwischen erwünschter Transparenz und gebotener Vorsicht im Hinblick auf sensible Informationen.

11:00 - 12:00

Treffen der DHd AG Datenzentren
Ort: Brechtbau Raum 37

12:00 - 13:00

Registrierung, Mittagspause, Kaffee

Möglichkeiten und Informationen zum Mittagessen in der Nähe des Tagungsorts finden Sie auf dem Informationsblatt in Ihrer Konferenztasche und an der Registrierung.

13:00 - 14:30

Eröffnung und Keynote
Ort: Brechtbau Raum 37
Chair der Sitzung: Aline Deicke, Akademie der Wissenschaften und der Literatur Mainz |Philipps-Universität Marburg

Intersectional Feminist and Anti-Colonial Perspectives on Museum Collection Data

Sara Akhlaq

Technische Universität Darmstadt; Museum für Naturkunde Berlin

This keynote inspects how intersections of race, class, and gender in museum spaces manifest themselves as data biases in digital museum collections. By applying intersectional feminist theories and anti-colonial concepts to the process of digitisation and datafication of museum collections, the focus of this talk will be the breeding grounds of power differential in museums and other GLAM spaces. By combining intersectional feminist perspectives and visualisation of digital museum collections, this keynote highlights the importance of critical perspectives as an intrinsic part of cultural data as well as its graphical and visual representations. Exercising Audre Lorde’s provocation ‘The master’s tools will never dismantle the master’s house’ in German cultural institutions that are digitising their collections, this talk will focus on historical examples of different tools that have been developed by marginalised communities in order to resist the dominant narratives. Counterdata visualisation will be explored as another tool that explicitly focuses on critical perspectives on the museum collection. Counterdata employs the tool of data visualisation as a way to challenge the power differentials under which the data is collected, analysed, or represented by qualifying and visualising structural oppression. It is argued that it is not possible to undo the centuries of colonial violence that some of the museum's collections implicitly or explicitly embody. However, it is possible to address and highlight these racial, gender, and colonial influences as well as make them part of the metadata schema associated with these colonial collections, and their consequent representation through online platforms.

14:30 - 15:00

Kaffeepause

15:00 - 17:00

Vorträge: Daten erschließen und dokumentieren
Ort: Brechtbau Raum 36
Chair der Sitzung: Katrin Moeller, Martin-Luther-Universität Halle-Wittenberg

Inhaltserschließung für Forschungsdaten: TextGrid Repository, Normdaten und Basisklassifikation

José Calvo Tello, Stefan Funk, Daniel Kurzawe, Ubbo Ventjeer

Niedersächsische Staats- und Universitätsbibliothek Göttingen

Bibliotheken verwenden Klassifikationssysteme für die Sach- und Inhaltserschließung von Primär- und Sekundärliteratur. Für andere Arten von Publikationen, wie z.B. Forschungsdaten, werden sie jedoch nicht eingesetzt. In diesem Beitrag wird die Einführung eines solchen Klassifikationssystems in das TextGrid Repository vorgestellt, das für textuelle Daten (Editionen und Korpora) in XML-TEI geeignet ist. Konkret wird die Basisklassifikation verwendet, ein offenes und im deutschsprachigen Raum weit verbreitetes Klassifikationssystem mit einer mittleren Anzahl von Klassen. In diesem Beitrag möchten wir dafür plädieren, dass Bibliotheken eine aktivere Rolle bei der Beschreibung von Forschungsdaten übernehmen sollten, weil dies zu einer Verbesserung des FAIR-Status der Forschungsdaten führt.

Total Error Sheets for Datasets (TES-D) zur Dokumentation Digitaler Verhaltensdaten

Leon Fröhling¹, Indira Sen¹, Felix Soldner¹, Leonie Steinbrinker², Maria Zens¹, Katrin Weller^1,3

¹GESIS, Deutschland; ²Universität Leipzig, Deutschland; ³CAIS, Deutschland

Die in den Sozialwissenschaften zunehmend zur Untersuchung bekannter Verhaltensmuster und neuartiger Kommunikationsphänomene verwendeten digitalen Verhaltensdaten sind häufig das Resultat eines mehrstufigen Prozesses der Datensammlung. Die bereits zur Sammlung der Daten zu treffenden Designentscheidungen können sich auf häufig unerwartete Weise in der Zusammensetzung und Qualität des resultierenden Datensatzes niederschlagen. Zur besseren Erkennung, Dokumentation und Kommunikation systematischer Verzerrungen, Eigenheiten und potenzieller Fehler in Datensätzen digitaler Verhaltensdaten präsentieren wir die Total Error Sheets for Datasets (TES-D). Das TES-D leitet Forschende durch die kritische Reflektion des Prozesses der Datensammlung und unterstützt bei der Erstellung einer umfänglichen Dokumentation des resultierenden Datensatzes.

Das “TOSCA Modelling Tool” – nachhaltige Dokumentation von Forschungssoftware

Claes Neuefeind, Marcel Schaeben, Philip Schildkamp

Universität zu Köln, Deutschland

Für die Nachnutzbarkeit von Forschungsanwendungen, welche einen zunehmenden Anteil wissenschaftlicher Forschungsergebnisse ausmachen, ist Dokumentation unerlässlich. Dies betrifft neben nutzungsorientierten Bedienungsanleitungen auch die technische Dokumentation der Funktionalität und Betriebsbedingungen solcher Applikationen. Wir schlagen daher vor, den TOSCA-Standard für die Beschreibung von Forschungsanwendungen, deren Bereitstellung und Laufzeitumgebungen einzusetzen und stellen dazu in unserem Beitrag das durch NFDI4Culture geförderte “TOSCA Modelling Tool” vor. Dabei handelt es sich um einen Desktop-basierten, visuellen Editor zur TOSCA-konformen Modellierung von Anwendungen und deren Laufzeitumgebung. In unserem Beitrag präsentieren wir die zentralen Konzepte des TOSCA-Standards und Anwendungsbeispiele für das “TOSCA Modelling Tool”.

“FAIR Collections as Data”: Services von Kulturerbeeinrichtungen für die datengetriebene Forschung

Kathi Woitas

Zentralbibliothek Zürich, Schweiz

Mit dem Konzept Digital Scholarship wird die digitale Transformation der Wissenschaft beschrieben. Bestände aus Kulturerbe-Institutionen stellen hierbei eine unverzichtbare Grundlage für datengetriebene Forschungsansätze in den Geisteswissenschaften dar. Mit deren breiter Aufbereitung und Kuration als Datenkonvolute könnte die Verfügbarkeit von FAIRen Forschungsdaten im grossen Umfang erhöht werden. Collections as Data als ideeller und praktischer Ansatz im Kulturerbe-Sektor, um die computergestützte Nutzung der Bestände zu ermöglichen und zu vereinfachen, bietet hierfür einen vielversprechenden Ausgangspunkt. Mit der breiten Umsetzung von «FAIR Collections as Data» können Bibliotheken die zentrale Basis für die Entwicklung von Digital Scholarship Services legen.

15:00 - 17:00

Vorträge: Methodenkritik, Datenkritik, Methodenreflexion
Ort: Brechtbau Raum 37
Chair der Sitzung: Swantje Dogunke, ThULB Jena

Immer FAIR?! Problematische Inhalte in den Datenbeständen der Provenienzforschung

Sabine Lang

Friedrich-Alexander-Universität Erlangen-Nürnberg, Deutschland

Die Datenbestände der Provienzforschung weisen problematische Inhalte auf. Im Kontext der für Forschungsdaten geforderten FAIR-Prinzipien, also die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Daten, stellen sich sodann folgende Fragen: Wie soll man mit problematischen Inhalten im Digitalen umgehen? Soll alles uneingeschränkt veröffentlicht werden und sind die FAIR-Prinzipien für die Provenienzforschung überhaupt anwendbar? Der Beitrag widmet sich diesen Fragen anhand verschiedener Datenbankbeispiele aus der Provenienzforschung zu NS-verfolgungsbedingt entzogenem Kulturgut und schlägt Strategien für den Umgang mit problematischen Inhalten vor.

Verzerrte Geschichte durch ungleiche Erschließung? - Eine Untersuchung zum Recording Bias in Münzhortdatenbanken

Philip Rademacher

Universität Wuppertal, Deutschland

In der „Coin Hoards of the Roman Empire“ Datenbank der Universität Oxford sind 14.740 Münzhorte aus der römischen Kaiserzeit verzeichnet. Immer mehr Beiträge nutzen diese umfangreiche Datenbasis zur Beantwortung quantitativer Forschungsfragen. Doch wie repräsentativ sind solche Daten, um die Antike zu erforschen? Dieser Beitrag analysiert die Repräsentativität exemplarisch für die Münzdatenverfügbarkeit innerhalb der Datenbank. Sind Hortfunde aus der Nähe antiker Städte oder Militäreinrichtungen häufiger bis auf Münzebene erschlossen als ländliche Funde? Sind Münzhorte aus bestimmten Jahrhunderten häufiger auf Münzebene erschlossen als andere? Als Methode wird ein logistisches Klassifikationsmodell verwendet, welches auch im maschinellen Lernen eingesetzt wird, um Zusammenhänge aufzuzeigen.

Kontingente Beobachtungen: Forschungsdaten unter konstruktivistischem Paradigma

Rabea Kleymann

Leibniz-Zentrum für Literatur- und Kulturforschung, Deutschland

Geisteswissenschaftliche Daten können als Voraussetzung und Ergebnis kontingenter Forschungskontexte und infrastruktureller Settings gelesen werden. In den DH wird häufig der von Johanna Drucker eingeführte Terminus "capta" verwendet, um den konstruktivistischen Charakter von Forschungsdaten zu betonen. Der Konstruktivismus stellt ein latentes Forschungsparadigma der DH dar, das sich unter anderem in Datenpraktiken manifestiert. Der Vortrag widmet sich den Voraussetzungen, Implikationen und Problemfeldern des konstruktivistischen Paradigmas und fragt mithilfe von alternativen Theorieentwürfen nach den (noch) nicht ausgeschöpften transformativen Potenzialen. Drei Fallbeispiele zu Datensammlungen, -bereinigungen und -analysen werden dazu vorgestellt.

Feministische Forschungsdaten FAIR gestalten? Kritische Reflexionen zur Modellierung feministischer Filmgeschichte als Linked Open Data

Pauline Junginger

Philipps-Universität Marburg, Deutschland

Das Women Film Pioneers Project (WFPP) ist eine etablierte Online-Ressource zum Frühen Kino, die individuelle Geschichten von Filmpionierinnen erzählt, um die vielfältigen Tätigkeiten von Frauen in der Frühen Filmindustrie sichtbarer zu machen. Mein Projekt zielt darauf ab, strukturierte Metadaten für das WFPP zu generieren und diese als Linked Open Data aufzubereiten. Im Spannungsfeld zwischen praktischer Umsetzung und kritischer Reflexion untersucht mein Projekt dabei, wie die Prinzipien des Forschungsdatenmanagements in der Medienwissenschaft angewendet werden können und welche kritischen Fragen feministische Theorien diesbezüglich ermöglichen. Der Vortrag präsentiert die methodische Gestaltung des Projekts mit einem Schwerpunkt auf deren Reflexion aus feministischer Perspektive.

17:00 - 17:30

Kaffeepause

17:30 - 19:30

Postersession

A Data Pipeline for Digital Humanities - Development of a Solution for Humanities Data Digitization

Sabina Mollenhauer

Universität Vechta, Deutschland

The dissertation project focuses on humanities data and researchers that have not been involved in the Digital Humanities, and the proposal of a solution to enable the digital collection, preservation, and participation. In doing so, the poster presents a process beginning with an exploration of the traditional data space, continues with the determination of a target group, which will lead to the formulation of requirements in accordance with the software engineering process. Furthermore, the exploration of existing public federated data platforms, will serve to determine technical requirements of a data pipeline solution designed for the target audience and their data.

Aufbau einer Messaging-Pipeline am ZKM zur Harmonisierung der Datenlandschaft und Umsetzung der FAIR Prinzipien

Andreas Kohlbecker

ZKM | Zentrum für Kunst und Medien Karlsruhe, Deutschland

Dieses Poster zeigt am Beispiel des ZKM | Zentrum für Kunst und Medien Karlsruhe, wie historisch gewachsene und heterogene Datenlandschaften in Kulturinstitutionen durch den Einsatz von sog. Messaging-Pipelines harmonisiert werden können. In vielen Kulturinstitutionen besteht historisch bedingt eine heterogene Daten-Infrastruktur. Durch das komplexe Netzwerk von Systemen und Datenflüssen in dieser Infrastruktur kann die Umsetzung der FAIR Prinzipien erschwert werden. Am ZKM | Zentrum für Kunst und Medien Karlsruhe wurde durch die Implementierung einer „Messaging-Pipeline“ die Grundlage für eine moderne und rationelle Daten-Infrastruktur geschaffen. Komponenten und Prozesse, die zur Realisierung der FAIR Prinzipien erforderlich sind, können dadurch wesentlich effizienter implementiert werden.

Das CRDA-Portfolio

Andrea Polywka^1,2

¹NFDI4Culture; ²Philipps-Universität Marburg

Die Cultural Research Data Academy widmet sich als interdisziplinäre und dezentrale Institution des Konsortiums für Forschungsdaten materieller und immaterieller Kulturgüter (NFDI4Culture) der Bündelung bestehender fachspezifische und bedarfsorientierter Aus- und Weiterbildungsmöglichkeiten im Bereich Data und Code Literacy. Demnächst veröffentlicht das Team der CRDA ein kuratiertes Portfolio, welches Informationen zu unterschiedlichen Kurs- und Weiterbildungsangeboten sammelt, die sich thematisch an die Fachcommunities der Kunstgeschichte, Musikwissenschaft, Film- und Medienwissenschaft, Theater- und Tanzwissenschaft, sowie Architektur richten und inhaltlich an den FAIR4S-Kriterien orientiert sind.

Data Literacy für die Klassische Philologie. dAIdalos – eine interaktive Infrastruktur als Lernangebot

Andrea Beyer¹, Konstantin Schulz²

¹Humboldt-Universität zu Berlin, Deutschland; ²Deutsches Forschungszentrum für Künstliche Intelligenz, Berlin, Deutschland

Das Poster informiert über das DFG-geförderte explorative Entwicklungsvorhaben Daidalos, das es Forschenden der Klassischen Philologie und verwandter Disziplinen ermöglichen soll, verschiedene Methoden des Natural Language Processing (NLP) an selbst zusammengestellten Forschungskorpora anzuwenden. Dabei ist Daidalos als interaktive Forschungsinfrastruktur konzipiert, die zugleich den Ausbau wesentlicher Teilfähigkeiten von Data Literacy, z. B. die Zusammenstellung und Analyse von Korpora oder den Umgang mit Annotationen, TEI-XML und graphischen Auswertungen, unterstützt. Hierzu sind vor allem forschungsorientierte, didaktische Lernbausteine und deren Implementierung in die Infrastruktur angedacht, um ein fach- und forschungsbezogenes Lernen zu ermöglichen.

Data Papers. Eine kritische Bestandsaufnahme

Caroline Jansky, Martin de la Iglesia

Herzog August Bibliothek Wolfenbüttel, Deutschland

Data Papers schlagen die Brücke zwischen der etablierten Publikationsform des Zeitschriftenartikels und Forschungsdatenpublikationen, die derzeit Aushandlungsprozessen unterworfen sind. Ziel dieses Beitrags ist die Skizzierung eines „idealen“ Data Papers in einer geisteswissenschaftlichen Open-Access-Zeitschrift. Für diese konzeptuellen Überlegungen zum Publikationsformat Data Papers werden im Rahmen einer Bestandsaufnahme sowohl geisteswissenschaftliche Data Journals / Data Papers als auch solche Publikationsorgane, die sich nicht ausdrücklich als Data Journals verstehen, hinsichtlich ihres Umgangs mit Forschungsdaten betrachtet, um die unterschiedlichen Herangehensweisen an und Verständnisse von Data Papers herauszuarbeiten. Dabei gilt es, die Bedarfe der an Forschungsdatenpublikationen Beteiligten – Autor*innen, Redakteur*innen, Gutachter*innen und Rezipient*innen – zu ermitteln und gegeneinander abzuwägen.

Daten sind Daten sind Daten sind Daten. Zu den Auswirkungen datengestützter Analysen auf Forschungsinfrastrukturen und Datenverständnis in den Geisteswissenschaften

Kai Matuszkiewicz

Philipps-Universität Marburg, Deutschland

Der Vortrag möchte illustrieren, welche Rolle Forschungsinfrastrukturen wie Fachrepositorien in der digitalen Transformation der Geisteswissenschaften spielen. Hierbei ist es nicht nur essentiell, dass Forschungsinfrastrukturen wissenschaftsgetrieben entwickelt werden, um auf deren Bedarfe mit neuen Dienstleistungen reagieren zu können, darüber hinaus ist es notwendig, dass sich diese Forschungsinfrastrukturen aktiv an diesem fachlichen Aushandlungsprozess beteiligen und ihn mitgestalten. Dies betrifft insbesondere Daten und wie die Arbeit mit diesen die Geisteswissenschaften methodisch und praxeologisch verändert. Im Rahmen des Vortrags soll aufgezeigt werden, was dies konkret für ein Fachrepositorium in den Geisteswissenschaften sowie die geisteswissenschaftliche Auffassung von Daten bedeutet.

Der krönende Abschluss: Paläographische Besonderheiten im Kontext der automatischen Texterkennung

Laura Frank, Felix Ernst, Germaine Götzelmann

Karlsruher Institut für Technologie, Deutschland

Die automatische Erkennung von Text aus Bildern wird immer leistungsstärker und zuverlässiger, nicht zuletzt durch den erfolgreichen Einsatz von Machine-Learning-Methoden. Dennoch liegt das Ziel auf der Umwandlung in reinen maschinenlesbaren Text. Allerdings verbergen sich in paläographischen und kodikologischen Details in Manuskripten und Drucken oftmals tiefliegende Bedeutungen, die bei automatischer Texterkennung nicht im Fokus stehen. Dieses Poster möchte diese Forschungslücke beleuchten und den Bedarf einer Erweiterung der bestehenden automatischen Texterkennung verdeutlichen, welche paläographische Details fokussiert. Die Ansätze für die technische Umsetzung einer solchen Erkennung sollen präsentiert werden. Ebenso sollen geisteswissenschaftliche Projekte mit ähnlichen Anwendungsmöglichkeiten auf das Vorhaben aufmerksam werden.

Eine prosopographische Datenbank zur Geschichte der Mathematik an der Universität Tübingen

Philip Beeley², Reinhard Kahle¹

¹Universität Tübingen, Deutschland; ²Faculty of History, University of Oxford, UK

Es wird ein Datenbankprojekt zu Mathematikern an der Universität Tübingen vorgestellt, mit Daten aus verschiedenen Quellen wie Matrikelregistern, Listen von Lehrstuhlinhabern und Vorlesungsabschriften. Diese Datenbank ist Teil eines Projektvorhabens im Rahmen der anstehenden 550-Jahrfeier der Universität Tübingen unter dem Titel „Disziplingeschichte als Universitätsgeschichte“. Die zu konstruierende prosopographische Datenbank wird die Daten interaktiv und öffentlich zugänglich machen und es damit erlauben, individuelle Lebens- und Wissenschaftswege in der Mathematik nachzuvollziehen. In diesem Vortrag geht es um die Herausforderungen, die sich beim Konzept der Datenbank im Hinblick auf die Spezifikation, Datenlage, Nutzbarkeit und nicht zuletzt Kompatibilität und Vernetzbarkeit mit anderen bestehenden Datenbanken ergeben.

Entwicklung und Implementierung eines Metadaten-Modells für Literatur im Netz

Nina Buck¹, Mona Ulrich², Kerstin Jung³, Andreas Ganzenmüller¹, Volodymyr Kushnarenko¹, Thomas Bönisch¹

¹Höchstleistungsrechenzentrum (HLRS), Universität Stuttgart, Deutschland; ²Deutsches Literaturarchiv Marbach, Deutschland; ³Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung (IMS), Deutschland

Die Entwicklung eines passenden Metadaten-Modells erfordert Zeit und Aufwand und darf sich nicht nur auf die Beschreibung der Daten selbst beschränken, sondern muss immer auch dem Einsatz auf unterschiedlichen Systemen gerecht werden. Im Projekt SDC4Lit wurde für archivierte literarische Werke aus dem Netz ein Metadaten-Modell basierend auf Standards verschiedener Kataloge und Datenbanken sowie im Hinblick auf die Implementierung in einem Repositorium entwickelt.

EVOKS - Benutzerfreundliche Erstellung kontrollierter Vokabulare für die Geisteswissenschaften

Felix Ernst, Laura Frank, Germaine Götzelmann, Klara Eckhardt, Jan Maly, Yannis Preker, Jonas Scholz

Karlsruher Institut für Technologie, Karlsruhe, Deutschland

EVOKS ist ein Werkzeug zur benutzerfreundlichen, kollaborativen Erstellung, Bearbeitung und Veröffentlichung von Wissensgraphen im SKOS-Format durch Fachwissenschaftler:innen ohne tiefe Vorkenntnisse in Ontologieentwicklung. Bei der Entwicklung wurden auch die FAIR-Prinzipien beachtet. Hieraus folgt die Verwendung von standardisierten Schnittstellen, Datenmodellen und Protokollen sowie Persistenz durch feste IDs und eine Versionierung. Durch eine Nutzer:innen- und Gruppenverwaltung wird ein einfacher Reviewprozess ermöglicht sowie die Urheberschaft aller erstellen Inhalte sichergestellt.

EVOKS wird bereits in verschiedenen, größtenteils geistes-wissenschaftlichen Forschungsprojekten genutzt bzw. erprobt. Daher ist das Ziel des Posters, EVOKS der Forschungsgemeinschaft vorzustellen und wertvolles Feedback zu erhalten, um die Software weiterzuentwickeln.

F wie Registry. Die Text+ Registry als Hilfsmittel zur Auffindbarkeit von Ressourcen

Philippe Genêt², Tobias Gradl⁵, Kilian Hensen⁴, Christoph Kudella³, Daniela Schulz¹

¹Herzog August Bibliothek Wolfenbüttel, Deutschland; ²Deutsche Nationalbibliothek; ³Niedersächsische Staats- und Universitätsbibliothek Göttingen; ⁴CCeH, Universität zu Köln; ⁵Universität Bamberg

Im Kontext des NFDI-Konsortium Text+ entsteht mit der Registry ein übergreifendes Verzeichnis, in dem Ressourcen verschiedener Datendomänen erfasst und vernetzt werden. Die Registry speist sich aus verschiedenen Datenquellen, geht aber in ihrem Ansatz der zentralen Verzeichnung unterschiedlicher Ressourcentypen über bestehende Angebote hinaus. Die Findability von Ressourcen spielt auf mehreren Ebenen eine Rolle. Als zentrales Verzeichnissystem erhöht die Registry die Auffindbarkeit von Ressourcen, diese – oder zumindest deren Metadaten – müssen für eine Aufnahme aber erst identifiziert werden. Hier wird ein Community-basierter Ansatz verfolgt. Im Vortrag sollen Herausforderungen, Möglichkeiten aber auch Grenzen der Registry reflektiert und der Arbeitsstand vorgestellt werden.

FAIR-Prinzipien und ihre praktische Umsetzung für Literatur im Netz

Andreas Ganzenmüller¹, Volodymyr Kushnarenko¹, Nina Buck¹, Mona Ulrich², Kerstin Jung³, Thomas Bönisch¹

¹Höchstleistungsrechenzentrum Stuttgart (HLRS), Universität Stuttgart, Deutschland; ²Deutsches Literaturarchiv Marbach (DLA), Deutschland; ³Institut für Maschinelle Sprachverarbeitung (IMS), Universität Stuttgart, Deutschland

Die Umsetzung der FAIR-Prinzipien in der Praxis kann mitunter technisch aufwendiger sein, als zuvor angenommen. Am Beispiel der Erfahrungen aus dem Projekt SDC4Lit soll gezeigt werden, dass es manchmal nicht genügt, Daten nur in einem Repositorium abzulegen, sondern die Daten auch angemessen präsentiert werden müssen, und was daraus für die nachhaltige Bereitstellung der Daten folgt.

FDM im materiellen Erbe von rund drei Millionen Jahren Menschheits- und Umweltgeschichte

Florian Thiery¹, Benjamin Höke², Christin Keller³

¹Leibniz-Zentrum für Archäologie; ²Landesamt für Denkmalpflege Baden-Württemberg; ³Deutsches Archäologisches Institut

NFDI4Objects ist ein Konsortium innerhalb der Nationalen Forschungsdateninfrastruktur (NFDI), das sich dem materiellen Erbe von rund drei Millionen Jahren Menschheits- und Umweltgeschichte widmet. Dieses Paper stellt Aspekte verschiedener NFDI4Objects TRAILs (Task-Related Activities for the Implementation and Launch of services) vor. Dazu zählen Evaluierungen und Umfeldanalysen, die mit Hilfe der Forschungscommunity erarbeitet werden. Des Weiteren werden Methoden und Infrastrukturen vorgestellt, die es ermöglichen, FAIRe und nachvollziehbare Daten zu erzeugen. Zudem wird erörtert, wie Community Hubs (z.B. Wikidata und Wikipedia) zu beitragen können.

Kompetenzzentrum OCR – Automatische Texterkennung als Serviceangebot

Larissa Will¹, Dorothee Huff²

¹Universitätsbibliothek Mannheim, Deutschland; ²Universitätsbibliothek Tübingen, Deutschland

Die Möglichkeiten, die verschiedenen Programme im Bereich automatisierter Texterkennung heutzutage bieten, sind vielfältig. Deren Anwendung, sowie die Vor- und Nachverarbeitung der Digitalisate ist jedoch nicht immer intuitiv. Im Projekt OCR-BW haben die Universitätsbibliotheken Mannheim und Tübingen seit 2019 das „Kompetenzzentrum Volltexterkennung von handschriftlichen und gedruckten Werken“ aufgebaut und beraten seitdem Informationseinrichtungen und wissenschaftliche Projekte in Baden-Württemberg zu diesem Thema. Das umfangreiche Know-How im Bereich automatisierte Texterkennung und die verschiedenen Serviceangebote des Kompetenzzentrums sollen hier erläutert werden und Wissenschaftlerinnen und Wissenschaftler hinsichtlich der Einsatzmöglichkeiten von Texterkennungssoftware informiert werden.

Migrating Research Data to Another Repository

Claus Zinn, Thorsten Trippel

Universität Tübingen, Deutschland

Five years ago, we crafted a detailed scenario for migrating our research data from our locally-maintained, institutional repository to an external repository for which we had little control over. Now, with the rising cost of updating and maintaining our repository software to the latest version, we decided to realize the scenario step by step. This paper describes the challenges we encountered in the migration process.

Oral History.Digital. Eine Erschließungs- und Rechercheumgebung für audiovisuelle, narrative Forschungsdaten

Peter Kompiel

Universitätsbibliothek der Freien Universität Berlin, Deutschland

Das Projekt Oral-History.Digital hat eine digitale Recherche- und Erschließungsplattform für wissenschaftliche Sammlungen von audiovisuell aufgezeichneten narrativen Zeitzeugen-Interviews entwickelt. Sammlungsinhaber*innen können Audio- und Video-Interviews mit Metadaten und dazugehörigen Transkripten, Biografien und Bildern einstellen, softwareunterstützt nach etablierten Standards bearbeiten, nachhaltig bereitstellen und sicher archivieren. Forscher*innen können verschiedene Interview-Archive sammlungs-übergreifend durchsuchen und ihre Inhalte analysieren. Die Plattform bietet ferner Werkzeuge und Empfehlungen für die Transkription, automatische Spracherkennung und Verschlagwortung an. Das Projekt wird mit DFG-Förderung seit 2020 umgesetzt und steht ab September 2023 zur Verfügung.

PhiWiki - ein semantisches Wiki für die Philosophie

Frodo Podschwadek, Christian Vater, Jonathan D. Geiger

Akademie der Wissenschaften und der Literatur Mainz, Deutschland

Das PhiWiki ist eine sich in der Entwicklung befindliche Software-Anwendung, die es zunächst Philosoph:innen, prinzipiell aber auch anderen Geisteswissenschaftler:innen, ermöglichen soll, Daten zu den Ideen und Begriffen ihrer Disziplin semantisch zu erfassen und neue Verbindungen innerhalb dieser Daten zu entdecken. Hierbei werden Technologien wie die Mediawiki-Oberfläche, semantische Datenspeicher und unterschiedliche Normdaten-Formate verwendet, um die Anwendung performant zu halten und anschlussfähig an ein föderiertes Internet zu machen.

Realitätscheck Reproduzierbarkeit: ein studentisches Open-Science-Projekt zur Reproduzierbarkeit von Forschungsergebnissen

Mirjam Blümm, Claudia Frick

Technische Hochschule Köln, Deutschland

Open Science als Grundlage einer transparenten und reproduzierbaren Wissenschaft wird zunehmend in Lehrpläne aufgenommen und ist prädestiniert um in studentischen Reproduktionsstudien statt in klassischen Vorlesungen vermittelt zu werden. Die Fallstudie eines Mastermoduls der Technischen Hochschule Köln zeigt, dass der Versuch, eine publizierte Studie anhand der veröffentlichten Forschungsdaten und -ergebnisse zu reproduzieren, eine sehr anschauliche und nachhaltige Lernerfahrung darstellt. Für Studierende, Lehrende und Forschende, ist dies eine Möglichkeit das eigene Verständnis von Reproduzierbarkeit zu überprüfen und gleichzeitig die Qualität des veröffentlichten wissenschaftlichen Wissens zu sichern.

Research Data Management for Arts and Humanities: Integrating Voices of the Community

Francesco Gelati¹, Ulrike Wuttke², Peter Gietz³

¹Universität Hamburg, Deutschland; ²Fachhochschule Potsdam, Deutschland; ³DAASI International GmbH, Tübingen, Deutschland

The presentation would like to showcase the interactive publication issued by the DARIAH (Digital Research Infrastructure for the Humanities and Arts) Working Group on Research Data Management in 2023 under the title “Research Data Management for Arts and Humanities: Integrating Voices of the Community”. It outlines its threefold structure and enucleates its strong pan-European approach.

Retrodigitalisierung bibliographischer Daten mit Hilfe von Parser-Technologien

Eckhart Arnold¹, Ingo Frank², Albert Weber²

¹Bayerische Akademie der Wissenschaften, München, Deutschland; ²Leibniz-Institut für Ost- und Südosteuropaforschung, Regensburg, Deutschland

Der Vortrag stellt eine generische Vorgehensweise zur Aufbereitung gedruckter Bibliographien in bibliographische Daten vor. Fallbeispiel ist eine über 5.200 Titel umfassende Pressebibliographie, deren Daten über den DHParser extrahiert werden. Dieser basiert auf formalen Grammatiken (EBNF), die regulären Ausdrücken ähneln, aber wesentlich leistungsfähiger sind. Die Unterstützung von Komponenten-Tests für Teile der Grammatik und fehlertolerantem Parsen erleichtern eine inkrementelle Parser-Entwicklung, durch die die Aufbereitung von textförmig vorliegenden Bibliographien in strukturierte Daten in einem relativ planbaren und kontrollierten Prozess möglich ist.

Stepping up data literacy and research impact in the Humanities through data publishing

Birgit Schmidt¹, Barbara McGillivray²

¹Georg-August-Universität Göttingen, Deutschland; ²King's College London, GB

This poster presents work related to promoting peer-reviewed data papers across the humanities, focusing on experiences of the Journal of Open Humanities Data (JOHD). It provides information on the publication and review process, and points out opportunities to engage with the ongoing reform of research assessment and teaching and training efforts.

Text+ – von der Zusammenkunft von Daten, Werkzeugen und Infrastruktur

Lukas Weimer¹, Marie Annisius², George Dogaru³, Regine Stein¹

¹Niedersächsische Staats- und Universitätsbibliothek Göttingen; ²Deutsche Nationalbibliothek; ³Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen

Die Task Area Infrastruktur/Betrieb des NFDI-Konsortiums Text+ tritt für die Text+-Datendomänen Sammlungen, Lexikalische Ressourcen und Editionen als Infrastrukturprovider auf, befördert deren Vernetzung und unterstützt dadurch eine verbesserte Interoperabilität unterschiedlicher geisteswissenschaftlicher Teilbereiche mit ihren verschiedenartigen Forschungsdaten sowie in die gesamte NFDI hinein. Dies geschieht in der konsortiumsinternen Zusammenarbeit durch die Bereitstellung von Kollaborationstools, für die gesamte geisteswissenschaftliche Community zum Beispiel durch die gemeinsame Nutzung der GND oder die Bereitstellung eines JupyterHubs. Das Poster stellt die Task Area Infrastruktur/Betrieb sowie die genannten Beispiele vor.

Wie FDM einen Beitrag zur Data Literacy Education leisten kann - Erfahrungsbericht zur Verbesserung der Data Literacy an der Universität Hamburg

Juliane Jacob

Universität Hamburg, Deutschland

Data Literacy, also der kritisch-reflexive Umgang mit Daten, ist eine Grundkompetenz für den inhalts- und sinnvollen Umgang mit Daten und Datenmustern. Um einen daten- und informationsbezogen selbstbestimmten Umgang mit Daten in Alltag, Beruf und Wissenschaft zu schaffen, entstand 2018 an der Universität Hamburg ein Data Literacy Education Netzwerk. Das Zentrum für nachhaltiges Forschungsdatenmanagement deckt einen Teilbereich mit inhaltlich und methodisch standarisierten Schulungsangeboten für verschiedene Zielgruppen und Fachbereiche ab. Die Erkenntnisse und Herausforderungen bei der Implementierung, sowie die Ergebnisse qualitativer und quantitativer Begleitforschung, werden in Form eines Erfahrungsberichts aufbereitet.

Zerstörtes Kulturgut. Die kontextualisierte Aufbereitung von kulturellen Forschungsdaten

Vivien Wolter, Julia Alili, Hendrik Chudoba

Universität Trier, Deutschland

Das Forschungsprojekt ‚Zerstörtes Kulturgut‘ wurde im Rahmen des Masterseminars ‚Praxis der Digital Humanities‘ an der Universität Trier von vier Studierenden entworfen. Innerhalb des Seminars sollten die Studierenden ein Projekt initiieren und innerhalb dessen die Methoden und Arbeitswerkzeuge der Digital Humanities und Informatik anwenden. Im Fokus steht dabei die Erhebung von Forschungsdaten zur Kontextualisierung von Kulturstätten, die durch Kriege zerstört wurden.

20:00

Abendessen

Freistil Brauwerk, Wöhrdstraße 25, 72072 Tübingen

Datum: Freitag, 06.10.2023

8:00 - 9:00

Registrierung und Kaffee

9:00 - 10:00

Expertenpanel: "Forschungsdaten kritisch betrachtet"
Ort: Brechtbau Raum 37
Chair der Sitzung: Peter Gietz, DAASI International

Panelist*innen: Marina Lemaire, Universität Trier, Katrin Moeller, Martin-Luther-Universität Halle-Wittenberg, Torsten Schrade, Akademie der Wissenschaften und der Literatur Mainz, Heike Neuroth, FH Potsdam

10:00 - 10:30

Kaffeepause

10:30 - 12:30

Vorträge: Dateninfrastruktur und Nachhaltigkeit von Forschungsdaten
Ort: Brechtbau Raum 36
Chair der Sitzung: Peter Gietz, DAASI International

Organisation bestimmt Technik: Persistenz und Veränderung in Infrastrukturen zur langfristigen Sicherung von Forschungsdaten

Sebastian Schiller-Stoff, Gunter Vasold, Elisabeth Steiner

Universität Graz, Österreich

(Digitale) Forschungsdaten nachhaltig und wiederverwendbar zu verwalten, zu archivieren und zur Verfügung zu stellen ist eine wesentliche Herausforderung aktueller Forschung. Der Vortrag stellt die zentrale Frage, ob und wie Forschungsinfrastrukturen im akademischen Kontext im Sinne der Softwarearchitektur nachhaltig entworfen und entwickelt werden können. Durch das tiefere Verständnis und die Bewusstmachung von organisatorischen Einflussgrößen soll die Qualität und Persistenz von technischen Lösungen und ihre langfristige Wartbarkeit verbessert werden. Gerade im Bereich der Langzeitverfügbarkeit kann plakativ auf den Punkt gebracht werden: Personelle und finanzielle Persistenz in einer angemessenen Organisationstruktur führen zu technischer Persistenz.

DATA AFFAIRS: Ein Portal zum Datenmanagement in der ethnografischen Forschung

Camilla Heldt, Anne Voigt, Birgitt Röttger-Rössler, Brigitte Grote

Freie Universität Berlin, Deutschland

Im Vortrag wird ein Informationsportal des Sonderforschungsbereichs Affective Societies vorgestellt, das qualitativ arbeitende Wissenschaftler*innen und Lehrende aus den sozial- und kulturanthropologischen Fächern (SKA) beim Forschungsdatenmanagement (FDM) unterstützen soll. Bisher stehen aus diesen Fächergruppen aufgrund der Besonderheit von Forschung und Methodik kaum geteilte Forschungsdaten gemäß den FAIR-Prinzipien zur Verfügung.

Das frei zugängliche Angebot gibt einen Überblick über Themen des FDMs, diskutiert den aktuellen Stand anthropologischer Debatten und lädt zum interaktiven Selbststudium ein. Erfahrungsberichte und Praxisbeispiele aus ethnographischen Forschungsfeldern regen zur (kritischen) Auseinandersetzung mit den Forderungen nach FAIR geteilten Forschungsdaten an. Inhalte und Quellcode sind unter einer freien Lizenz veröffentlicht.

Digital Humanities in Discuss Data: Aufbau eines Communityspace

Torsten Kahlert¹, Daniel Kurzawe²

¹Herzog-August-Bibliothek, Wolfenbüttel; ²Staats- und Universitätsbibliothek Göttingen

In diesem Beitrag beschreiben wir, wie die Forschungsdatenplattform Discuss Data um einen Bereich (“Communityspace”) für die Digital Humanities (DH) erweitert wird. Dazu ergründen wir die Spezifika dieses Forschungsbereichs für einen entsprechenden Communityspace in Discuss Data und hinterfragen auch kritisch, wie erfolgreich bisherige Ansätze der Plattform Discuss Data im Aufbau der Community des Space für die “Osteuropa, Südkaukasus und Zentralasien” Forschung verlaufen sind und wie diese Erfahrungen bei dem Aufbau eines neuen Communityspace einbezogen werden können. Dies betrifft auch Kernbestandteile, wie die Vernetzungskomponenten und die Möglichkeit für Diskussionen über Daten auf der Plattform.

Das Projektende - Zum praktischen Umgang mit Forschungsdaten eines geisteswissenschaftlichen Editionsprojekts

Markus Schnöpf

Berlin-Brandenburgische Akademie der Wissenschaften, Deutschland

Das an der BBAW angesiedelte Akademienvorhaben Corpus Coranicum arbeitet seit 2007 genuin digital an einem mehrere Module umfassenden Portal zum Text des Korans. Da sich das Projekt dem Ende zuneigt, lohnt sich ein Blick auf die Zukunft der während der Laufzeit angesammelten Forschungsdaten. Während sich die Suche nach einem Fachrepositorium vergleichsweise einfach gestaltet, sind Fragen zur Definition und Typisierung der multilingualen Forschungsdaten durch die Datenvielfalt schwieriger zu beantworten. Auch muss bedacht werden, dass nicht alle Forschungsdaten publizierbar sind und dennoch unter FAIR-Bedingungen in der Institution aufgehoben werden sollten.

10:30 - 12:30

Vorträge: Daten generieren und analysieren
Ort: Brechtbau Raum 37
Chair der Sitzung: Kai Wörner, Universität Hamburg

Von der Herkunft zur Zukunft: Interdisziplinäre Ansätze zur Erforschung von Provenienzen in Museen

Elisa Ludwig, Antoinette Maget Dominicé, Stefanie Schneider, Ricarda Vollmer

Ludwig-Maximilians-Universität München, Deutschland

Infolge des gesteigerten öffentlichen Interesses und des wachsenden Bewusstseins bezüglich der Herkunft von Kulturgütern, gewinnt die Provenienzforschung als Methode und Forschungsgebiet zunehmend an Bedeutung. Die Einreichung untersucht die Relevanz von Forschungsdaten in Bezug auf Provenienzangaben in Museumsdatenbanken. Es wird aufgezeigt, dass Forschungsdaten dort eine essenzielle Rolle bei der Gewährleistung der Transparenz, Vernetzung und Zugänglichkeit einnehmen. Dabei werden Online-Sammlungen internationaler Kunstmuseen mittels aus relevanten Leitfäden abgeleiteten Kriterien vergleichend analysiert, wobei quantitative und qualitative Methoden komplementär eingesetzt werden. Die Einreichung betont die Bedeutung (nach)nutzbarer Forschungsdaten, um provenienzwissenschaftliche Belange zu unterstützen und zu einem verantwortungsbewussten Umgang mit dem kulturellen Erbe beizutragen.

New Ways of Creating Research Data: Conversion of Unstructured Text to TEI XML using GPT on the Correspondence of Hugo Schuchard with a Web Prototype for Prompt Engineering

Christopher Pollin¹, Christian Steiner², Constantin Zach³

¹Zentrum für Informationsmodellierung, Österreich; ²Digital Humanities Craft OG; ³Independent Software Developer

This paper explores the use of prompt engineering to streamline the creation of research data in the humanities by converting unstructured correspondence texts into the TEI XML format. Prompt engineering, an approach to optimising large-scale language models such as GPT, generates accurate structured data while preserving the context of the original text. The paper outlines the conversion workflow using prompt engineering techniques and emphasises the iterative refinement of the process. Challenges such as domain-specific training and consistency issues are discussed, as are potential solutions, including the integration of vector databases. A user-friendly web prototype for researchers is presented.

Ein weiteres Toolverzeichnis für die Digital Humanities?! Aber diesmal offen und mit Wikidata

Till Grallert, Sophie Eckenstaler, Samantha Tirtohusodo, Claus-Michael Schlesinger

Humboldt-Universität zu Berlin, Deutschland

Der eingereichte Beitrag skizziert die Landschaft der bestehenden Toolverzeichnisse in den Digital Humanities und ihrer Schwächen und stellt vor diesem Hintergrund unseren Vorschlag eines Wikidata-basierten offenen Ansatzes als einen von minimal computing, making und Open Science informierten Beitrag zu den Digital Commons vor.

Automatische Texterkennung von Handschriften und historischen Drucken. Qualität und Normierung von Ground-Truth-Daten in der Praxis

Dorothee Huff¹, Larissa Will², Kristina Stöbener¹

¹Universitätsbibliothek Tübingen, Deutschland; ²Universitätsbibliothek Mannheim, Deutschland

Automatische Texterkennung (OCR) übersetzt textliche Bildinhalte in digitale Textformate. Auf diese Weise werden der Zugang zu historischen Drucken und Handschriften erhöht und neue Forschungsfragen an das Material ermöglicht. Vor der wissenschaftlichen Auswertung der Daten gilt es jedoch, sich über Aspekte wie Qualität und Normierung der Ground-Truth-Daten und des erzeugten Outputs bewusst zu werden, diese zu hinterfragen und bei der Nachnutzung der Daten in Betracht zu ziehen. Anhand von Beispielen sollen unterschiedliche Vorgehensweisen bei der Erzeugung von Ground-Truth-Daten sowie Ergebnisse der jeweiligen Modelltrainings vorgestellt und problematisiert werden.

12:30 - 14:30

Unconference: FORGE-Camp
Ort: Brechtbau Raum 37
Chair der Sitzung: Swantje Dogunke, ThULB Jena
Chair der Sitzung: Marina Lemaire, Universität Trier

Mit Kaffee und Snacks