Conference Agenda
Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).
|
Session Overview |
| Session | ||
Donnerstag 1:3: Donnerstag 1:3 – KI in Interaktionsszenarien
| ||
| Presentations | ||
Wo ist der KI-Sweetspot? Nutzen und Herausforderungen für die Einbindung von KI-Assiszentzsystemen ins Geisteswissenschaftliche Asset Management System (GAMS) Universität Graz, Österreich Digitale Editionen gehören zum Kernbereich der Digital Humanities und stützen sich zunehmend auf technische Infrastrukturen wie das GAMS an der Universität Graz. Mit dem Aufkommen großer Sprachmodelle (LLMs) stellt sich die Frage, wie KI-gestützte Assistenzsysteme die Umsetzung von GAMS-Editionen sinnvoll unterstützen können – etwa bei der TEI-Kodierung, der Entwicklung von Datenmodellen oder von Interfaces. Während der Mehrwert von KI-Systemen Gegenstand aktueller Forschung ist, ist der Wartungsaufwand von neuen infrastrukturellen Funktionalitäten unbestritten. Gerade im KI-Bereich sind jedoch instabile Standards, kurzlebige Dokumentationen und unsichere Rechtslagen weit verbreitet und drohen bei unvorsichtiger Einbindung eine Gefahr für die technische Nachhaltigkeit von DH-Infrastrukturen (wie dem GAMS) zu werden. Vorliegender Beitrag sucht den “technical debt sweet spot” zwischen spezifischer Eigenentwicklung und übergreifender Nachnutzung von KI-Assistenzsystemen im Falle von digitalen Editionen am GAMS. Die hypothetisch-deduktive Methode als Evaluationsinstrument für die Interpretationskompetenz von LLMs. Experimente mit GPT-4.1 1Universität Wien, Österreich; 2LMU München, Deutschland Der Beitrag untersucht aus einer methodologisch-theoretischen Perspektive die Interpretationskompetenzen von LLMs. Wir fokussieren uns dabei auf die Frage nach der Plausibilität bzw. Begründetheit von zentralen Interpretationshypothesen. Im Rahmen eines Experimentes überprüfen wir, a.) wie gut LLMs die zentrale Interpretationshypothese aus einer literaturwissenschaftlichen Textinterpretation extrahieren und im Anschluss daran b.) den Top-Down-Argumentationsgang von der Interpretationshypothese über die Schlussfolgerungen bis zum Heranziehen der textuellen Evidenz entsprechend der HD-Methode realisieren sowie c.) welche genuin literaturwissenschaftlichen Kriterien die Beantwortung der zweiten Frage leiten. Das Experiment zeigt, dass LLMs sehr gut darin sind die HD-Methode zu simulieren, dabei aber sehr schematisch verfahren und die Tendenz besitzen entkräftende Belge so zu kontextualisieren, dass letztendlich die Hypothesen durchgehend bestätigt werden. Detecting Literary Evaluations: Can Large Language Models Compete with Human Annotators? Trier Center for Digital Humanities, Trier University, Trier, Germany This study examines to which extent and in which settings Large Language Models (LLMs) can be used to annotate the complex and multi-layered phenomenon of evaluations within literary texts. It uses a gold-standard annotation of German-language fictional narratives published between 1800 and 2015 and compares human annotator agreement to the agreement of LLMs with the gold-standard annotation. The study focuses on ChatGPT, Deepseek, and Llama Sauerkraut-LM using three different prompts and the major vote method. Our results indicate that although LLMs can identify literary evaluations to some degree, their reliability still falls short compared to human annotators. LLMs' performance varies widely across texts, linguistic modernity not being the decisive factor. Clause-level evaluations were more reliably detected by LLMs than noun phrase-level evaluations. The study advances our knowledge of the potential and limitations of LLMs for very complex tasks in the literary domain. | ||
