Veranstaltungsprogramm

Sitzung
Mittwoch 2:1: Large Language Models I
Zeit:
Mittwoch, 05.03.2025:
11:00 - 12:30

Ort: HSBI D3


Präsentationen

Möglichkeiten und Grenzen der KI-gestützten Annotation am Beispiel von Emotionen in Lyrik

Merten Kröncke1, Fotis Jannidis2, Leonard Konle2, Simone Winko1

1Universität Göttingen, Deutschland; 2Universität Würzburg, Deutschland

Können sehr große Sprachmodelle wie ChatGPT, Gemini und Claude via Zero-Shot- oder Few-Shot Prompting für Annotationen in den DH verwendet werden, um Finetuning-Modelle abzulösen? Die Studie zeigt anhand des Beispiels der Emotionsannotation von Lyrik eine starke Varianz über die Emotionskategorien: In wenigen Fällen wird das Niveau von Finetuning-Modellen erreicht, in anderen bleiben die großen Sprachmodelle deutlich darunter. Beispiele im Prompt steigern die Performanz. Auch wenn die Sprachmodelle ständig verbessert werden, wird man daher wohl auf absehbare Zeit nicht ohne die Entwicklung von Annotationsguidelines und die Annotation von ausreichend Testdaten auskommen.



Literary Metaphor Detection with LLM Fine-Tuning and Few-Shot Learning

Marina Spielberg

Trier Center for Digital Humanities (TCDH), Universität Trier, Deutschland

Although there is ample research on natural language metaphor detection, the field of literary metaphor detection is understudied. This paper draws on four English-language datasets and results of Kesarwani et al. (2017), who used traditional machine learning approaches, and shows that Large Language Model (LLM) fine-tuning and few-shot learning with SetFit significantly increases metaphor detection performance in three out of four considered datasets.



Eine Vorstudie zur Eignung von Llama 3-8B für eine Sentimentanalyse

Ngoc Duyen Tanja Tu

Leibniz-Institut für Deutsche Sprache, Deutschland

Dieser Beitrag präsentiert eine Vorstudie, in der geprüft wird, ob sich die Open Source Generative Künstliche Intelligenz Llama-3-8B Q4_0 instruction-tuned dazu eignet, eine Sentimentanalyse durchzuführen. Für die Untersuchung wird ein kleiner Datensatz aus Anfragen zu geschlechtergerechten Schreibung genutzt. Die Qualität der automatischen Annotationen wird gemessen, indem das Inter-Annotator-Agreement zwischen Llama 3 und drei menschlichen Annotierenden berechnet wird. Eine qualitative Analyse der Begründungen von Llama 3 für vergebene Sentimentwerte, die von denen der manuellen Annotationen abweichen, zeigt, dass die Generative Künstliche Intelligenz dazu genutzt werden kann, Annotationsrichtlinien aufzustellen oder zu verfeinern. Allerdings kann die Vorstudie nicht zeigen, dass sich Llama 3 für eine Sentimentanalyse eignet.