Conference Agenda
Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).
|
Session Overview |
| Session | ||
Freitag 1:3: Freitag 1:3 – Texterkennung
| ||
| Presentations | ||
Der digitalisierte Adel: Wie sich das komplexe Layout eines historischen Adelsmagazins mit Transkribus bewältigen lässt Universität Wien, Österreich Das Wiener Salonblatt war zwischen 1870 und 1938 das zentrale Gesellschaftsblatt der Habsburgischen Adelsgesellschaft und stellt mit über 2.700 Ausgaben eine wertvolle Quelle für die Analyse gesellschaftlicher Kommunikation dar. Eine automatisierte Auswertung ist aufgrund des komplexen und variierenden Layouts der Zeitschrift nur durch eine Kombination aus Layout- und Texterkennung möglich. Der Beitrag zeigt, wie die Plattform Transkribus für die strukturierte Erfassung dieses Korpus eingesetzt wird. Dabei kommen sogenannte Field- und Textmodelle zum Einsatz, die iterativ trainiert und evaluiert wurden. Herausforderungen wie Layoutwandel, Schriftadaptionen und fehlerhafte Scans werden ebenso thematisiert wie die praktischen Anforderungen an Modelltraining, Qualitätssicherung und Ressourceneinsatz. Der Beitrag bietet darüber hinaus methodische Einblicke in die digitale Erschließung komplexer historischer Periodika und deren Potenzial für die Forschung in den Digital Humanities. Multimodale Sprachmodelle zur Handschriftenerkennung und TEI-Auszeichnung: Ansatz, Workflow, Evaluation Klassik Stiftung Weimar, Deutschland Der Beitrag untersucht den Einsatz multimodaler Sprachmodelle (MLLMs) zur Handschriftenerkennung (HTR) und TEI-Auszeichnung in editorischen Workflows. Bisherige Studien zeigen, dass MLLMs spezialisierter HTR-Software wie Transkribus besonders bei nicht-englischen Texten und deutscher Kurrentschrift unterlegen sind. Im Goethe- und Schiller-Archiv wurde ein Workflow entwickelt, der Transkriptionen aus MLLMs und etablierter HTR in einem weiteren Schritt MLLM-basiert zu einer optimierten Version zusammenführt und menschlicher Kontrolle zugänglich macht. Ein mehrstufiges Promptingverfahren soll unerwünschte LLM-induzierte Korrekturen reduzieren. Eine Evaluation mit Ground Truth aus zwei laufenden Projekten belegen, dass MLLMs allein unzureichend sind, in Kombination jedoch Vorteile gegenüber herkömmlicher HTR sowie Effizienzgewinne bieten könnten. Die TEI-Auszeichnung lässt sich in Teilen zuverlässig automatisieren. MLLMs können somit den editorischen Prozess beschleunigen. Mit der im Workflow eingebauten mehrstufigen und toolunterstützten menschlichen Kontrolle kann dies zugleich in methodisch vertretbarer Weise geschehen. Mehr als nur Textqualität: Ein hybrider, nachhaltiger und offener Ansatz zur KI-basierten Post-OCR-Korrektur mit multimodalen Foundation Models Friedrich-Schiller-Universität Jena, Deutschland Der Beitrag stellt mit dem „OCR-Orchestrator“ ein innovatives, quelloffenes Werkzeug vor, das die visuelle Texterkennung multimodaler Large Language Models (LLMs) mit bestehenden OCR-Systemen (z. B. Tesseract) kombiniert, um fehlerhafte Textergebnisse aus historischen Dokumenten nachhaltig zu korrigieren. Statt rein linguistische Korrekturverfahren zu nutzen, setzt der Ansatz auf bildbasierte Transkription – besonders geeignet für Frakturschriften und typografisch komplexe Layouts. Zentrale Merkmale sind: Modularer Workflow: von hOCR-Extraktion über datenkomprimierte Modellinteraktion bis zur Rückintegration korrigierter Daten. Skalierbarkeit und Datenschutz: Unterstützung sowohl cloudbasierter als auch lokal gehosteter LLMs. Flexibilität und Integration: Kompatibel mit Formaten wie hOCR/ALTO XML, leicht in GLAM-Workflows integrierbar. Evaluation: Erste Tests zeigen bis zu 60 % Fehlerreduktion (CER) gegenüber Tesseract bei historischen Zeitungen. Zukunftsfähigkeit: Durch Foundation Models verbessert sich der Workflow kontinuierlich mit jeder neuen Modellgeneration. | ||
