Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Session
Poster & Demo Session
Zeit:
Donnerstag, 20.09.2018:
16:00 - 17:45

Die Angebote von DARIAH-DE: Stationen & Poster; Anwendungen, Tools und Dienste


Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen

In 80 Tagen durchs Semester – TextGrid und andere DARIAH-Werkzeuge in der universitären Lehre

Oliver Schmid, Philipp Hegel

Technische Universität Darmstadt, Deutschland

Seit mehr als acht Jahren wird TextGrid im Rahmen in Lehrveranstaltungen an deutschen Hochschulen eingesetzt. Weitere DARIAH-Werkzeuge wie der DARIAH Geo-Browser sind seit über sechs Jahren in der universitären Lehre präsent. Parallel dazu werden seit 2010 im Rahmen von Schulungen und Workshops den TeilnehmerInnen meistens TextGrid, seit der Integration in DARIAH-DE zunehmend auch andere DARIAH-Werkzeuge vorgestellt.

Bei der Vorbereitung der Nutzertreffen wurde auf Basis der in den vergangenen Jahren gemachten Erfahrungen die Entscheidung getroffen, das Zusammenspiel von im TextGridLab ausgezeichten Texten und dem Geo-Browser anhand des Textes "Reise um die Erde in 80 Tagen" vorzuführen. Auch die Umwandlung von Kartenmaterial auf Basis von Text-Bild-Verknüpfungen in Webseiten wird anhand des Beispiels erläutert.

Das Poster zeigt die Nutzungsmöglichkeiten beim Zusammenspiel von TextGrid und anderen DARIAH-Werkzeugen in der universitären Lehre anhand des Textes von Jules Verne auf.


“Transcultural Metadata” - An exploration of the way our metadata is culturally limited

Agnes Dober

Universität Heidelberg, Deutschland

In the cultural heritage community, metadata schemas for documenting non-textual objects such as LIDO and VRA Core 4.0 are becoming increasingly important. They are envisioned to be flexible enough to record the diverse collections of Europe, but if we wish to include collections and researchers from areas of study that do not deal exclusively with objects from the western cultural sphere, they must be suitable to different types of information, lest they be omitted. That is, careful consideration must be given to the metadata schemas themselves, and how they shape our understandings through the availability and correct labeling of data.

During our project at the Heidelberg Research Architecture, several ways were noted in which such schemas need further elements when it comes to transcultural, non-Western objects. We will demonstrate in our poster through several examples how we solved these problems through our Cluster extension; these include a) information on scripts and transliteration standards, b) alternative calendrical dates, or c) calligraphic hands. Our wider aim is to raise awareness of how single metadata standards are limited, and how data may be lost through the cracks.


Annotationslösung und Forschungsumgebung - Projekt "Dschihadismus im Internet"

Bernd Zywietz1, Mirko Scherf2

1Johannes Gutenberg-Universität, Deutschland; 2Johannes Gutenberg-Universität, Deutschland

Das BMBF-geförderte Forschungsprojekt „Dschihadismus in Internet“ befasst sich mit extremistischer Propaganda und daran anschließendem User-Content in Video-, Bild- und Audio-Form.

Dafür entwickeln wir zum einen eine „Forschungs- und Informationsplattform Online-Propaganda“ (FIP-OP). Sie dient als Repositorium für Multimediadateien, als Arbeitsumgebung sowie als webbasierte Präsentations- und Interaktionsplattform.

Zentral ist ein eigens entwickeltes Annotationstool, das es u.a. ermöglicht, Objekte auf der Bildfläche manuell zu markieren und in ihrer Bewegung zu verfolgen (Keyframe basierte Tracking-Funktion). Objekte und Konzepte können ontologiegestützt ausgezeichnet und relationiert werden. Sie lassen sich so leicht ansteuern und visuell aufzubereiten. Weitere Auswertungs- und Aufbereitungsverfahren, auch (semi-)automatisierte, können daran anschließen.

Dieses Time-based Image Area Annotation Tool (TIMAAT) fungiert in der projektspezifischen Variante als intuitive Web-Benutzeroberfläche für die FIP-OP-Datenbank. Die öffentliche, leicht zu konfigurierende Open-Source-Version soll auch technisch wenig versierten Privatanwendern und Forschergruppen erste Schritte im Bereiche Digitale Tools in der Geisteswissenschaft erleichtern und – einzeln oder in der Gruppe – die explorative, analytische wie präsentative und spielerische Auseinandersetzung mit dem ästhetischen Gegenstand ermöglichen. Innovativ ist entsprechend die Kombination und Integration technologisch relativ „einfacher“, aber wertvoller Features, die in der Form und Usability bislang einmalig ist, ein breites Einsatzspektrum eröffnet und keine überspezialisierte Insellösung bietet.


Bibliothek der Neologie (BdN)

Olga Söntgerath

Westfälische Wilhelms-Universität Münster, Deutschland

Das Poster „Bibliothek der Neologie (BdN)“ dient dem Ziel, das Hybrid-Projekt „Bibliothek der Neologie. Kommentierte Kritische Auswahledition in zehn Bänden“ kurz vorzustellen und auf die Modelledition, die seit Ende Juni 2016 freigeschaltet ist, eingehend hinzuweisen. In den Blickpunkt rücken die unterschiedlichen Portalansichten: die interaktive Ansicht, die textkritische Ansicht und die Ansichten der Einzelauflagen, die anhand eines Paragraphen aus dem Werk von Johann August Nösselt „Anweisung zur Bildung angehender Theologen“ (11786/89–31818/19) (BdN VI) illustrativ erklärt werden. Ein Beispiel aus dem Quellcode dieses Paragraphen schafft einen knappen Einblick in die Auszeichnung. Einen besonderen Stellenwert nehmen zudem zwei exemplarische Seiten aus dem aktuell erarbeiteten Print des Bandes, die den bereits zuvor erwähnten Paragraphen in der kritischen Umsetzung beinhalten und einen Seitenapparat sowie einen kritischen Fußapparat aufweisen.

Das Poster wurde von Olga Söntgerath (WWU Münster) erstellt. Die Präsentation des Posters auf der Postersession wird von Olga Söntgerath und Ann-Christin Maug übernommen.


CLARIN-D: eine Forschungsinfrastruktur für die sprachbasierte Forschung in den Geistes-und Sozialwissenschaften

Roberta Toscano, Thorsten Trippel

CLARIN D, Deutschland

CLARIN – ein Akronym für Common Language Resources and Technology Infrastructure – ist eine Infrastruktur-Initiative für die Geistes-und Sozialwissenschaften, in denen im weitesten Sinne mit Sprachdaten gearbeitet wird, also Sprache und sprachliche Strukturen als Forschungsmittel verwendet wird (z.B. in der Politikwissenschaft, Geschichte, Literaturwissenschaft) sowie als Forschungsgegenstand betrachtet wird, etwa in den Philologien und den Sprachwissenschaften.

Die Forschungsinfrastruktur von CLARIN-D unterstützt die Geistes- und Sozialwissenschaften dabei, ihre digitalen Ressourcen gemäß den FAIR-Prinzipien zum Auffinden, zum Zugang, zur Interoperabilität und zur Nachnutzbarkeit von Forschungsdaten zu verwalten. Als europäisches Vorhaben folgt CLARIN dem Aufbau und Verlauf der ESFRI-Roadmap, die von den European Strategy Forum for Research Infrastructures erstellt worden ist. CLARIN ist in Europa als European Research Infrastructure Consortium (ERIC) organisiert, einer besonderen Rechtsform für Forschungsinfrastrukturen unter europäischem Recht.

Offene Zentrenstruktur

Das Rückgrat der CLARIN-D Infrastruktur bildet ein Verbund von miteinander vernetzten komplementären Zentren. Diese Zentren zeichnen sich durch ausgewiesene Kompetenz und internationales Renommee aus. Das Konsortium in Deutschland besteht gegenwärtig aus acht CLARIN-Zentren, die sowohl an Universitäten als auch an außeruniversitären Forschungseinrichtungen beheimatet sind. Zentren sind dabei Einrichtungen, die Daten, Services und Kompetenzen von und für Forschende aus verschiedenen Gebieten der Geistes- und Sozialwissenschaften anbieten. Dazu gehören Angebote zum Datenmanagement, verbunden mit einem Repositoriumsbetrieb für Forschungsdaten, Such- und Analysewerkzeuge und Dokumentationen, sodass Kompetenzen gebündelt an einem Ort vorliegen.

Auffinden – Auswerten - Aufbewahren

Um die sprachorientierte Forschung in den Geistes-und Sozialwissenschaften bedarfsgerecht zu unterstützen, stellt CLARIN-D als Infrastruktur gemeinsame Dienste zur Verfügung, um Daten aufzufinden, auszuwerten und aufzubewahren:

  • Auffinden: Referenzdatensätze, Rohdaten und Ergebnisse aus Forschungsprozessen sollen für Analysen einfach auffindbar sein und dadurch für die Nachnutzung bereitgestellt werden
  • Auswerten: für die Auswertung können computergestützte Werkzeuge entlang methodischer Standards über die Infrastruktur verwendet werden, z.B. um Daten automatisch oder manuell zu annotieren, Daten abzufragen und statistisch auszuwerten.
  • Aufbereiten und Aufbewahren: Nicht zuletzt zur Gewährleistung der Reproduzierbarkeit im Rahmen guter wissenschaftlicher Praxis werden Forschungsergebnisse und die zugrundeliegenden Daten im Rahmen des Datenmanagements vorgehalten. Neben der Aufbewahrung kann dafür auch eine Aufbereitung erforderlich sein.

Dadurch werden auch die Bereiche der Geistes-und Sozialwissenschaften angesprochen, die einen Bedarf nach zusätzlichen Kompetenzen im Bereich der Technologie, Standards und rechtlichen Fragestellungen haben.

Facharbeitsgruppen in CLARIN-D

Seit Projektbeginn arbeitet CLARIN-D eng mit Forschenden aus verschiedenen Wissenschaftsbereichen zusammen, um die Infrastruktur passend für ihre Anforderungen zu entwickeln und CLARIN-Services in den einzelnen fachwissenschaftlichen Forschungsgemeinden bekannt zu machen.

Zurzeit sind 8 Facharbeitsgruppen in CLARIN-D organisiert, die zusammengenommen mehr als 200 Forschende aus unterschiedlichen sozial- und geisteswissenschaftlichen Disziplinen umfassen:

F1: Deutsche Philologie

F2: Andere Philologien

F3: Linguistische Feldforschung, Ethnologie, Sprachtypologie

F4: Menschliche Sprachverarbeitung: Psycholinguistik, Kognitionspsychologie

F5: Gesprochene Sprache und andere Modalitäten

F6: Angewandte Sprachwissenschaft, Computerlinguistik

F7: Inhaltsanalytische Methoden in den Sozialwissenschaften

F8: Geschichtswissenschaften

Services

Vor dem Hintergrund der gesammelten Erfahrungen der beteiligten Forschenden stellt CLARIN-D Expertisen zur Verfügung, die bei Forschungsaufgaben und -Projekten erforderlich sind. Darunter fallen rechtliche und ethische Fragestellungen oder die Planung des Datenmanagements entsprechend den Anforderungen von Drittmittelgebern. Dazu tragen auch Standardisierungsaktivitäten und Werkzeuge bei, die auf Nachnutzung und transparente Forschungsprozesse ausgelegt sind.


Datenmanagement – Gegenstand und Dienst der Computerlinguistik

Thorsten Trippel

CLARIN D, Deutschland

Das Datenmanagement wird durch die Forschungsförderungsorganisationen (etwa in Horizon 2020 der EU, die Allianz der deutschen Wissenschaftsorganisationen oder in DFG geförderten Projekten) mehr und mehr Teil der Forschungslandschaft. Für die Computerlinguistik ist das Forschungsdatenmanagement aber auch Teil des Forschungs­gebietes: Datenmodellierung und Transformation für die nach­haltige Datenspeicherung gehören in den Bereich der Texttechnologie und Text­linguistik, ebenso die Modellierung der beschreibenden Daten zu Datensätzen.

Die Anreicherungen der Metadaten etwa durch die Erkennung der Sprache in einem Datensatz können als Gegenstand der automatischen Sprachverarbeitung gesehen werden, die Erstellung von beschreibenden Datenkategorien und deren Definition dagegen als angewandte Lexikographie. Gleichzeitig dienen die Forschungsdaten und Metadaten als Grundlage für Fragestellungen der semantischen Netze und damit dem Forschungsgebiet der Linked Data.

Die FAIR-Prinzipien als Grundphilosophie für das wissenschaftliche Daten­manage­ment setzen für sprachliche Inhalte voraus, dass Werkzeuge zur Suche und zur Weiter­­verarbeitung zur Verfügung stehen, durch die Forschungsdaten aufgefunden, zugänglich, interoperabel und nachnutzbar werden. Forschungsinfrastrukturen wie CLARIN-D (siehe Hinrichs & Trippel, 2017) haben daher neben einem Service­charakter für die Linguistik einen starken Forschungsschwerpunkt in der Computer­linguistik.

Auf dem Poster werden wir am Beispiel von CLARIN darstellen, welche zentralen Werkzeuge und Dienste im Datenmanagement (computer-)linguistischen Methoden und Ansätze verwenden. Dadurch werden Forschungsinfrastrukturen in der Linguistik zum einen Dienste­anbieter für diejenigen, die Datenmanagementpläne erstellen, zum anderen Teil der computerlinguistischen Forschung.

Literatur

Allianz der deutschen Wissenschaftsorganisationen (2010) Grundsätze zum Umgang mit Forschungsdaten. Siehe http://www.allianzinitiative.de/fileadmin/user_upload/www.allianzinitiative.de/Grundsaetze_Forschungsdaten_2010.pdf

DFG (undatiert) Umgang mit Forschungsdaten: DFG-Leitlinien zum Umgang mit Forschungsdaten http://www.dfg.de/foerderung/antragstellung_begutachtung_entscheidung/antragstellende/antragstellung/nachnutzung_forschungsdaten/

FAIR-Prinzipien: https://www.force11.org/group/fairgroup/fairprinciples

Guidelines on Data Management in Horizon 2020 (Version 2.1). European Commission, Directorate-General for Research & Innovation. See http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/ hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf, February 2016.

Hinrichs, E. & Trippel, T. (2017). CLARIN-D: eine Forschungsinfrastruktur für die sprachbasierte Forschung in den Geistes- und Sozialwissenschaften. Bibliothek Forschung und Praxis, 41(1), pp. 45-54. DOI :10.1515/bfp-2017-0015


Einstieg in das digitale Editieren

Susan Flemming

Herzog August Bibliothek, Deutschland

Im Rahmen des studentischen Seminars „Die digitale Transformation einer Jahrhundertchronik. Praxisseminar zu digitalen Editionen“ haben die Seminarteilnehmer im Wintersemester 2017/18 jeweils 10-13 Seiten aus dem ersten Band der frühneuzeitlichen Chronik des „Theatrum Europaeum“ von Matthäus Merian bearbeitet.

Dieses forschungsnahe Praxisseminar an der Technischen Universität Braunschweig ermöglichte einen Einblick in die Digital Humanities und ihre Anwendungsfelder für Studierende eines geisteswissenschaftlichen Studiengangs. Dabei stand das Vertrautmachen mit XML im Vordergrund.

Zunächst führte das Praxisseminar in das zu editierende Werk, in digitales Editieren und in die Grundzüge eines XML-Dokumentes im Allgemeinen und die Verwendung von TEI im Besonderen ein. Auf der Basis dieses Überblicks wurden die Seminarteilnehmer schrittweise an die Auszeichnung ihres Textes herangeführt. Da die Studierenden keinerlei Vorkenntnisse in XML und TEI hatten, konzentrierte sich das Praxisseminar auf ausgewählte Strukturelemente. Des Weiteren wurde auf die Kodierung von Sonderzeichen eingegangen.

Die Auszeichnung erfolgte mit TextGrid[1], einer virtuellen Forschungsumgebung zur Erstellung digitaler Editionen. Dadurch setzten sich die Seminarteilnehmer mit den entsprechenden Tools des TextGrid Laboratory aus Anwenderperspektive auseinander und konnten Strategien des kollaborativen Arbeitens erproben.

Unter der Berücksichtigung der DTA-Leitlinien wurde die Vorlage in TextGrid angelegt und die entsprechende Deklaration für den Parser eingefügt.

Um die digitale Edition semantisch nutzbar zu machen, wurden Entitäten unter der Berücksichtigung von Normdaten ausgezeichnet. Für die auszuzeichnenden Seiten des „Theatrum Europaeum“ beschränkte sich das Praxisseminar auf die Auszeichnung von Personen und Orte.

Die Strukturierung des Textes war zeitaufwendig und die Vergabe von Normdaten machte eine intensive Recherche erforderlich. Auf diese Weise haben sich die Teilnehmer die in ihren Textseiten vorkommenden historischen Personen und Ereignisse selbständig bzw. im Editionsteam erschlossen. Gleichzeitig haben sich die Seminarteilnehmer Grundkenntnisse in XML und HTML angeeignet.

Der Posterbeitrag thematisiert aus studentischer Perspektive die im Rahmen des Seminars gewonnen Einblicke und Hürden und zeigt auf, wie ein möglicher Einstieg für Studierende traditioneller geisteswissenschaftlicher Fächer in das Feld der Digital Humanities aussehen kann.

[1] https://de.dariah.eu/textgridlab


Humanist Computer Interaction auf dem Prüfstand

Marcel Frey-Endres1, Christian Stadermann2, Tobias Simon3

1Technische Universität Darmstadt; 2Johannes Gutenber-Universität Darmstadt; 3Hochschule Mainz

Das Projekt Humanist Computer Interaction auf dem Prüfstand ist ein gemeinsames Forschungsvorhaben der Johannes Gutenberg-Universität Mainz (JGU), der Hochschule Mainz und der Technische Universität Darmstadt. Es wird im Rahmen der BMBF-Fördermaßnahme Validierung des technologischen und gesellschaftlichen Innovationspotenzials wissenschaftlicher Forschung – VIP+ von 2017 bis 2020 finanziert. In dieser Förderlinie kommt dem Projekt als einem der ersten geisteswissenschaftlichen Forschungs­anliegen eine Vorreiterrolle zu.

Inno­vationsziel des Projekts ist die Analyse und Validierung der Potentiale von geisteswissenschaftlichen Nutzungsformen virtueller Forschungsumgebungen. Mittels einer Prozessanalyse der gemeinsamen Bearbeitung eines geisteswissenschaftlichen Forschungsfeldes mit digitalen Forschungsapplikationen sollen neuartige Anwendungsformen und Kollaborationsmo­delle identifiziert und deren Weiterentwicklung in Gang gesetzt werden. Dazu werden 19 internationale Forschungsgruppen an die verschiedenen digitalen Werkzeuge und Inhalte herangeführt und ihre konkreten Nutzungspraktiken und Forschungsprozesse innerhalb der virtuellen Forschungsumge­bung untersucht. Diese Forschungsambition kommt in der Projektarchitektur durch drei eng miteinander verzahnte Komponenten zum Ausdruck, die jeweils durch eine der beteiligten Hochschulen bearbeitet werden:

Der inhaltliche Teilbereich besteht in Forschungen zur Gesellschaft des ostgotischen Italien, insbesondere zu den Variae des spätantiken Politikers Flavius Magnus Aure­lius Cassiodorus Senator, einer Textsammlung, die für das Verständnis der politischen und gesellschaftlichen Umwälzungen an der Schwelle von der Spätantike zum Frühmittelalter von wesentlicher Bedeutung ist. Die insgesamt 12 Bücher der Variae sollen nach ihrer Lemmatisierung vollständig in TEI/XML-codierter Form in TextGrid eingearbeitet und anschließend von 19 internationalen Forschungsgruppen gemeinsam im Hinblick auf verschiedene Forschungsperspektiven digital untersucht werden.

Den informationstechnischen Teilbereich bildet die virtuelle Forschungsumgebung TextGrid. Durch ihre modulare Struktur aus Werkzeugen für das digitale Edieren und die Textanalyse (TextGrid-Lab) sowie einem Open Access-Forschungsdatenrepositorium (TextGrid-Repository) zur Speicherung und Recherche bereits erschlossener Projektbestände fungiert sie zugleich als digitales Labor und virtuelles Archiv. Daneben werden weitere Werkzeuge und Dienste u.a. aus dem Spektrum der digitalen Forschungsinfrastruktur DARIAH-DE zum Einsatz kommen. Die virtuelle Forschungsumgebung vereint verschiedene Werkzeuge zur Annotierung und Metadatierung von Texten und der Textanalyse mit einer interaktiven Plattform zur gemeinsamen Bearbeitung der inhaltlichen Forschungsschwerpunkte.

Der analytische Teilbereich zur Validierung der digitalen geisteswissenschaftlichen Arbeitsprozesse besteht aus einem Methodenrepertoire aus dem Bereich der Nutzerforschung, welches im Rahmen von 16 Workshops mit 19 Internationalen Forschungsgruppen zum Einsatz kommen wird. Zur Untersuchung der Humanist Computer Interaction stehen verschiedene Instrumente des Usability- und Requirement-Engineering zur Verfügung. So werden je nach Bedarf im Rahmen des Vorhabens Methoden wie Nutzerbeobachtung, Digitale Tagebücher, Expertenbefragung, Bildschirmaufzeichnung, Eye-Tracking, (Retrospective-)Think-Aloud, Cognitive Walkthrough und weitere Instrumente zum Einsatz kommen. Die Studie soll nicht nur grundlegende Aufschlüsse über verschiedene Formen geisteswissenschaftlichen Arbeitens in virtuellen Forschungsumgebungen liefern, sondern auch innovatorische Potentiale digitaler Kollaborationen in den Geisteswissenschaften identifizieren.

Beteiligte Institute:

Arbeitsbereich Alte Geschichte der Johannes Gutenberg-Universität Mainz (Prof. Dr. Marietta Horster)

Fachgebiet Germanistik - Computerphilologie und Mediävistik (Prof. Dr. Andrea Rapp), Technische Universität Darmstadt

Professur für Wirtschaftsinformatik und Medienmanagement (Prof. Dr. Sven Pagel), Fachbereich Wirtschaft der Hochschule Mainz

Kooperationspartner:

Digitale Akademie der Akademie der Wissenschaften und der Literatur | Mainz (Prof. Torsten Schrade)

Computational Historical Semantics, Johann Wolfgang Goethe-Universität Frankfurt (Prof. Dr. Bernhard Jussen).


forschungsdaten.info – Das Informationsportal für Forschungsdatenmanagement

Jan Kröger1, Jessica Rex1, Frank Tristram2, Kerstin Wedlich2

1Universität Konstanz, Deutschland; 2KIT Karlsruhe, Deutschland

Das Poster gibt einen kurzen Überblick über die zur Verfügung stehenden freien Materialien zum Forschungsdatenmanagement und ruft zur Mitarbeit an der Plattform auf.
Forschungsdatenmanagement (FDM) ist in der Wissenschaft eine Schlüsselkompetenz mit stark wachsender Bedeutung.
Obwohl die technischen Details zwischen den Disziplinen stark variieren, beginnen sich mit den FAIR-Prinzipien (Findable, Accessible, Interoperable, Re-usable) allgemeingültige Richtlinien durchzusetzen. Die Praxis, diese Prinzipien konkret im Forschungsprozess umzusetzen, steht allerdings in vielen Fachdisziplinen erst am Anfang. Dies ist auch dem teilweise noch geringen Kenntnisstand in Sachen Forschungsdatenmanagement sowohl in den wissenschaftlichen Communities als auch in den Infrastruktureinrichtungen – vor allem im deutschsprachigen Raum – geschuldet.
Um diese Lücke zu schließen, fördert das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg das Projekt bwFDM-Info. Als ein Ergebnis stellt die Informationsplattform forschungsdaten.info seit November 2016 ein wachsendes Angebot von freien, deutschsprachigen Informations- und Lernmaterialien zum Thema Forschungsdatenmanagement zur Verfügung.
Neben dem Einstieg in fünf Themenblöcke, die sich am Data-Lifecycle orientiert, bietet die Plattform nach Fachbereichen kategorisierte Informationen. Best-Practice-Beispiele, Verweise auf Projekte, nützliche Tools, Linksammlungen zu Tutorien und weiterführender Literatur sowie Selbstlernquizze ergänzen das Informationsangebot.
Da die Begleitung der Plattform durch das Projekt bwFDM-Info im Frühjahr 2019 enden wird, haben die Projektpartner frühzeitig damit begonnen, weitere Mitwirkende zu gewinnen. Das im Frühsommer 2018 neu entstandene deutschlandweite Redaktionsteam aus Fachwissenschaftler/innen und Mitarbeiter/innen aus Infrastruktureinrichtungen baut das Portal nun sukzessive aus und entwickelt insbesondere die fachspezifischen Angebote weiter. Die Verstetigung der Plattform ist damit gesichert. Überdies ist das gewählte Beteiligungsmodell offen für weitere Interessent/innen.
Das Poster soll Gespräche darüber anregen, welche weiteren innovativen Ansätze die Plattform zur Vertiefung und Erweiterung des angebotenen Informationsmaterials umsetzen kann und welche Kooperationsmöglichkeiten für künftige interessierte Partner existieren.


Kooperation von CLARIN-D und DARIAH DE

Roberta Toscano, Thorsten Trippel

CLARIN D, Deutschland

Die beiden etablierten geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE stehen bereits seit einigen Jahren in einem regen Austausch. Zu unterschiedlichen Fragestellungen und Themenbereichen werden Synergien genutzt und erweitert. Die produktive Zusammenarbeit auch im Bereich der Ausbauplanung zeigt sich unter anderem in der gemeinsamen Organisation und Durchführung der Workshopreihe zur wissenschaftsgeleiteten Forschungsdaten-Infrastruktur für die Geisteswissenschaften in Berlin und gemeinsamen technischen Beratungen. In Zukunft soll diese Kooperation intensiviert werden und vor allem folgende inhaltliche Schwerpunkte gesetzt werden:

1. Forschungsdaten

- Weiterentwicklung und Vereinheitlichung von Datenbeständen und Repositorien (Suchen in Daten und Metadaten, Metadaten-Mapping etc.)

- Beratung zum Datenmanagement (Langzeitarchivierung, Identifikation)

- Empfehlungen zum Umgang mit ethischen und rechtlichen Fragen (Lizenzen, Urheber- und Verwertungsrechte, Open Access), Publikationen zu Best-Practice-Empfehlungen

- Interoperabilität zu bestehenden Werkzeugen

- Interoperabilität bestehender datennaher Recherche-Umgebungen

- Interoperabilität föderierter Suchfunktionalitäten

- Vereinheitlichung von Kurationsprozessen von disziplinären Ressourcen nach Vorgabe von Facharbeitsgruppen

- Aufbau einer Active Archive Community für Datensammlungen

- für Nutzende von Daten ohne zeitlichen Bezug (z.B. gegenwartsbezogene Sprache, Nutzungsdaten, Modelle, …)

- für Nutzende von Daten unter Einbeziehung zeitlicher Aspekte (Diachrone Sprache, zeithistorische Forschung, Literatur einer Epoche, etc.)

- ...

2. Große Werkzeuge und virtuelle Forschungsumgebungen

- Interoperabilität der virtuellen Forschungsumgebungen Textgrid, WebLicht+Tündra, etc. in einer RESTful SOA, einschließlich Werkzeugen zur Verarbeitung gesprochener Sprache

- Erweiterung der Funktionalität und Ergänzung weiterer Methoden, z.B. zu Autorenschaft-Untersuchungen

- Integration von Annotationswerkzeugen für die automatische und manuelle Verarbeitung

- Spezifikation und Entwicklung von Schnittstellen zwischen großen Werkzeugen

- Vereinheitlichung von Entwicklungsprozessen von disziplinären Werkzeugen nach Kriterien von fachbezogenen Forschenden

3. Digitale Fertigkeiten in Lehre, Ausbildung & Weiterbildung

- Zusammenführung und Ausbau des Angebots von Lehr- und Lernmaterialien

- Nachwuchsförderung mittels Awards für NachwuchswissenschaftlerInnen und Reisestipendien zu nationalen / internationalen DH-Konferenzen

- Durchführung von Workshops, Expertenseminaren, Doktorandenveranstaltungen und Sommerschulen

- etablierte Formate (z.B. ESU Leipzig, ESS Detmold/Paderborn)

- neue Formate in Abstimmung mit Facharbeitsgruppen

- Durchführung von Konferenzen und Tagungen in Kooperation mit Fachverbänden sowie Tutorien im Rahmen dieser Veranstaltungen

- Zusammenführung von Sammlungen von Lehr- und Unterrichtsmaterial

4. Standards und Verfahren

- Entwicklung und Vereinheitlichung von Empfehlungen für die Verwendung von Datenformaten und Standards

- Erstellung von Handreichungen für DatenautorInnen

- Kooperation mit Standardisierungsgremien bei der Entwicklung und Überarbeitung von Standards, z.B. TEI, ISO TC 37 SC 4

- Rechtliche und ethische Aspekte

- Datenüberlassung durch Forschende

- Datennachnutzung durch Forschende

- Datenübernahme aus Quellen Dritter

- Einverständniserklärung für Probanden/Datenbereitsteller und Anpassung im Zusammenhang mit der DSGVO

- Entwicklung von ethischen und rechtlichen Prozessen

5. Vernetzung und Koordination der technischen Entwicklungen

- Infrastrukturbasisdienste bzw. -grunddienste (AAI; Verzeichnisdienste / LDAP; PID; Datenspeicherung: Storage-Services inkl. Bit-Preservation; Workspace; Owncloud; Monitoring; Accounting; Angebote an Entwickler-Werkzeuge; Developer-Portal etc.)

- Betrieb und Weiterentwicklung von fachspezifischen Diensten (Kollaborative Arbeitsumgebungen etc.)

- Weiterentwicklung und Integration von Nachweissystemen für Daten und Dienste

- Integration neuer Dienste

- Vernetzung und technische Konstruktion

- Modelle und Konzepte zur gemeinsamen Umsetzung von Entwicklungen im Rahmen des Service Life Cycles

6. Organisatorische Infrastruktur auch im Zusammenhang mit einer nationalen Forschungsdateninfrastruktur

- Entwicklung von Organisationsmodellen für eine verteilte Infrastruktur

- Organisatorische Integration von Partnern

- Betrieb eines gemeinsamen Helpdesks

7. Community-Engagement: Outreach / Dissemination und Liaison mit Projekten, Facharbeitsgruppen und Fachverbänden

- Interaktion mit nationalen geisteswissenschaftlichen Fachverbänden mittels Facharbeitsgruppen und über FIDs

- Interaktion mit europäischen Verbünden

- Informations- und Publikationsaktivitäten

- Begleitforschung


Redewiedergabe

Annelen Brunner1, Fotis Jannidis2, Ngoc Duyen Tanja Tu1, Lukas Weimer2

1Institut für Deutsche Sprache, Deutschland; 2Julius-Maximilians-Universität Würzburg, Deutschland

In unserem Poster stellen wir das laufende DFG-Projekt „Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse“ und erste Projektergebnisse vor. Das Phänomen „Redewiedergabe“ wird auf Basis großer Datenmengen untersucht. Ziel ist es, Forschungsfragen nach der Entwicklung von Redewiedergabe vor allem im 19. Jahrhundert zu beantworten. Zu diesem Zweck wird zum einen ein Korpus manuell mit Redewiedergabeformen annotiert, zum anderen werden Verfahren zur automatischen Erkennung des Phänomens entwickelt. Sowohl das manuell annotierte Korpus als auch der Erkenner werden der Forschungsgemeinschaft nach Ende der Projektlaufzeit über das DARIAH-DE-Repository und das CLARIN-D-Forschungsdatenrepositorium des Instituts für Deutsche Sprache zur Verfügung gestellt.


Schaffung einer Metadatenföderation zwischen DARIAH-DE und CLARIN

Thomas Eckart1, Tobias Gradl2

1CLARIN D, Deutschland; 2DARIAH DE, Deutschland

Die Entwicklung unterschiedlicher Forschungsinfrastrukturen für die Geistes- und Sozialwissenschaften hat zur Entwicklung von Systemen und Arbeitsprozessen geführt, die vergleichbare Probleme und Fragestellungen durch unterschiedliche Designentscheidungen lösen.

Zu diesen Fragestellungen gehören unter anderem die Langzeitarchivierung von Forschungsdaten, die Bereitstellung komplexer Arbeitsumgebungen, sowie die Beschreibung und Bekanntmachung vorhandener Ressourcen mittels strukturierter Metadaten. Themen, die den Bereich der strukturierten Beschreibung von Ressourcen umfassen, sind unter anderem die formale Definition von Metadatenschemata, Integrationslösungen in heterogenen Forschungslandschaften, verschiedenste Arbeitsprozesse zur Erstellung, Verbesserung und Veröffentlichung von Metadaten sowie ihre Bereitstellung in möglichst nutzerfreundlichen Suchsystemen für den Endnutzer.

Als Resultat unterschiedlicher Fragestellungen und Fachbereiche, die durch DARIAH-DE und CLARIN primär adressiert werden, wurden in beiden Projekten individuelle Konzepte und Lösungen entwickelt, die als Grundlage der jeweiligen Metadateninfrastrukturen dienen. Eine Evaluierung der genutzten Plattformen und Arbeitsprozesse ergab, dass beide Infrastrukturen in vielerlei Hinsicht als komplementär betrachtet werden können, da sie den Fokus auf unterschiedliche Aspekte des Lebenszyklus von Forschungsdaten legen. Als Konsequenz erschien eine Integration bzw. Harmonisierung beider Infrastrukturen durch eine Angleichung genutzter Softwarelösungen und Prozesse nicht sinnvoll zu sein. Um gleichzeitig die Entwicklung einer zusätzlichen Integrationsschicht zu verhindern, wurde der Fokus auf einen föderierten Integrationsansatz gelegt, der durchgehend auf bestehende Infrastruktur-Komponenten zurückgreift (Eckart & Gradl 2017).

Ziel der durchgeführten Arbeiten war die Implementierung von Schnittstellen, die die Übernahme bzw. den Austausch von Metadaten zwischen DARIAH-DE und CLARIN ermöglichen. Eine solche Umsetzung erhöht die Sichtbarkeit von Ressourcen über das Projektes hinaus, in dem sie originär erstellt wurden, und gibt dem Nutzer erweiterte Möglichkeiten sich frei zwischen vorhandenen Plattformen und Softwarelösungen zu entscheiden. Dies umfasst im Idealfall alle Phasen der Nutzung von Metadaten, beginnend bei ihrer Erstellung bis hin zur Suche in entsprechenden Portalen.

Die geplante Übernahme von Metadaten erfolgt entsprechend in beide Richtungen: Integration von DARIAH-Metadaten in die CLARIN-Infrastruktur sowie die Übernahme von CLARIN-Metadaten in Systeme des DARIAH-DE-Projektes. Die konkreten Implementierungsansätze folgen den Charakteristika der jeweiligen Infrastrukturen:

  • Das CLARIN-Projekt nutzt als zentrales Integrationsmodell die Component Metadata Infrastructure (CMDI), auf dessen Basis grundsätzlich alle Ressourcen zu beschreiben sind. Der Diversität von Ressourcentypen wird durch Nutzung sogenannter CMDI-Profile begegnet, die Beschreibungen in beliebigem Detailgrad ermöglichen, aber weiterhin auf Basis zentraler Konzeptdefinitionen definiert sind (siehe auch Goosen et al. 2014). Als Konsequenz erfordert eine Integration von CLARIN-Metadaten damit eine teils profilspezifische Abbildung auf das jeweilige Zielschema. Zur formalen Spezifikation wurde auf die DARIAH-DE Data Modeling Environment (DME) (Gradl & Henrich 2015) zurückgegriffen und entsprechende Mappings für populäre CMDI-Profile auf das Dublin Core Vokabular generiert. Mittels der Standardschnittstelle OAI-PMH (die zwingend von CLARIN-Zentren bereit gestellt werden muss) wurden die entsprechenden Metadaten geladen und in das Suchportal Generic Search importiert.
  • Für die Gegenrichtung des Imports von DARIAH-DE-Metadaten in CLARIN wurde eine alternative Lösung benötigt. Im Rahmen von DARIAH-DE wird kein zentrales Integrationsmodell vorgeschrieben, sondern domänen- und projektspezifische Sichten auf Daten, basierend auf der Data Modeling Environment, genutzt. Da die OAI-PMH Schnittstelle die Bereitstellung von Dublin Core Metadaten erfordert, wurde dieses Vokabular als alternatives Datenmodell genutzt und auf das entsprechende CMDI-Profil abgebildet. Die Konvertierung erfolgte im Rahmen des CLARIN OAI-PMH-Harvesters automatisch; die Einspeisung in die typischen Metadaten-relevanten Prozesse des Projektes, inklusive der Import der Metadaten in die CLARIN-Suchmaschine VLO erfolgte vollautomatisch und erforderte nur minimale Anpassungen.

Als Resultat der durchgeführten Arbeiten konnte die Machbarkeit des Austausches von Metadaten zwischen beiden Projekten nachgewiesen, sowie die Voraussetzungen für deren automatischen Import geschaffen werden. Aufbauend auf der vorhandenen Implementierung werden weitere Möglichkeiten der Zusammenarbeit evaluiert. Dies umfasst den möglichen Aufbau von Schnittstellen zwischen der DME und CLARINs Component Registry, gemeinsame Arbeiten bei der Evaluierung von Metadatenqualit.t (z.B. Ostojic et al. 2016), sowie die Erweiterung des vorhandenen Mappingbestandes für CMDI Profile.

Literatur

[Eckart & Gradl 2017] Thomas Eckart und Tobias Gradl. 2017. Working towards a Metadata

Federation of CLARIN and DARIAH-DE. In: CLARIN Annual Conference 2017 in Budapest,

Hungary, 2017.

[Goosen et al. 2014] Twan Goosen, Menzo Windhouwer, Oddrun Ohren, Axel Herold, Thomas Eckart, Matej Ďurčo und Oliver Schonefeld. 2014. CMDI 1.2: Improvements in the CLARIN Component Metadata Infrastructure. In: CLARIN Annual Conference 2014 in Soesterberg, The Netherlands, 2014

[Gradl & Henrich 2015] Tobias Gradl und Andreas Henrich. 2015. A novel approach for a reusable federation of research data within the arts and humanities. Digital Humanities 2014: Book of Abstracts. Lausanne, CH: 382–384.

[Ostojic et al. 2016] Davor Ostojic, Go Sugimoto und Matej Ďurčo. 2016. Curation module in action- preliminary findings on VLO metadata quality. CLARIN Annual Conference 2016, Aix-en-Provence, France.


Topic Modelling und explorative Suche

Moritz Mähr

ETH Zürich, Schweiz

Im Rahmen des Projekt "Aushandlungszonen. Computer und Schweizerische Bundesverwaltung, 1960 - 1990" erarbeitet die Professur für Technikgeschichte der ETH Zürich in Zusammenarbeit mit den ETH Scientific Services Werkzeuge (Parametrisierbare Volltextsuche & Topic Modelling), um einen laufend wachsenden Quellenkorpus zu durchdringen.

Datensammlung

Die Datengrundlage des vorgestellten Werkzeugs bilden zum einen retrodigitalisierte Quellenbestände wie Korrespondenzen, Berichte, Listen, Vorträge und Protokolle aus dem Bundesarchiv Bern und zum anderen wissenschaftlich-technische Publikationen und (verwaltungs-)interne Veröffentlichungen.

Durch die Forschungskooperation zwischen dem Bundesarchiv Bern und der Professur für Technikgeschichte der ETH Zürich verfügt das Projekt über einen privilegierten Zugang zu den relevanten Quellenbeständen des Bundesarchivs. Das Bundesarchiv stellte in einer ersten Lieferung knapp 7000 thematisch relevante Dokumente zur Verfügung. Die Dokumente stammten vor allem aus der Zentralstelle für Organisationsfragen der Bundesverwaltung (1954-1980), dem Bundesamts für Organisation (1980-1990) und der Eidgenössischen Fremdenpolizei (1967-1979). Die Dokumente wurden retrodigitalisiert, mit einer automatischen Texterkennung versehen und als hochaufgelöste PDF-Dokumente gespeichert. Weitere Sendungen vom Bundesarchiv zur gezielten Ergänzung des bisherigen Quellenbestands sind in Planung.

Datenaufbereitung

Die Vorverarbeitungsschritte:

  1. Initialisierung einer SQLite Datenbank zur permanenten Speicherung der Text- und Metadaten.

  2. Extraktion der OCR-Textebenen mit Hilfe von PDFMiner und Pandas.

  3. Datumsangaben werden anhand von regulären Ausdrücken extrahiert.

  4. Die Dokumente werden zur besseren Wiederauffindbarkeit mit den Archivsignaturen aus dem Bundesarchiv versehen.

  5. Die Sprache des Textes wird mit langdetect erkannt.

  6. Der Text wird mit Hunspell einer automatischen Rechtschreibprüfung unterzogen. Darüber hinaus werden die Sätze mit einem Sprachmodul plausibilisiert, das mit 200.000 deutschsprachigen Wikipedia-Seiten trainiert worden ist.

  7. Mit dem Stanford POS Tagger und NLTK werden lexikalisch-grammatischen Einheiten klassifiziert.

Analyse

Wichtige Wörter im Korpus identifizieren (Tf-idf)

Um eine Vorstellung davon zu bekommen, wie sich der Korpus im Laufe der Zeit entwickelt, gruppierten wir alle Dokumente nach ihrem Jahrgang und führten eine statistische Analyse (Tf-idf-Mass) der Worthäufigkeiten durch:

  1. Aus jedem Text wurden Substantive und Eigennamen extrahiert und in eine alphabetische Liste überführt.

  2. Die Liste wurde für jedes Jahr um eine Spalte erweitert, in der die Anzahl der Nennungen des Wortes ("term frequency") vermerkt wurde.

  3. In einer zusätzlichen Spalte wurde vermerkt, in wie vielen Jahren das Wort genannt wurde. (Diese "Jahreshäufigkeit" entspricht der "Dokumentenhäufigkeit" in einer klassischen Tf-idf-Analyse.)

  4. Die Anzahl der Nennungen des Wortes wird durch die "Jahreshäufigkeit" geteilt, logarithmiert und normalisiert, was die "inverse Jaheshäufigkeit" bzw. "inverse Dokumenthäufigkeit" ergibt. Damit lässt sich mathematisch die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente bestimmen.

Topic Modellierung

Um im Korpus semantische Felder bzw. Themen zu identifizieren, wird auf die "Latent Dirichlet Allocation" Methode zurückgegriffen. Die Methode liefert unter anderem für jedes Thema eine Liste von konstitutiven Worten aus dem Korpus und benennt die wichtigsten bzw. wahrscheinlichsten Themen für jedes Dokument. Die Themen müssen anschliessend auf ihre Plausibilität überprüft und mit einem Namen versehen werden. Zudem muss die Anzahl der Themen experimentell eruiert werden, da die Anzahl Themen ein Eingabeparameter des Modells ist.

Dokumentenverteilung nach Organisationseinheiten

Da es sich beim Korpus um eine strukturierte Sammlung handelt, reproduziert die LDA-Analyse einige Strukturmerkmale, die durch die Ablage- und Archivsystematik der entsprechenden Eidgenössischen Bundesinstitutionen und des Bundesarchivs entstanden sind. Neben der wenig überraschenden Übereinstimmung von gewissen Themen mit Organisationseinheiten, gibt es auch überraschende Querschnitteinblicke in den Korpus.

So finden sich Dokumente zum Thema "Zentrales Ausländerregister" nicht nur im Teilbestand des "Bundesamts für Ausländerfragen", sondern auch in den Teilbeständen "Bundesamt für Organisation" und "Stab der Gruppe für Generalstabsdienste". (Das liegt vorwiegend daran, dass das Zentrale Ausländerregister in den 1970er Jahre als Kooperation des Bundesamts für Ausländerfragen und des Bundesamts für Organisation entstanden ist.)

Visualisierung

Neben einer statischen Auswertung in der Form eines Berichts wurde eine grafische Benutzeroberfläche entwickelt, um auf die Dokumente, die Metadaten und die Ergebnisse der "Topic Analysis" zuzugreifen. Zentral für den Einsatz als Forschungswerkzeug ist neben der Visualisierung der Analyse vor allem die Suchfunktion, die auf der Volltextsuche der SQLite Datenbank abstellt. Neben einer ein- und ausschliessenden Mehrwortsuche stehen können auch Phrasen, Negationen und Platzhalter sowie Wortabstände parametrisiert werden.

Auf der Ebene der Dokumente lässt sich das Digitalisat der Originalquelle öffnen und die Wahrscheinlichkeitsverteilung der Themen anzeigen.

Um die Recherche- und Suchergebnisse für die Benutzerinnen nachvollziehbar zu machen, wird der Verlauf der aktuellen Sitzung aufgezeichnet.

Ausblick

  • Bei jeder Vergrösserung des Bestandes muss die "Topic Analysis" neu berechnet werden. Dieser Vorgang soll in einer künftigen Version der Software dynamisiert werden.

  • Die korrigierten OCR-Texte und Metadaten sollen nach Möglichkeit in die Digitalisate zurückgeführt werden. Dabei stellt neben die Bearbeitung der PDF/A-Dokumente und ihre Versionierung eine grosse Herausforderung dar.


Vom Digitalisat zu einem Netzwerk frühneuzeitlicher Buchillustrationen

Germaine Götzelmann

Karlsruher Institut für Technologie (KIT), Deutschland

Die Anzahl von Buchdigitalisaten weltweit hat eine kritische Masse erreicht, die rein manuelle, qualitative Auswertungen zu einem unmöglichen Unterfangen macht. Beispielsweise verzeichnet HathiTrust tagesaktuell 5.745.507.950 digitalisierte Buchseiten (https://www.hathitrust.org/statistics_visualizations, Stand 27.06.18). Das Zentrale Verzeichnis Digitalisierter Drucke (ZVDD) listet 1.643.946 allein in Deutschland erstellte Digitalisate. Auch bei vorsichtigster Schätzung beläuft sich dieser Bestand auf viele Millionen von Buchseiten.

Auf das 16. Jahrhundert entfallen im ZVDD immerhin noch 105.631 Digitalisatsobjekte. Dieser Bestand kann als vergleichsweise stabil angesehen werden, da derzeit von DFG-Seite im Bereich des VD16 keine weiteren Massendigitalisierungen gefördert werden (vgl. http://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/erschliessung_digitalisierung/index.html, Stand 27.06.18). Buchdigitalisate des 16. Jahrhunderts stellen dabei ein interessantes Forschungsobjekt dar, denn in Buchdrucken des 16. Jahrhunderts finden sich neben den Texten auch zahlreiche Holzschnittillustrationen, die in unterschiedlich engem Zusammenhang zum eigentlichen Text stehen. Diese Illustrationen finden oftmals Wiederverwendung in Buchausgaben ganz anderer Werke und werden somit in neue Textzusammenhänge und Kontexte gebracht. Verschiedene Drucker greifen dabei auf einen Fundus von Illustrationen zurück, mit dem sie ihre Drucke bestücken – im Ergebnis mal mehr, mal weniger passend. Ökonomische Gründe und das Kalkül, möglichst reich bebilderte Drucke vergleichsweise günstig herzustellen, können dabei ebenso eine Rolle spielen wie kulturelle und ikonographische Einordnungen, die Grund für den Transfer eines Motivs aus einem Zusammenhang in einen anderen sind (vgl. z.B. zur Darstellung von Zauberei und Hexerei Charles Zika: The Appearance of Witchcraft, NY 2007).

Mithilfe von automatischer Layoutanalyse und Bildähnlichkeitssuche ist es möglich, einem solchen Netzwerk von Buchillustrationen in einem automatisierten Workflow nachzuspüren. Durch Layoutanalyse werden in von Bibliotheken bereitgestellten Digitalisaten in einem ersten Schritt diejenigen Seiten identifiziert, auf denen Illustrationen zu finden sind – und somit der Suchraum für die Bildsuche stark reduziert. Mit den Ergebnissen der Layoutanalyse lässt sich dann in einem zweiten Schritt eine Bildähnlichkeitssuche mittels Region of Interest-Informationen durchführen. In Schritt III des Workflows werden die Suchergebnisse der Bildsuche als Graph der Buchillustrationen bzw. als Graph der Buchexemplare zusammengetragen.

An einem Beispielkorpus von 38 Buchdigitalisaten lässt sich zeigen, dass der automatische Workflow ein Netzwerk von Büchern erzeugt, das zum einen leicht in Übereinstimmung mit gängigem Forschungsstand zu bringen ist. So identifiziert die Bildsuche beispielsweise die Gruppe der frühen Drucke des Prosaromans Fortunatus in Augsburg (4 Drucke) sowie die Gruppe von späteren Frankfurt-Drucken (4 Drucke) zusammenhängend mit einem Druck aus Straßburg (zur Zweiteilung der Fortunatusdrucke Jurij Striedter: Der polnische „Fortunatus“ und seine deutsche Vorlage. In: Zeitschrift für Slavische Philologie 29.1 (1960)). Zum anderen zeigt das Ergebnis des Workflows aber auch weniger bekannte Ergebnisse wie den engen illustrativen Zusammenhang der Fortunatusdrucke mit dem Prosaroman Herr Tristrant sowie mit deutschen Ausgaben von Polydor Vergil: De rerum inventoribus. Die Polydor-Vergil-Drucke wiederum zeigen eine große Nähe zu Johannes Paulis Schwankbuch Schimpf und Ernst. Diese Verbindungen zwischen Fortunatus, Tristrant, De rerum inventoribus und Schimpf und Ernst lassen sich mittels des Workflows sowohl in den Augsburger als auch in den Frankfurter/Straßburger Drucken aufzeigen.

Ein so quantitativ erstelltes Netzwerk von Buchillustrationen zeigt somit, dass Bildtraditionen über modern eingezogene Genregrenzen hinweg nachvollzogen werden können. Dabei spielt die Quelle des Digitalisats für die Durchführung keine Rolle, sodass Digitalisate verschiedener Bibliotheken in die Suche einbezogen werden können. Perspektisch sollen mit Mitteln des Web Annotation Data Model auch die Ergebnisse der Bildsuche gemäß Linked Data-Prinzipien zugänglich machbar sein und auf die öffentlich verfügbaren Digitalisate zurückverweisen. So kann das Entstehen neuer Datensilos vermieden werden.

Das Poster soll aufzeigen, wie mit einer solchen Methode große Mengen von Digitalisatdaten automatisch ausgewertet und Digitalisate bzw. einzelne Elemente darin in neue Zusammenhänge gesetzt werden können. Das vorgestellte Projekt entsteht im Rahmen eines Dissertationsthemas an der Universität Darmstadt (Fachbereich Gesellschafts- und Geschichtswissenschaften) und am Karlsruher Institut für Technologie (Steinbuch Centre for Computing) sowie im Rahmen des Sonderforschungsbereichs 980 Episteme in Bewegung.


Vom Nutzen der digitalen Fontane-Notizbuch-Edition

Gabriele Radecke

Theodor Fontane-Arbeitsstelle, Universität Göttingen, Deutschland

Digitale Editionen kosten viel Geld und erfordern mehr Personal und Know-how als konventionelle Buch-Editionen. Sowohl in der Öffentlichkeit als auch im Wissenschaftsbetrieb sind Zweifel aufgekommen, ob der finanzielle und personelle Mehraufwand gerechtfertigt seien. Die Frage nach dem Nutzen, auch von analogen wissenschaftlichen Editionen ist nicht neu und wurde zuletzt von der Arbeitsgemeinschaft für germanistische Edition auf ihrer vorletzten Tagung im Februar 2014 ausführlich diskutiert (vgl. Radecke u.a. 2015). Dass offenbar nach wie vor Klärungsbedarf besteht, zeigt beispielsweise Magnus Klaues FAZ-Artikel vom 12. Mai 2018 Auf der Suche nach dem verlorenen Objekt in der Reihe Digital Humanities. Der Autor attestiert der Faust- und der Fontane-Notizbuch-Edition darin einen "Materialfetischismus" und behauptet, der "Nutzen" dieser beiden digitalen Editionen sei "weniger einsichtig".

Aufgrund ihres material- und medienbasierten philologischen Konzepts und des adäquaten Einsatzes von digitalen Methoden, Techniken und Werkzeugen sowie durch die Veröffentlichung von Zwischenergebnissen zeigt die Fontane-Notizbuch-Edition noch vor ihrem Abschluss Möglichkeiten einer Nutzung auf breiter Basis: in Forschung und Lehre, innerhalb der Populärwissenschaft, aber auch im Rahmen der vielfältigen kulturellen und touristischen Angebote rund um das große Fontane-Jubiläumsjahr 2019. Das Poster wird einige Beispiele dieser Perspektiven aufgreifen, um den Mehrwert insbesondere digitaler Editionen für Wissenschaft und Öffentlichkeit zu veranschaulichen.

Literaturhinweise:

  • Theodor Fontane: Notizbücher. Digitale genetisch-kritische und kommentierte Edition. Hrsg. von Gabriele Radecke. Göttingen 2015 ff. https://fontane-nb.dariah.eu/index.html
  • Magnus Klaue: Auf der Suche nach dem verlorenen Objekt. In: FAZ, 12. Mai 2018. http://www.faz.net/aktuell/feuilleton/hoch-schule/digital-humanities-4-6-auf-der-suche-nach-dem-verlorenen-objekt-15579099.html
  • Gabriele Radecke: Schneiden, Kleben und Skizzieren. Theodor Fontanes Notizbücher. In: "Gedanken Reisen, Einfälle kommen an". Die Welt der Notiz. Hrsg. von Marcel Atze und Volker Kaukoreit. Wien 2017. (= Sichtungen, Bd. 16/17), S. 199–213
  • Gabriele Radecke, Heike Neuroth, Martin de la Iglesia und Mathias Göbel: Vom Nutzen digitaler Editionen – Die Genetisch-kritische Hybrid-Edition von Theodor Fontanes Notizbüchern erstellt mit der Virtuellen Forschungsumgebung TextGrid. In: Vom Nutzen der Editionen. Zur Bedeutung moderner Editorik für die Erforschung von Literatur- und Kulturgeschichte. Hrsg. von Thomas Bein. Berlin/Boston 2015. (= Beihefte zu editio, Bd. 39), S. 277–295
  • Gabriele Radecke: Materialautopsie. Überlegungen zu einer notwendigen Methode bei der Herstellung von digitalen Editionen am Beispiel der Genetisch-kritischen und kommentierten Hybrid-Edition von Theodor Fontanes Notizbüchern. In: TextGrid: Von der Community für die Community. Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften. Hrsg. von Heike Neuroth, Andrea Rapp und Sibylle Söring. Glückstadt 2015, S. 39–56. Download
  • Fontane.200. https://fontane-200.de/de/

Liebersbriefe - Möglichkeiten und Herausforderungen beim Digitalisieren von privater Schriftlichkeit

Anna Khalizova2, Canan Hastik1, Eva Wyss2, Andrea Rapp1

1TU Darmstadt, Deutschland; 2Universität Koblenz, Deutschland

Liebesbriefe sind von hohem kulturellem Wert und idealer Forschungsgegenstand für die fächerübergreifende historische, psychologische, soziologische, kultur- und sprachwissenschaftliche Forschung. Bislang wurde alltagssprachliche private Paarkommunikation weder systematisch gesammelt noch erschlossen, somit sind Briefe des 20. und 21. Jh. im Gegensatz zu öffentlichen Liebesdiskursen des 20. Jh. kaum erforscht. Dabei ermöglicht ein unberührtes, nicht selektiertes, authentisches Briefkorpus, welches eine Schriftlichkeit ohne normative Restriktionen darstellt, nicht nur eine Sprachgeschichts-, Sprachgebrauchs- und Sprachwandelforschung von unten sondern erhöht zugleich die Repräsentativität der Analyseergebnisse. Zusammen mit der Zielsetzung den Sammlungsbestand nachhaltig zu sichern sowie den Zugriff und die wissenschaftliche Nutzung über digitale Nachweis- und Präsentationssysteme zu gewährleisten soll die Sichtbarkeit und Nutzung des Datenbestandes durch Bereitstellung von Schnittstellen zum Datenaustausch und eine Anbindung an bestehende Forschungsdateninfrastrukturen, wie z.B. das DARIAH-DE Repositorium, weiter erhöht werden. Das heterogene und stark variierende Material stellt jedoch besondere Anforderungen an das Datenmanagement insbesondere, da sich bereits bei der Erschließung und Digitalisierung bestandsorientierte und forschungsmotivierte Ansätze miteinander verschränken und darüber hinaus archivarische sowie bibliothekarische Methoden aufeinander abgestimmt werden müssen.

In verschiedenen Fallstudien haben die Universität Koblenz-Landau zusammen mit der Technischen Universität Darmstadt auf Basis der DFG-Praxisregeln zur Digitalisierung (Stand 12/16) einen Workflow zur vollständigen Digitalsierung der Briefbündel und zur digitalen Nachbearbeitung der Digitalisate konzipiert und inzwischen bereits 3190 Briefe aus 94 Bündeln digitalisiert (Stand Mai 2018). Ferner wurde auf Basis der Regeln zur Erschließung von Nachlässen und Autographen (RNA) (Stand 02/10) ein web-basiertes Nachweissystem zur Erschließung dieses Spezialbestandes konzipiert und entwickelt. Darüber hinaus wurden erste Transkriptionsrichtlinien zur formalen Auszeichnung der Grund- und Textstruktur, sowie der Textgestaltung und -formatierung der Manuskripte basierend auf dem TEI Dokumentenformat erstellt und ihre Anwendbarkeit in insgesamt 174 von unterschiedlichen Testpersonen unabhängig voneinander generierten Transkriptionen überprüft.

Das eingereichte Poster dokumentiert die aktuelle Projektentwicklung und damit verbunden Anforderungen und Probleme die bei der Erschließung und Digitalisierung von Liebesbriefen enstehen.


quoteSalute - Inspiring greetings for your correspondence

Lou Klappenbach, Luisa Philipp, Marvin Kullick

Berlin-Brandenburgische Akademie der Wissenschaften, TELOTA, Deutschland

quoteSalute provides inspiring salutations taken from digital editions of letters for usage in your e-mail correspondence. The application allows an easy entrance to the world of historical correspondences and makes it possible to include academic work into your daily life.

quoteSalute was developed as a student project by Lou Klappenbach, Marvin Kullick and Luisa Philipp under the supervison of Stefan Dumont, Frederike Neuber and Oliver Pohl as part of the the digital humanities working group TELOTA and the project “correspSearch - Search scholarly editions of letters” of the Berlin-Brandenburg Academy of Sciences and Humanities.

The Poster will be of size A0 and in English.


Cosmotool: Anwendung für die Analyse der Biographien

Anna Aschauer, Tobias Gradl

Anna Aschauer

Cosmotool ist in der Lage biographisch relevante Informationen aus dem Fließtext und WikiData zu extrahieren und auf die Zeitspanne zu setzten.

Darüber hinaus, besteht die Möglichkeit eine Gruppe an Biographien zusammenzustellen undl neue Mitgliedvorschläge von Cosmotool zu bekommen.



 
Impressum · Kontaktadresse:
Datenschutzerklärung · Veranstaltung: DARIAH-DE Grand Tour 2018
Conference Software - ConfTool Pro 2.6.123
© 2001 - 2018 by Dr. H. Weinreich, Hamburg, Germany