Datenkuration für die historische Bildungsmedienforschung

Interdisziplinäres Seedfonds Projekt für neue Workflows und Technologien zur digitalen Erschließung historischer Quellen

Das Georg-Eckert-Institut stellt der historischen Bildungsmedienforschung mit GEI-Digital frei nutzbare historische Quellenbestände im Volltext zur Verfügung. Gleichzeitig testen, entwickeln und nutzen Projekte am GEI Werkzeuge zur computergestützten Bearbeitung und Analyse digital vorliegender Texte. Für die Forschung bestehen hierbei vier Problemfelder:

  • Historische Forschungsprojekte beziehen oftmals Quellenbestände unterschiedlicher Herkunft und Datenqualität ein.
  • Historische Quellenbestände können oft nicht zufriedenstellend mit automatischer Volltexterkennung erfasst werden.
  • Für präzise Suchen und statistische Auswertungen historischer Texte ist eine vorherige Annotation ihrer Strukturelemente (wie Seitenzahlen, Fußnoten, Überschriften) notwendig.
  • Die synergetische Nutzung verschiedener digitaler Werkzeuge setzt deren Interoperabilität voraus.

Mit dem im GEI-Seedfond-Wettbewerb geförderten Projekt entwickeln und erproben Mitglieder der Abteilungen Forschungsbibliothek und Digitale Informations- und Forschungsinfrastrukturen (DIFI) gemeinsam Lösungswege für diese Problemfelder anhand eines forschungsbasierten Nutzungsszenarios zur Genese eines Schulbuchs von Johann Friedrich Wiberg.

  • Ziel

    Ziel dieses Projektes ist es, historische Forschung mit digitalen Quellen noch besser zu unterstützen. Anhand eines Use Cases werden Verfahren und Techniken entwickelt, die dazu beitragen, den Datenbestand von GEI-Digital flexibel zu kuratieren, zu bearbeiten und zu erweitern.


  • Vorgehensweise

    Dabei arbeitet das Projekt exemplarisch mit einer Auswahl historischer Bildungsmedien unterschiedlicher Provenienzen: Werke, die bereits als Digitalisate – mit oder ohne OCR-generiertem Volltext – am GEI oder anderen Bibliotheken vorliegen, sowie Werke, die bislang nur in den analogen Beständen des GEI und anderer Bibliotheken vorliegen. Für die Volltextoptimierung und Strukturauszeichnung der Quellen werden die OCR4all Software-Suite sowie LAREX genutzt und ggf. angepasst. Durch die Etablierung entsprechender Schnittstellen sollen diese Werkzeuge und die zu definierenden Richtlinien zur Qualitätssicherung sowohl für die bibliothekarische als auch für die individuelle Nutzung durch Forschende in der Edumeres Toolbox zur Verfügung gestellt werden.


  • Ergebnisse

    Für die Nutzer*innen der Infrastrukturen des GEI stellt das Projekt eine exemplarische Menge optimiert aufbereitete Daten, sowie Dokumentationen und Anleitungen zur eigenständigen Aufbereitung oder Nachnutzung zur Verfügung.

    Die Abteilungen Forschungsbibliothek und Digitale Informations- und Forschungsinfrastrukturen des GEI optimieren und erweitern ihre Arbeitsabläufe, ihr Methodenrepertoire und ihre Kooperationen mit externen Bibliotheken und Forschenden der Digital Humanities, so dass diese für anschließend geplante Digitalisierungsprojekte zur Verfügung stehen.


Projektteam

sroll-to-top