SemKoS − Semantische Konzepte in Schulbüchern
Im Projekt Semantische Konzepte in Schulbüchern (SemKoS) realisierte DIFI auf Basis einer umfassenden Bedarfs- und Anforderungsanalyse den Prototyp eines digitalen, sich durch Anwendung stetig selbst verbessernden Annotationswerkzeuges. Der Prototyp ermöglicht es, Texte kollaborativ und direkt auf dem Digitalisat auszuzeichnen und zu klassifizieren, Wörter und Phrasen mit deren Repräsentation in der Gemeinsamen Normdatei (GND) zu verknüpfen und diese Verknüpfungen zu vergleichen, zu exportieren und zu visualisieren. Das Werkzeug trägt damit der rasch wachsenden Anzahl von Schulbuch-Digitalisaten Rechnung und erleichtert Forscher*innen die wissenschaftliche Arbeit mit neuen Methoden und Ansätzen.
Ziele
Das Projekt SemKoS entstand aus dem Bedürfnis heraus, ein Werkzeug für die Digital Humanities zu entwickeln, das sich an den konkreten Bedarfen der mit Bildungsmedien forschenden Wissenschaftler*innen Forscher*innen orientiert, um effektiv Anwendung in der Praxis finden zu können. Dafür wurde bei der Realisierung des Werkzeugs großer Wert auf eine enge Zusammenarbeit zwischen Geisteswissenschaftler*innen und Informatiker*innen gelegt.
Vorgehensweise
Im geisteswissenschaftlichen Part des Projekts wurde die Forschungspraxis auf den Digitalisaten untersucht mit dem Ziel, ein Werkzeug zu entwerfen, welches diese Praxis optimal unterstützt. Die informatische Umsetzung konzentrierte sich entsprechend darauf den Forschungsprozess detailgetreu digital abzubilden, um Vorbehalte und Bedenken beim Umstieg auf die digitale Arbeit zu verringern. Eine institutsweite Umfrage belegte und konkretisierte den Bedarf an einem digitalen Annotationswerkzeug. So war z.B. eine zentrale Anforderung bei der Arbeit mit digitalisierten Quellen die Vorteile des Digitalen (wie etwa durchsuchbare Volltexte) nutzen zu können, ohne dabei die visuellen Informationen wie beispielsweise Seitenlayouts und hervorgehobene Schriftarten der Quelle (aus den Augen) zu verlieren.
Gleichzeitig sollten im Projekt neben den Potentialen der geisteswissenschaftlichen Forschung auch Forschungsmöglichkeiten innerhalb der Informatik und Informationswissenschaft realisiert werden. Die vom Werkzeug unterstützte digitale Verknüpfung der Informationen in den Digitalisaten mit externen, von Expert*innen gepflegten Wissensdatenbanken, ist beiden Wissenschaften dienlich. Während die geisteswissenschaftliche Forschung durch das Werkzeug selbst unterstützt wird, profitiert die Informatik- und Informationswissenschaftliche Forschung von den Auszeichnungen, um mit ihnen zum Beispiel an vollautomatischen Entity Linking Ansätzen sowie im Bereich Word Sense Disambiguation zu forschen.
Ergebnisse
Als Werkzeug ist SemKoS vielfältig einsetzbar. Ziel der inhaltlichen Auszeichnung in SemKoS ist meist eine statistische Auswertung auf Grundlage der Bedeutung von Begriffen. Beim traditionellen Forschungsprozess würden Forscher*innen Worte und Wortgruppen im Text markieren, verschlagworten oder das Blatt mit Notizen versehen. Analog hierzu arbeiten die Nutzer*innen von SemKoS direkt auf dem digitalen Abbild der Quelle, dem Digitalisat. Durch die Verknüpfung von Begriffen in den Texten mit der Linked Open Data Cloud wird implizites Wissen explizit gemacht. Die so entstandenen Forschungsdaten, wie etwa Anmerkungen, Verknüpfungen und Kategorisierungen, werden auf dem Digitalisat sichtbar, aber auch – zusammen mit dem digitalen Volltext – in digitaler Form gespeichert. Sie können folglich z.B. auch durchsucht, aggregiert oder für Visualisierungen genutzt werden. Zudem werden über transitive Verknüpfungen innerhalb der Linked Open Data Cloud (z.B. Vater-Sohn, Geburtsort von x ist y, ist-Teil-von, etc.) komplexe Analysen ermöglicht, die auch Beziehungen und Sachinformationen offenbaren und visualisieren können, die über die Informationen innerhalb der einzelnen Quelle selbst hinausgehen.
In SemKoS können Begriffe im Text mit entsprechenden Schlagworten aus der Gemeinsamen Normdatei verknüpft werden. Dass auch fremdsprachige Begriffe, abweichende Schreibweisen, sowie Deklinationen immer mit demselben bedeutungsrepräsentierenden Schlagwort verknüpft werden, ermöglicht spätere Analysen unabhängig von einzelnen Sprachen oder Schreibweisen. Die verknüpfbaren Schlagworte umfassen dabei nicht nur Personen, Orte, Institutionen oder Ereignisse, sondern auch generelle Schlagworte. Diese Sachbegriffe ermöglichen zum Beispiel das Verknüpfen religiöser Fachbegriffe, bekannter Berufe oder Tierarten.
Ausblick/Entwicklung
Nach Projektabschluss wurde SemKoS in die Institutsinfrastruktur überführt und stellt Schnittstellen bereit, welche perspektivisch als Module der Edumeres Toolbox genutzt werden können. Das Werkzeug selbst wird unter Einsatz des mobilen Usability Labs einer Usability Studie unterzogen, um zu überprüfen, wie die Oberfläche des Werkzeugs und die User Experience ggf. noch optimiert werden können. Zeitgleich werden Datensätze gewonnen, mit denen die informatik- und informationswissenschaftliche Forschung vorangetrieben wird. Als Teil der Institutsinfrastruktur werden die Module in aktuellen und zukünftigen Projekten und Kooperationen weiterentwickelt.