Allgemeines
Im Rahmen eines Text+-Projekts im Jahr 2024 wurde die bislang nur in Buchform erschienene Edition des ältesten Görlitzer Stadtbuchs in TEI-Daten transformiert und doppelt digital publiziert werden (als Daten und als Webanwendung). Das Kooperationsprojekt der Universitäten Halle-Wittenberg und Wuppertal hatte eine Laufzeit von einem Jahr.
Bulk-Download der Daten
Die Daten der Edition können bei Zenodo heruntergeladen werden: 10.5281/zenodo.14582041.
Datenmodell
Alle Überlegungen zum Datenmodell dieser Editionen gingen von dem Grundsatz aus, dass der Eintrag das primäre Ordnungsprinzip des Stadtbuches ist. Entsprechend sind Seiten- und Spaltenumbrüche dieser Ordnung untergeordnet. Das Datenmodell entspricht den Vorgaben der TEI in der Version P5 v.4.8.0. Eine Tabelle mit dem Tag-Set der Edition inklusive Beispielen stellen wir hier zur Verfügung.
Anwendungsfall | Tag | Beispiel | Kommentar |
---|---|---|---|
Einträge | <div> | <div type="entry" n="Eintragsnummer">Überschrift, Datum, Eintragstext, Anmerkungen</div> | Jeder Eintrag wird in ein Div vom Typ entry eingeschlossen. Im @n-Attribut wird die Eintragsnummer festgehalten. Diese sind nicht immer Integer (Ausnahmen bilden die ersten beiden Einträge "A" und "B", sowie "780a" und "780b"). Diese Divs bilden die primäre Struktur der Edition ab. (ggf. das @type-Attribut noch streichen, wenn das die einzigen divs in der Edition bleiben.) Neben `type="entry"` gibt es noch `@type="lagenzaehlung"`. Dieser Typ kommt fünfmal vor und befindet sich auf einer Ebene mit den div-Elementen vom Typ Eintrag. |
Überschriften der Einträge | <head> | <div type="entry" n="Eintragsnummer"><head>Überschrift, Datum</head> Eintragstext, Anmerkungen</div> | Jedes Eintrags-Div beginnt mit einem Head-Element. Im Head-Element steht die Überschrift des Eintrags. Diese ist von den Editoren hinzugefügt worden und steht so nicht im Roten Buch. Auf die Überschrift folgt ein <date>-Element. |
Datumsangaben | <date> | <head>Überschrift <date @when="norm_Datum">Datum</date></head> | Die Datumsangabe zum Eintrag befindet sich im Date-Element. Die Attribute @when, @not_Before, @not_After können genutzt werden um das Datum in normalisierter Form anzugeben. Im <date>-Element können auch <note>-Elemente enthalten sein. |
Transkriptionen aus dem Roten Buch | <p> | <p>Transkriptionstext</p> | Die <p>Elemente folgen auf die <head>-Elemente im <div type="entry"> und enthalten den transkribierten Text aus dem Roten Buch. Für jeden Paragraphen Text gibt es ein eigenes <p>-Element. Das heißt: Mindestens eins pro Eintrag, und ggf. mehr als eins |
Markierung von im Roten Buch hochgestellten Buchstaben | <hi rend="superscript"> | Einzelne Buchstaben sind im kritischen Apparat so gekennzeichnet. | |
Seitenanfang | <pb/> | <p><pb n="1"/>Lorem ipsum...</p> | <pb/>-Elemente sind leere Elemente, die den Anfang einer neuen Seite (nicht den Seitenumbruch!) markieren. Sie sind unmittelbar vor dem ersten Zeichen, dass von einer neuen Seite transkribiert wurde, platziert. |
Spaltenanfang | <cb/> | <p><pb n="1"/><cb n="1a/>Lorem ipsum...</p> | <cb/>-Elemente sind leere Elemente, die den Anfang einer neuen Spalte (nicht den Spaltenumbruch!) markieren. Sie sind unmittelbar vor dem ersten Zeichen, dass von einer neuen Spalte transkribiert wurde, platziert. |
Eintrag im kritischen Apparat | <app> und <note> | app from="#[abc...]_Eintragsnummer_1" to ="#[abc...]_Eintragsnummer_2"><note>Anmerkung</note></app> | Die Attribute from und to verweisen auf die anchor-Elemente im edierten Text, mit denen die relevanten Passagen/Textstellen markiert werden. Wenn nicht auf eine Passage sondern auf eine Textstelle verwiesen wird, dann wird nur mit @from auf die Stelle verwiesen. Das to-Attribut fällt in diesem Fall weg. |
Anmerkungen | <note> | <note type="foot">Anmerkung</note> | Textkritische Anmerkungen befinden sich als <note>-Element im <app>-Element. Daneben gibt es auch andere Anmerkungen, die in <p>-, <head>- und <date>-Elementen vorkommen und den type="foot" haben. Diese waren in der Buchedition als Fußnoten formatiert und haben noch ein weiteres Attribut n="laufendeNummer". Mit diesem Attribut werden die Notes vom type="foot" durchnummeriert. |
Marker einer für kritische Anmerkung relevanten Stelle/Passage im Text | <anchor/> | <anchor xml:id="[abc...]_Eintragsnummer_1"/>Lorem ipsum<anchor xml:id="[abc...]_Eintragsnummer_2"/> | Das anchor-Element ist ein leeres Element, das als Pointer fungiert. Wird auf eine Textstelle verwiesen reicht ein anchor-Element dessen @xml:id uf 1 endet. Wird auf eine Textpassage verwiesen kommt ein zweites anchor-Element dazu dessen @xml:id auf 2 endet (sich ansonsten aber in der ID nicht unterscheidet). Die IDs werden folgendermaßen gebildet: Sie beginnen mit einem kleingeschriebenen Buchstaben (a, b, c, d, e, f, g, h, i, j, k). Darauf folgt ein Unterstrich und die Nummer des Eintrags in der die markierte Stelle sich befindet, gefolgt von einem weiteren Unterstrich. Je nachdem ob die ID eine Textstelle, den Beginn oder das Ende einer Textpassage markiert endet die @xml:id auf 1 oder 2. (In der Druckedition mit hochgestellten Kleinbuchstaben markiert.) |
unsichere Lesart eines Wortes | <unclear> | <unclear>Wort</unclear> | In der Druckedition als [?] angezeigt. |
unlesbare, nicht rekonstruierbare Stelle | <gap/> | <gap reason="illegible"/> | In der Druckedition als [...] angezeigt. |
Ergänzungen, plausible Rekonstruktionen | <supplied> | <supplied>Ergänzung</supplied> | In der Druckedition als [Ergänzung] angezeigt. |
Auflösung von Abkürzungen | <ex> | Abkürzung<ex>Auflösung</ex> | In der Druckedition als "(Auflösung)" angezeigt. |
Gestrichener Text oder Doppelungen | <del> | <del><anchor xml:id="a_Eintragsnummer_1/></del> | In der Druckedition mit stumpfen Klammern markiert ⟨⟩. Alles, was nicht zum _textus receptus_ gehört, wird so markiert. |
Zitate aus der Quelle im kritischen Apparat | <q type="distinct"> | <q type="distinct">dem</q> | In der Druckedition im kritischen Apparat kursiv gesetzt. |
Zitate aus anderen Quellen in Fußnoten | <q type="written"> | <q type="written">Winzurlin</q> | In der Druckedition kursiv gesetzt und von Anführungszeichen »« umschlossen. |
In Fußnoten erwähnte Fremdwörter | <q type="foreign"> | <q type="foreign">anno</q> | In der Druckedition kursiv gesetzt. Kommt hauptsächlich beim Wort "anno" vor. |
Referenzen zu Named Entities | <rs ref="#ID"> | <rs ref="#Lem_d2e73365_Ho_U1_0_Hof">hof</rs> | Named Entities werden als referencing string ausgezeichnet. Im @ref wird nach einem # die ID der Named Entity aufgeführt. |
Word2TEI
Initiale Transformation
Zu Beginn des Projekts wurden die drei Word-Dateien (eine Datei für jeden Band der Buchedition) mithilfe des Tools OxGarage in TEI-XML transformiert. Hierfür wurde bei Oxgarage die Option "VerbatimXML tagging" verwendet. Die so entstandenen drei TEI-XML-Dateien enthielten jeweils den gesamten Inhalt der drei gedruckten Editionsbände und wurden vor der Weiterverarbeitung weiter unterteilt in Texte zur Edition, den eigentlichen Editionstext und die Register. Die Texte zur Edition wurden teilweise nur im ersten Band abgedruckt (z.B. die Editionsrichtlinien), mehrmals abgedruckte Texte (z.B. das Literaturverzeichnis oder die Konkordanz der Ortsnamen) wurden in ihrer aktuellsten Fassung aus dem dritten Band übernommen. So wurden alle Texte zur Edition aus den drei Bänden in einer Datei zusammengeführt. Das Register wurde von Band zu Band weiter ergänzt und im dritten Band in Gänze abgedruckt, sodass nur dieses weiterverarbeitet wurde. Der Editionstext war nach der initialen Transformation zu TEI-XML in den verschiedenen Bänden noch leicht unterschiedlich strukturiert, sodass dieser zunächst Band für Band mithilfe von XSLT-Skripten in einer XProc-Pipeline aufgeräumt und strukturiert wurde, bevor der Editionstext aller drei Bände in einem TEI-XML-Dokument zusammengeführt wurde.
Vom Register zu Named Entities
Raphaele Barthels
Die in der Druckedition identifizierten Entitäten der Typen Personen, Orte und Schlagwörter sind in einem lemmatisierten Vollwortregister mit 10.444 Lemmata gesammelt, die auf 39.697 Stellen im Editionstext verweisen. Im Register der Druckedition wird nicht zwischen den Entitätstypen differenziert. Diese lemmatisierten Entitäten sollten (semi-)automatisch in den TEI-Dokumenten der digitalen Edition identifiziert und annotiert werden. Außerdem sollte in den Daten explizit zwischen Personen, Orten und Schlagworten unterschieden werden. Aufgrund der unregulierten Orthografie der mittelalterlichen Quelle sowie der unvollständigen Verzeichnung der im Editionstext vorkommenden Schreibvarianten der einzelnen Lemmata im Register, stellte dies eine besondere Herausforderung dar, die mehrere Vor- und Nachbearbeitungsschritte erforderte.
Zu Beginn des Projekts wurde das Register aus dem dritten Band der Druckausgabe im Rahmen des Word2TEI-Workflows transformiert. (siehe Initiale Transformation) Dieses bildete die Grundlage für die weitere Arbeit, mit dem Ziel die implizit im Register enthaltenen Informationen in eine explizite Struktur zu überführen, um die Daten maschinenlesbar und automatisiert verarbeitbar zu machen. Hierfür war eine Reihe von Transformationsschritten notwendig, an deren Ende das Register in einer Form vorlag, die die Zuordnung der im Register erfassten Verweise zum jeweiligen Eintrag ermöglichte. In diesem Zuge wurden alle Entitäten mit einer ID versehen, mit Hilfe derer sich später die Entitäten mit Erwähnungen im Editionstext verknüpfen ließen.
In einem automatischen Erkennungsprozess konnten etwa 40% der 39.697 Verweise einer konkreten Stelle im Editionstext zugeordnet werden, wobei hier die Fehlerquote aufgrund der unregelmäßigen Schreibweisen sehr hoch war. Besonders bei kurzen Lemmata traten vermehrt Zuordnungsfehler auf. Eine Fuzzy-Suche bzw. die Berücksichtigung abweichender Schreibweisen nach Levensthein-Distanz erfolgte nicht. Grund hierfür war, dass die ohnehin vorhandene Fehlerrate nicht weiter erhöht werden sollte. Die Korrektur der identifizierten Textstellen, sowie die Zuordnung der übrigen ca. 24.000 Named Entities zu konkreten Textstellen musste unter großem zeitlichen Arbeitsaufwand manuell erfolgen. Hierbei wurde der Fokus auf die Identifikation der erwähnten Personen und Orte im eigentlichen Editionstext gelegt. Verweise im Register auf in den Fußnoten erwähnte Entitäten blieben teilweise implizit. Darüber hinaus wurden im Register auch Verweise auf in Einträgen implizit genannte Schlagwörter verzeichnet, die ebenfalls nicht mit konkreten Textstellen verknüpft wurden, sondern in den Daten lediglich dem Eintrag als Ganzem zugeordnet sind. Zusätzlich erschwert wurde die manuelle Nachkorrektur durch eine Eigenheit des gedruckten Registers: Personen, denen mehrere Namen zugeordnet werden konnten wurden manchmal an unterschiedlichen Stellen im Register aufgeführt. Dies führte im Transformationsprozess dazu, dass einigen Personen mehrere IDs zugeordnet wurden (da jeder Registereintrag eine eigene ID erhielt). In ein paar hundert Fällen sind daher einem auf eine Person verweisenden String zwei oder drei IDs zugeordnet. Diese doppelt im Register aufgeführten Personen und ihre verschiedenen Namen und IDs in den Daten zu einem Datensatz zusammenzuführen ist im Rahmen des Projekts aus Zeitmangel nicht gelungen.
In den Daten wurden die Entitäten aus dem ursprünglichen Register in Personen, Orte und Schlagwörter unterteilt. Um Personen und Orte zu identifizieren, wurden diese zunächst mit Listen von Orten und Vornamen abgeglichen. So konnten etwa zwei Drittel der 10.444 Lemmata zugeordnet werden. Die übrigen Entitäten mussten manuell geprüft und zugeordnet werden.
Verknüpfung von Literaturverzeichnis und -angaben
Márta Vass
Die in der Edition gemachten Literaturangaben wurden im Rahmen des Projekts explizit als solche ausgezeichnet und über Referenzen auf IDs direkt mit dem entsprechenden Titel im Quellen- und Literaturverzeichnis verknüpft. Um diese Aufgabe zu bewerkstelligen, mussten zunächst die Titel des Literaturverzeichnisses ins TEI-XML transformiert und mit IDs versehen werden. Für die Sekundärliteratur wurde dieser Prozess dadurch erleichtert, dass diese bereits zu Beginn des Projekts im Bibtex-Format vorlag. Neben der Sekundärliteratur ist außerdem zwischen gedruckten und ungedruckten Quellen zu unterscheiden. Diese drei Gruppen erforderten schon in der gedruckten Edition jeweils ein spezifisches Layout. Dies setzt sich auch in der TEI-Auszeichnung fort, wo für jede der drei Gruppen ein eigenes Schema entworfen werden musste. Nachdem das Literaturverzeichnis in TEI-XML zur Verfügung stand konnten mithilfe von XPath- und regulären Ausdrücken auch die Literaturangaben in den Fußnoten der Edition identifiziert, in TEI-XML transformiert und mit den IDs aus dem Literaturverzeichnis verknüpft werden.
Aufbereitung der Facsimiles
Die Facsimiles des Roten Buches wurden vom Staatsarchiv Breslau zur Verfügung gestellt. Die als Doppelseiten bereitgestellten Scans hat Jan-Niklas Brück mithilfe des Programms IrfanView halbautomatisch in Einzelseiten gesplittet. Diese wurden zunächst auf den IIIF-Server des Digital Humanities Lehrstuhls an der Bergischen Universität Wuppertal geladen und sind von dort über ein IIIF-Manifest mit der Web-Präsentation verknüpft. Die Facsimiles sollen perspektivisch auf einen institutionell getragenen IIIF-Server umziehen. Die Verhandlungen mit infrage kommenden Bibliotheken laufen aktuell (Dezember 2024) noch.
Web-Präsentation
Die technische Infastruktur der Webanwendung ist recht simpel gestaltet. Darin spiegelt sich das Projektziel wieder, welches in erster Linie auf der Produktion von hochwertigen XML-TEI Daten lag. Die Web-Präsentation wurde mit minimalem Aufwand mithilfe einiger XSLT-Skripte aus den Daten generiert und besteht aus statischen HTML- Seiten, welche mit CSS und ein wenig Javascript angereichert wurden. Darüber hinaus sind die Facsimiles über ein IIIF-Manifest eingebunden. Hierfür wird der an der SUB Göttingen entwicklete IIIF-Viewer Tify genutzt. Das Design der Webseite wurde mit Hilfe des CSS-Frameworks Bootstrap umgesetzt. Mit SCSS wurde dieses stellenweise auf die Bedürfnisse des Projektes angepasst. Diese Anpassungen betreffen in der ersten Linie das gewählte Farbschema, welches sich am Cover der Buchedition orientiert. Die Präsentation der Einträge, die Listen mit den Zugängen zu den Einträgen sowie das Register wurden automatisiert aus den Daten generiert. Die Startseite sowie die Begleittexte zu gedruckter und digitaler Edition wurden manuell in HTML kodiert.
Obwohl in den Daten die Named Entities nach Orten, Personen und Schlagworten unterteilt wurden, wird in der Web-Präsentation nur ein Gesamtregister für alle drei Entitätstypen generiert. So lässt sich im Register der Zusammenhang von Named Entities verschiedener Kategorien deutlich machen. Personen werden im Roten Buch regelmäßig bei (Vor)Namen und Herkunftsort genannt, diese sind dann im Register der entsprechenden Ortsbezeichnung untergeordnet. Die digitale Edition ermöglicht also einerseits die Identifizierung einzelner Named Entities als Person, Ort oder Schlagwort ohne dass die kulturgeschichtlichen Zusammenhänge zwischen den Kategorien verloren gehen, indem sie über die Struktur der vergebenen IDs kategorienübergreifend in Gruppen geordnet werden können.
Nachhaltigkeit
Die Edition wird dauerhaft beim Data Center for the Humanities (DCH) gehostet. Aktuell (Dezember 2024) wird noch eine Institution gesucht, die die Facsimiles des Roten Buches langfristig über ihren IIIF-Server bereitstellt. Durch die simple technische Infrastruktur wird die langfristige Verfügbarkeit der Web-Präsentation bei geringem Wartungsaufwand gewährleistet.
Nächste Schritte
In zukünftigen Forschungsprojekten können die für diese digitale Edition erarbeiteten Daten auf verschiedenste Weise weiter angereichert werden.
- Personen und Orte können mit Informationen aus Normdatenbanken verknüpft werden. Für die Orte existieren hierzu schon Vorarbeiten von Christian Speer.
- Die Anreicherung mit Normdaten ermöglicht die Visualisierung der Herkunftsorte der Görlitzer Bevölkerung im 14. Jahrhundert. Die Koordinaten der erwähnten Orte ließen sich beispielsweise mit Leaflet auf einer (zeitgenössischen?) Karte plotten.
- Doppelte Datensätze von Personen mit mehreren Namen zusammenführen (siehe Vom Register zu Named Entities).
- Daten und Facsimiles könnten enger miteinander verknüpft werden, indem in den Daten zu jedem Eintrag die Zone des dazugehörigen Facsimiles definiert wird in der der Eintragstext steht.
- Da das Rote Buch und die dazugehörige Kladde eine logische Einheit bilden und die hier vorliegende digitale Edition des Roten Buches auch Einträge enthält, die nur in der Kladde zu finden sind, wäre es wünschenswert die Erwähnung der Kladde in den Daten maschinenlesbar auszuzeichnen und die Kladde expliziter in die Daten einzubinden, indem bei in der Kladde niedergeschriebenen Einträgen auf die entsprechende Seitenzahl innerhalb der Kladde verwiesen wird. Aktuell sind die Seitenzahlen der Kladde nur als menschenlesbare Kommentare in den Daten hinterlegt.
- Die Einteilung der Named Entities in Schlagworte, Orte und Personen sollte erneut systematisch geprüft und korrigiert werden. Dies gilt insbesondere für die Default-Kategorie der Schlagworte in der wahrscheinlich noch einige Personen und Orte zu finden sind.
Updates
Die Daten befinden sich in einem einzigen XML-File mit dem Namen alle_Bände_Edition.xml. Dieses kann mit den XSLT-Skripten edition_entries.xsl (generiert die Eintragsseiten), edition-zugänge.xsl (generiert die Eintragsübersichten) und edition-register.xsl (generiert das Register). Die übrigen HTML-Seiten sind nicht aus den Daten generiert: index.html, about-edition.html, about-project.html, datenschutzerklaerung.html, impressum.html. Mit dem Python-Skript styledHTML2plainHTML.py können die Texte zur Edition (about-edition.html und about-project.html) in die ungestylte Version, die bei Zenodo hochgeladen ist (zur-gedruckten-edition.html und zur-digitalen-edition.html) umwandeln. Nach der Transformation müssen der head, die Navbar, der Footer und die (nun leeren) SVG-Elemente bei den Überschriften manuell bzw. mit suchen-ersetzen entfernt werden. Das IIIF-Manifest manifest.json ist in die Eintragsseiten eingebunden und verweist auf den Wuppertaler-IIIF-Server. Sobald die Bilder an ihr endgültiges Ziel umgezogen sind, müssen die Bildadressen hierin angepasst werden.
Team
Projektleitung:- Dr. Christian Speer (Halle-Wittenberg)
- Prof. Dr. Patrick Sahle (Wuppertal)
- Jana Klinger (Wuppertal)
- Márta Vass (Wuppertal)
- Ann-Kristin Junker (Wuppertal)
- Raphaele Bartels (Wuppertal)
- Jan-Niklas Brück (Wuppertal)