Im Rahmen des Projekts „travel!digital“ 1 wird erstmals der Versuch unternommen, die vielfältige Terminologie in historischen Reiseführern systematisch zu erschließen. Der Fokus auf Menschen und Monumente stellt zwei dominante semantische Felder in den Mittelpunkt, die sowohl Schlüsselelemente der Textsorte Reiseführer als auch wesentliche Komponenten kultureller Narrative darstellen. Damit sind Reiseführer keineswegs bloße historische Quellen, sondern vielmehr als bedeutende diskurshistorische Artefakte 2 zu betrachten. Zudem eignet sich das in ihnen enthaltene enzyklopädische Wissen in besonderem Maße für die Datenmodellierung. Vor diesem Hintergrund erstaunt das Fehlen systematischer diachroner Forschung auf diesem Gebiet mindestens genauso wie der eklatante Mangel an digitalen Ressourcen, die für historische Untersuchungen geeignet wären. 3
Mit dem Baedeker Corpus, einer digitalen Sammlung deutschsprachiger Reiseführer aus dem Zeitraum 1875–1914, zielt das Projekt nicht nur darauf ab, wertvolles kulturelles Erbe mit den Methoden der Digital Humanities nachhaltig und langfristig sicherzustellen, sondern besonders darauf, semantische Technologien verstärkt zur Erforschung des deutschsprachigen Repertoires kultureller Diskurse an der Wende vom 19. zum 20. Jahrhundert einzusetzen. Als „komplexe Intertexte“ (vgl. Wierlacher 1997; Koshar 2000), die dominante Diskurse (re)produzieren bzw. (re)konstruieren, stellen Reiseführer „kodifizierte und autorisierte Versionen lokaler Kultur und Geschichte“ dar (vgl. Jaworski / Pritchard 2005). Die in den Reiseführern transportierten zeitgenössischen Lesarten zu Tourismus und kulturellem Erbe sowie Orientalismus und kolonialem Diskurs sind kultur- und diskurshistorisch von besonderem Interesse. Darüber hinaus lassen sich strukturell, linguistisch und insbesondere semantisch erschlossene digitale Reiseführer im Rahmen vergleichender literaturwissenschaftlicher Forschung, der historischen Lexikographie und Linguistik, der historischen Geographie und Kulturanthropologie nutzen.
Das vorliegende Korpus vereint alle Erstauflagen zu außereuropäischen Reisezielen aus dem Hause Baedeker, die vor der Zäsur des Ersten Weltkriegs erschienen sind. Es umfasst mehr als 1,5 Mio. running words und deckt eine Vielzahl an Regionen ab. 4 Mit Blick auf differenzierte Analysemöglichkeiten stehen neben der linguistischen Basis-Annotation der Volltexte (Lemmatisierung, Part-of-Speech-Tagging) der Aufbau kontrollierter Vokabulare und deren Anbindung an LOD-Ressourcen im Mittelpunkt. Die semantischen Repräsentationen werden mithilfe des RDF-basierten Simple Knowledge Organization System SKOS und dessen Erweiterung SKOS-XL realisiert, mit dem sich auch ambige lexikalische Einheiten und nicht-hierarchische Relationen sinnvoll organisieren lassen. Zur Erstellung der SKOS-Repräsentation des Baedeker Corpus wird der OpenSKOS Editor 5 eingesetzt; eine Entwicklung des Meertens Institute, die bereits für CLAVAS (CLARIN OpenSKOS Vocabulary Service) verwendet wird, das u. a. die ISO-639-3 language codes im SKOS Format enthält. Auch die DARIAH-EU Arbeitsgruppe Thesaurus Maintenance verwendet OpenSKOS für eine erste Version der SKOS-Repräsentation des in Entwicklung befindlichen Backbone Thesaurus. Der OpenSKOS Editor sichert daher die Kompatibilität mit aktuellen Standards und Entwicklungen.
Neben Personennamen beinhalten Reiseführer auf Seiten der Menschen eine Vielzahl an Gruppenbezeichnungen, die generische Referenzen und als solche, Subjekte charakterisierender Eigenschaftszuschreibungen darstellen (vgl. Schmidt-Brücken 2015). Diese für diskurshistorische Analysen relevanten Belege des Sprachgebrauchs werden jeweils von einem bdk:Descriptor, einer Unterklasse von skos:Concept, repräsentiert. Ihnen zugeordnet sind einzelne Terme als skosxl:prefLabel und skosxl:altLabel. Mithilfe der Properties hasTranslation / isTranslationOf und hasVariant / isVariantOf finden die in den Reiseführern enthaltenen Übersetzungen und Varianten auf Ebene der Terme Berücksichtigung. Auf diese Weise wird der Wortschatz vollständig erfasst und in einem skos:ConceptScheme zusammengefasst. Der Strukturierung dieses bdk:ConceptSchemeGroups dienen sechs mit skos:topConceptOf zugeordnete Kategorien: 1) allgemeine Sammelbegriffe, 2) ethnisch/nationale Gruppen, 3) geographische Konzepte im weitesten Sinne, 4) Berufsgruppen, wozu auch politische, religiöse und wirtschaftliche Funktionen sowie Lebensstile zählen, 5) Religionsgemeinschaften und 6) soziale Gruppierungen. Aufgenommen werden als eigene Konzepte nicht nur Nomen, sondern auch Adjektive, wobei die entsprechenden Konzepte mit skos:related aufeinander bezogen sind. Abbildung 1 listet die skos:topConcept(s) und ihre Definitionen auf und gibt einige Beispiele der ihnen zugeordneten Konzepte und Labels sowie deren Beziehungen.
Ein ähnlich vielfältiges Bild ergibt sich im Bereich der Monumente und Sehenswürdigkeiten, die als Gegenstand wertender Beschreibung und Einordnung eine zentrale Rolle in Reiseführern einnehmen. Aufgrund ihrer Vielzahl werden zunächst nur jene Sehenswürdigkeiten strukturiert, die mit Baedeker-Sternen als besonders sehenswert gekennzeichnet sind. Das Spektrum reicht von Architektur 6 und Kunst 7 bis zu Unterkünften, Landschaften und atemberaubenden Aussichten. Diese Kategorien strukturieren jeweils als skos:topConcept(s) das bdk:ConceptSchemeMonuments. Derzeit wird an einer Lösung gearbeitet, die es erlaubt, zwischen profaner und sakraler Kunst und Architektur zu unterscheiden und, sofern sakral, die jeweilige Religion zuzuordnen.
Die linguistische Annotation des Baedeker Corpus und die Erstellung der vorgestellten kontrollierten Vokabulare stellen die Voraussetzung für eine weitergehende systematische Analyse der Textsorte Reiseführer dar. Neben der Identifikation der in den untersuchten Baedeker-Bänden genannten historischen Persönlichkeiten mithilfe der Virtual International Authority Files und der Deutschen Biographie erscheint insbesondere die Anbindung der hier beschriebenen Taxonomien an Ressourcen wie die DBpedia, den GESIS Thesaurus Sozialwissenschaften, den AAT Art & Architecture Thesaurus des Getty Research Institute oder den UNESCO Thesaurus erfolgversprechend, zumal die Verschränkung der lexikalischen Bestandsaufnahme mit der Kontextualisierung dieser externen Quellen neue Perspektiven auf den Text zu eröffnen vermag. Vor allem aber kann das hier vorgestellte Datenmodell die granulare Analyse jener semantischen Komponenten unterstützen, die das Sprechen über sowohl das ‚Fremde‘ als auch das ‚Eigene‘ bestimmen, und erschließt somit mit rezenten Technologien die Funktionsweise eines Diskurses, dessen Wirkungsgrad bis heute weit über das Feld der Reiseliteratur hinausreicht.
Die digitalen Texte inklusive der Faksimiles und die SKOS-Vokabulare werden zu Projektende in Form einer Web-Applikation 8 zur Verfügung gestellt. Die Navigations- und Abfragemöglichkeiten sowohl in den Volltexten als auch der linguistischen Annotation werden ergänzt durch Register der Wortformen, der Lemmata sowie der semantischen Komponenten. Die vorgestellten SKOS-Vokabulare zu Menschen und Monumenten fungieren zudem als Verbindung der konkreten Belegstellen im Baedeker Corpus und externen LOD-Ressourcen.