Ein systemrelevanter Donnerstagabend?

Das Double-Feature vom 2. Und 3. Dezember hat den Leidensdruck in BAIN erhöht. Gerade wenn viele, zumindest für mich, neue Fachbegriffe erklärt und in Software eingeführt wird, von der ich noch nie gehört habe und deren Funktion und Zweck erst einmal verstanden werden will, verlangt es mir einiges an Konzentration und Zeitaufwand ab den Stoff zu verdauen. Wenigstens auf einen der beiden Blogbeiträge zu verzichten, hätte ich von den Dozierenden freundlich gefunden.

Aber nun mal rein in die Metadaten-Modellierung, los geht’s mit dem Schnittstellentanz!

Um zu verstehen, warum wir uns mit diverser Software und dem Begreifen von Konvertierungsproblemen zwischen Datenformat XY zu Datenformat YZ herumschlagen müssen, wurde das Ziel der beiden Lehreinheiten «Metadaten modellieren und Schnittstellen nutzen» formuliert. Unsere Metadatensätze aus KOHA, ArchivesSpace und DSpace (ja, da sind sie alle wieder) sollen mittels VuFindHarvest über OAI-PMH-Schnittstellen harvestet werden. Weiter werden sie über die Software MarcEdit in der Skriptsprache XSLT in MARC21-XML konvertiert.

Bevor wir an die Übung gingen, gab es eine kurze theoretische Abhandlung über die verschiedenen Austauschprotokolle für Metadaten. Dabei wurde uns das ältere, von der Library of Congress (LoC) erstellte, Z39.50 sowie die Weiterentwicklung, das Austauschprotokoll SRU vorgestellt. Als sehr verbreitet gilt inzwischen OAI-PMH, darüber haben wir bereits einiges gehört. Vorteil der neueren Austauschprotokolle SRU und OAI-PMH ist unter anderem die fortlaufende Aktualisierung der Daten. Z39.50 ermöglicht Einzeldatenabruf, SRU Livedatenabruf und OAI-PMH liefert auf Wunsch einen Gesamtdatenabruf.

Weiter geht es mit VuFindHarvest. Dieser OAI-Harvester ermöglicht das Herunterladen von Metadaten über OAI-PMH-Schnittstellen. Um das in unseren VDIs anzuwenden, mussten wir zunächst die OAI-PMH-Endpoints bei unseren KOHA- und ArchivesSpace-Installationen überprüfen.

Das nächste Themenbündel widmete sich XSLT-Crosswalks mit der Software MarcEdit. Metadaten können mit MarcEdit von einem Metadatenstandard in einen anderen transformiert oder konvertiert werden. Dabei wurde uns noch einmal vor Augen geführt, dass allein MARC21 in verschiedenen Formaten auftreten kann – im Binär- oder als XML-Format. Das erklärte Ziel bei der Übung mit MarcEdit war alle unsere Daten aus KOHA, ArchivesSpace und DSpace in MARC21-XML zu konvertieren. Dass die Überführung von einem Standard in einen anderen nicht verlustfrei verlaufen kann, haben wir in vorangegangenen Lektionen bereits erfahren. Auch MarcEdit kann dieses Problem nicht lösen.

Bevor wir mit MarcEdit starteten, wurde der Begriff «Mapping» erklärt. Das erklärt die Ursache von Datenverlusten. Mapping bedeutet, es werden Regeln aufgestellt wie einzelne Felder und darin enthaltene Werte in einem Metadatenstandard den Feldern in einem anderen Metadatenstandard zugeordnet werden. Das Ergebnis dieses Prozesses nennt sich Crosswalk. Die Gegenüberstellung von Dublin Core-Daten zu MARC21-Daten veranschaulichte das Problem sehr gut.

Um Crosswalks für grosse Datenmengen zu realisieren benötigt es eine Programmier- oder Skriptsprache. Dies war der Moment für die Erstbegegnung mit XSLT - eine Programmiersprache für die Transformation von XML-Dokumenten.

Die Software MarcEdit liefert einige XSL-Dateien mit und eignet sich daher für die Konversion von Metadatenformaten in andere Metadatenformate. Zwar von nur einer hundevernarrten Person entwickelt und gepflegt, existiert diese Software bereits seit über 20 Jahren und wird weltweit verwendet. Die Anwendung ist gewöhnungsbedürftig und bedarf einer eingehenden Einführung in das Programm, um Fallstricke wie Case-Sensivity und weitere betriebssystemspezifische Fallstricke zu umgehen. Auch dass EAD in einem Zwischenschritt zunächst in das Binärformat MARC21 konvertiert werden muss, um dann in MARC21-XML transformiert zu werden, muss einer Anwenderin wie mir erst erklärt werden. Wir wandelten unsere MARC21-, EAD- und Dublin Core-Daten mit MarcEdit in MARC21-XML um. Der erwartete Datenverlust zeigte sich im Ergebnisvergleich relativ schnell.