Einführung
BASE bezieht seine Metadaten aus diversen externen Quellen, beispielsweise Publikationsserver an Hochschulen und Instituten, Online-Journals, Aggregationsdienste.
- Derzeit werden in BASE über 3700 Quellen verwendet.
- Beispiel an der Universität Bielefeld: PUB
Protokoll zum Zugriff auf Quellen: OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)
- Jede Quelle muss eine URL als Schnittstelle bereitstellen, über die OAI-PMH-Anfragen getätigt werden können (Basic URL)
- Ist die Basic URL unbekannt/verschoben/nicht erreichbar: Quelle nicht nutzbar!
- Beispiel PUB: http://pub.uni-bielefeld.de/oai
Wichtigste Funktion: Abruf von Metadaten aller Dokumente, die die Quelle vorrätig hält (Records)
BASE: Jede Quelle wird einmal pro Woche geharvestet.
- Bruttoertrag aus allen Quellen: Knapp 230 Mio Records (Netto: 78 Mio)
Quellen-Management
Anspruch von BASE: Alle Quellen werden intellektuell ausgewählt und geprüft.
=> Werkzeuge zur Unterstützung erforderlich!
BASE-Admin-DB (Seit 2007)
- Enthält allgemeine, längerfristige Metadaten zu Quellen
- Beispiele: Quellenname(n), Land, Geokoordinaten, Institution, Webseite, Open-Access-Status, Ansprechpartner...
Harvest Watcher (oai_stat) >>>
- Täglich neu generierte, tabellarische Übersicht über den Quellenbestand
- Automatisches Markieren potentieller Probleme (nicht erreichbare Quellen, niedriger Netto-Ertrag an Records, fehlerhaftes XML...)
- Wichtiges Werkzeug für das "Tagesgeschäft"
Problem: Harvest Watcher ist technologisch mittlerweile veraltet.
- Einzelne statische HTML-Seite, unübersichtlich
- Seitengröße derzeit 7,2 MB (lange Ladezeiten und Seitenaufbau, blockiert Browser)
- Keine Sortierung/Filterung/Suche (nur Browser-intern)
- Neuere Informationskategorien fehlen häufig
=> Implementierung eines Nachfolgesystems.
HarCon
HarCon (Harvest Console) >>>
- Neuentwickelte, browserbasierte Plattform, die unter anderem einen neu implementierten Harvest Watcher beherbergt.
- Technik: Python (Flask), Apache, WSGI, SQLite
- Login + Zugangsbeschränkt auf das Uni-interne Netz (wie bisher auch)
- Aggregierung und Normalisierung verschiedener BASE-Informationen in einer einzelnen Datenbank
Datenaustausch mit OpenAire
- Wissensinfrastruktur/Portal, an der UB mitentwickelt
- Betreibt ebenfalls Harvesting von Quellen über OAI-PMH
- Fokus auf europäische Quellen und Open Access, Datenbestand derzeit: Etwa 13 Mio Dokumente aus 660 Quellen >>>
Naheliegende Idee: Austausch von Informationen, um Quellen-Metadaten zu verbessern.
Probleme
Problem 1: Unterschiedliche Metamodelle in Bezug auf Quellen
- BASE: "Flaches" Modell: 1 Quelle = 1 Basic URL
- OpenAire: Quelle-API-Model: Zu einer Quelle können mehrere Zugänge ("APIs") existieren: 1 Quelle = n Basic Urls
=> Erfordert teilweise komplizierte SQL-Arithmetik!
Problem 2: Matching
Wie können die gleichen Quellen in BASE und OpenAire eindeutig einander zugeordnet werden?
- Name der Quelle?
- Basic URL?
- Website der Quelle?
- Mail-Adresse des Ansprechpartners?
Beispiel: InterDisciplines. Journal of History and Sociology
Plattform |
Quellenname |
Basic URL |
Website |
Ansprechpartner |
|
InterDisciplines. Journal of History and Sociology |
http://www.inter-disciplines.de/index.php/index/oai |
http://www.inter-disciplines.de/ |
interdisciplines@uni-bielefeld.de |
|
InterDisciplines. Journal of History and Sociology |
http://www.inter-disciplines.de/bghs/index.php/index/oai |
http://www.inter-disciplines.de/bghs/index.php/indi/index |
interdisciplines@uni-bielefeld.de |
Beispiel: Digitale Sammlungen
Plattform |
Quellenname |
Basic URL |
Website |
Ansprechpartner |
|
OAI Frontend |
http://ds.ub.uni-bielefeld.de/viewer/oai |
http://ds.ub.uni-bielefeld.de/ |
support@intranda.com |
|
Digitale Sammlungen der Universitätsbibliothek Bielefeld |
http://ds.ub.uni-bielefeld.de/viewer/oai |
http://ds.ub.uni-bielefeld.de/viewer/ |
artur.nold@uni-bielefeld.de |
Folgerungen
Ergebnis: Matching über bestehende Metadaten funktioniert nicht.
- Problem 1: Kein einzelnes Metadatenfeld ist ausreichend, um gleiche Quellen sicher zu identifizieren!
- Problem 2: Kein Metadatenfeld ist inhaltlich persistent - ändert sich der Inhalt, geht die Zuordnung verloren!
Lösung: Es muss ein persistenter Identifier für Quellen verwendet werden, der eine langfristige und eindeutige Zuordnung ermöglicht.
In OpenAire bereits vorhanden: Jede Quelle hat ein Feld 'ID'
- Verschiedene Typen von Identifiern, teilweise intern, teilweise extern
- Beispiel extern: OpenDoar-IDs, ISSNs (opendoar____::953, openaire____::issn22272275)
In BASE: Bis vor Kurzem keine Verwendung von externen Identifiern.
- Einführung eines neuen Felds "Repository_Id" in der AdminDB.
- Problem: 3700 Quellen müssen überprüft und Identifier händisch nachgetragen werden.
- (Halb)automatische Unterstützung erforderlich!
=> Implementierung eines Matching-Systems in HarCon >>>
Als Ergebnis des Matchings bleiben OpenAire-Quellen übrig, die nicht mit einem Gegenstück in BASE verknüpft werden konnten.
- Viele davon unbrauchbar: Testdaten, Duplikate, Quellen mit unvollständigen Metadaten
- Einige Quellen tatsächlich valide und nicht in BASE vorhanden.
=> Anreicherung mit zusätzlichen Metadaten und Generierung einer "Vorschlagsliste" zur Übernahme der entsprechenden Quellen in BASE. >>>
Zusammenfassung
Heute:
- HarCon als neue interne Monitoring- und Arbeitsplattform für BASE seit Ende September 2015 im Regelbetrieb
- Zusammenfassung und Normalisierung vieler verstreuter Einzelinformationen
- Neuer Harvest Watcher, inkludiert Quelleninformationen aus OpenAire
- Matcher zum Finden von Quellenpaaren in BASE und OpenAire
- Automatisch generierte Vorschlagsliste als Nebenergebnis des Matchingprozesses
Nächste Woche:
- HarCon als Analysewerkzeuge zur Rechtenormalisierung.
Danke für ihre Aufmerksamkeit!