Europeana
Europeana: Seit 2009 bestehendes, EU-gefördertes Netzwerk/Portal >>>
- Betrieben von der Europeana Foundation (Königliche Bibliothek der Niederlande, Den Haag)
- Bietet Zugang zu Digitalisaten von Werken aus der europäischen Kunst- und Kulturgeschichte (Bücher, Gemälde, Film, Musik)
- Datenlieferanten: Museen, Bibliotheken, Archive
Mehrere Projekte und Förderphasen, seit 2013: Europeana Cloud (2/2013 - 2/2016)
- Entwicklung einer Cloud-basierten Speicherstruktur für Europeana (technische und rechtliche Aspekte)
- Weitere Wachstumsphase: Geplanter Zuwachs um etwa 1,1 Mio Metadatensätze und 5 Mio Digitalisate
- 33 Projektpartner, darunter die UB Bielefeld mit BASE
BASE-Daten für Europeana
BASE liefert eine definierte Index-Teilmenge an Europeana:
- Records aus europäische Quellen
- Filterung nach bestimmten Dewey-Klassen zur thematischen Einschränkung (Religion, Kunst, Literatur,...)
- Auslieferung über die BASE-OAI-Schnittstelle >>>
- Base quantitativ größter Datenlieferant (zusammen mit Bayerischer Staatsbibliothek)
Problem: Europeana benötigt für jeden angelieferten Record explizite Rechteinformationen!
- Vorgegebenes Vokabular an möglichen Rechteinstufungen >>>
- Unproblematisch für Projektpartner mit kleinen, händisch zusammengestellten Datensätzen
- Sehr schwierig für BASE: Metadaten aus vielen unterschiedlichen Harvest-Quellen
- Heterogene Rechteinformationen, bislang in BASE nicht ausgewertet
Übersicht: BASE und Rechteinformationen
BASE: Bisheriger Stand
- Quellen in BASE werden über OAI-PMH geharvestet, das Format ist dabei üblicherweise Dublin Core (DC)
- Dublic Core enthält ein optionales Feld "dc:rights", das Informationen über Nachnutzungsrechte des Datensatzes enthalten kann.
- Problem: Feldinhalte sind völlig uneinheitlich (Art der Information, Notation, Sprache...)
Beispiel für dc:rights-Inhalte aus BASE (deutsche Quellen):
- "open access"
- "The Public Domain Mark (PDM)"
- "© Technische Universität Ilmenau (Thür.) 2014"
- "info:eu-repo/semantics/embargoedAccess"
- "Creative Commons - Namensnennung, Nicht kommerziell, Keine Bearbeitung"
Feld dc:rights in BASE bislang nicht berücksichtigt (wird bei Suchtreffern unverändert mit ausgegeben)
Einzige Form von Nachnutzungsinformationen in BASE bisher: Open Access (OA)
- Feld "dc:oa" im BASE-Metadatensatz, 1 = Open Access, 2 = Unbekannt
- Zwei bestehende Informationquellen für Open-Access-Status:
- 1. Quellenbasiert (Eine komplette Quelle enthält nur OA-Dokumente)
- 2. OAI-Sets (Eine gesondert markierte Teilmenge einer Quelle ist als OA ausgezeichnet)
=> Bislang keine Gewinnung von Nachnutzungsinformationen direkt auf Record-Ebene
Rechtenormalisierung
Ziel: Normalisierung (Abbildung auf ein festes Vokabular) der Inhalte des DC-Elements "dc:rights" in einem neuen Feld "dc:rightsnorm". Vorteile:
- Feste Zuordnung zu Europeana-Rechtekatalog möglich
- Bereitstellung zusätzlicher Informationen bezüglich freier Inhalte in BASE (neue Suchoptionen)
- Gewinnung von zusätzlichen Informationen bezüglich des Open-Access-Status auf Record-Ebene
Frage: Auf welche Zielkategorien soll normalisiert werden?
- 1) Gemeinfreie Inhalte/Public Domain
- 2) Creative Commons (mit jeweils exaktem Mapping auf eine der 6 möglichen CC-Lizenzen: CC-BY, CC-BY-SA, CC-BY-ND, CC-BY-NC, CC-BY-NC-SA, CC-BY-NC-ND)
- 3) Open Access
- 4) Kein Open Access
- 5) Unbekannt (kein dc:rights-Feld oder Inhalt nicht normalisierbar)
Grundannahme: Gemeinfreiheit (1) und Creative Commons (2) bedingen implizit Open Access. Daher wird bei diesen Normalisierungen auch der Open-Access-Status in den Metadaten gesetzt (dcoa = 1).
dc:rights |
dc:rightsnorm |
dc:oa |
"open access" |
|
1 |
"The Public Domain Mark (PDM)" |
PDM |
1 |
"© Technische Universität Ilmenau (Thür.) 2014" |
|
2 |
"info:eu-repo/semantics/embargoedAccess" |
|
0 |
"Creative Commons - Namensnennung, Nicht kommerziell, Keine Bearbeitung" |
CC-BY-NC-ND |
1 |
Technische Umsetzung
Rechtenormalisierung findet während des sogenannten Preprocessings statt (geschieht jedes Wochenende für geänderte Harvest-Ergebnisse)
Grundprinzip: Hierarchisch abgestufte Suche mit regulären Ausdrücken.
1. Public Domain: Konservativer Ansatz, beschränkt auf Suche nach den von creativecommons.org vorgeschlagenen Public-Domain-Varianten:
- Public Domain Mark(PDM): creativecommons.org/publicdomain/mark/1.0
- CC Zero: creativecommons.org/publicdomain/zero/1.0
2. Creative Commons: Zweistufiger Suchprozess mit regulären Ausdrücken: Zunächst Suche nach allgemeinen 'Markern', die auf CC-Lizenzen hindeuten, beispielsweise:
- Creative[\-\_\s]*Commons
- https?://creativecommons.org
- cc(-|_| )by
Falls ein solcher Marker gefunden wird, erfolgt in der zweiten Stufe die Abbildung auf eine bestimmte CC-Lizenz. Dazu werden wiederum drei Phasen durchlaufen:
- Suche nach (mehr oder weniger) wohlgeformten CC-URIs ("creativecommons.org/licenses/by-nc" etc.)
- Suche nach Kombinationen von natürlichsprachlichen Lizenbestandteilen in mehreren Sprachen ("Namensnennung", "No Comercial", "Bez utworów zależnych")
- Suche nach gängigen Abkürzungen von CC-Lizenzen ("cc-by-sa, cc_by_2_5")
3. (Kein) Open Access: Vorrangig Suche nach URIs aus dem DRIVER-Vokabular
- info:eu-repo/semantics/openAccess
- info:eu-repo/semantics/restrictedAccess
- "OpenAccess" in diversen Schreibweisen
Evaluierung/Entwicklung der Suchmuster
Erforderlicher Arbeitsablauf:
- Übersicht über den Brutto-Datenbestand verschaffen/häufig vorkommende dc:rights-Inhalte identifizieren
- Normalisierungsregeln entwickeln
- Auswirkung der Regeln auf die Nettodaten überprüfen
Problem: BASE enthält über 40 Mio. Records (brutto), die über ein dc:rights-Element verfügen - ohne Werkzeugunterstützung aussichtlos!
Lösung: Analysetool in HarCon >>> >>>
Gesamtergebnisse
Normalisierungskategorien als neue Suchoptionen in BASE verfügbar >>>
Aktuelle Statistiken (22.10.2105):
Kategorie |
Anzahl |
Anteil |
Gesamt |
79,814,774 |
100% |
Open Access |
23,419,090 |
29,3% |
Creative Commons* |
626,397 |
0,8% |
Public Domain* |
24,946 |
0,03% |
Kein Open Access |
1,347,691 |
1,7% |
Unknown |
55,048,253 |
69% |
* Teilmenge von Open Access
Zusammenfassung
- Rechtenormalisierung in BASE ermöglicht automatisiertes Erkennen von Nachnutzungsbedingungen auf Record-Ebene
- Neue Suchoptionen in BASE bezüglich freier Lizenzen/Inhalte
- Test und Überprüfung neuer Normalisierungsregeln in HarCon vor der Übernahme ins Live-System
Danke für Ihre Aufmerksamkeit!