Rechtenormalisierung in BASE: Ergebnisse aus dem EuropeanaCloud-Projekt

Christoph Broschinski, <broschinski@uni-bielefeld.de>
BASE Logo UB Logo

Europeana

Europeana: Seit 2009 bestehendes, EU-gefördertes Netzwerk/Portal >>>

Betrieben von der Europeana Foundation (Königliche Bibliothek der Niederlande, Den Haag)
Bietet Zugang zu Digitalisaten von Werken aus der europäischen Kunst- und Kulturgeschichte (Bücher, Gemälde, Film, Musik)
Datenlieferanten: Museen, Bibliotheken, Archive

Mehrere Projekte und Förderphasen, seit 2013: Europeana Cloud (2/2013 - 2/2016)

Entwicklung einer Cloud-basierten Speicherstruktur für Europeana (technische und rechtliche Aspekte)
Weitere Wachstumsphase: Geplanter Zuwachs um etwa 1,1 Mio Metadatensätze und 5 Mio Digitalisate
33 Projektpartner, darunter die UB Bielefeld mit BASE

BASE-Daten für Europeana

BASE liefert eine definierte Index-Teilmenge an Europeana:

Records aus europäische Quellen
Filterung nach bestimmten Dewey-Klassen zur thematischen Einschränkung (Religion, Kunst, Literatur,...)
Auslieferung über die BASE-OAI-Schnittstelle >>>
Base quantitativ größter Datenlieferant (zusammen mit Bayerischer Staatsbibliothek)

Problem: Europeana benötigt für jeden angelieferten Record explizite Rechteinformationen!

Vorgegebenes Vokabular an möglichen Rechteinstufungen >>>
Unproblematisch für Projektpartner mit kleinen, händisch zusammengestellten Datensätzen
Sehr schwierig für BASE: Metadaten aus vielen unterschiedlichen Harvest-Quellen
Heterogene Rechteinformationen, bislang in BASE nicht ausgewertet

Übersicht: BASE und Rechteinformationen

BASE: Bisheriger Stand

Quellen in BASE werden über OAI-PMH geharvestet, das Format ist dabei üblicherweise Dublin Core (DC)
Dublic Core enthält ein optionales Feld "dc:rights", das Informationen über Nachnutzungsrechte des Datensatzes enthalten kann.
Problem: Feldinhalte sind völlig uneinheitlich (Art der Information, Notation, Sprache...)

Beispiel für dc:rights-Inhalte aus BASE (deutsche Quellen):

"open access"
"The Public Domain Mark (PDM)"
"© Technische Universität Ilmenau (Thür.) 2014"
"info:eu-repo/semantics/embargoedAccess"
"Creative Commons - Namensnennung, Nicht kommerziell, Keine Bearbeitung"

Feld dc:rights in BASE bislang nicht berücksichtigt (wird bei Suchtreffern unverändert mit ausgegeben)

Einzige Form von Nachnutzungsinformationen in BASE bisher: Open Access (OA)

Feld "dc:oa" im BASE-Metadatensatz, 1 = Open Access, 2 = Unbekannt
Zwei bestehende Informationquellen für Open-Access-Status:
1. Quellenbasiert (Eine komplette Quelle enthält nur OA-Dokumente)
2. OAI-Sets (Eine gesondert markierte Teilmenge einer Quelle ist als OA ausgezeichnet)

=> Bislang keine Gewinnung von Nachnutzungsinformationen direkt auf Record-Ebene

Rechtenormalisierung

Ziel: Normalisierung (Abbildung auf ein festes Vokabular) der Inhalte des DC-Elements "dc:rights" in einem neuen Feld "dc:rightsnorm". Vorteile:

Feste Zuordnung zu Europeana-Rechtekatalog möglich
Bereitstellung zusätzlicher Informationen bezüglich freier Inhalte in BASE (neue Suchoptionen)
Gewinnung von zusätzlichen Informationen bezüglich des Open-Access-Status auf Record-Ebene

Frage: Auf welche Zielkategorien soll normalisiert werden?

1) Gemeinfreie Inhalte/Public Domain
2) Creative Commons (mit jeweils exaktem Mapping auf eine der 6 möglichen CC-Lizenzen: CC-BY, CC-BY-SA, CC-BY-ND, CC-BY-NC, CC-BY-NC-SA, CC-BY-NC-ND)
3) Open Access
4) Kein Open Access
5) Unbekannt (kein dc:rights-Feld oder Inhalt nicht normalisierbar)

Grundannahme: Gemeinfreiheit (1) und Creative Commons (2) bedingen implizit Open Access. Daher wird bei diesen Normalisierungen auch der Open-Access-Status in den Metadaten gesetzt (dcoa = 1).

dc:rights	dc:rightsnorm	dc:oa
"open access"		1
"The Public Domain Mark (PDM)"	PDM	1
"© Technische Universität Ilmenau (Thür.) 2014"		2
"info:eu-repo/semantics/embargoedAccess"		0
"Creative Commons - Namensnennung, Nicht kommerziell, Keine Bearbeitung"	CC-BY-NC-ND	1

Technische Umsetzung

Rechtenormalisierung findet während des sogenannten Preprocessings statt (geschieht jedes Wochenende für geänderte Harvest-Ergebnisse)

Grundprinzip: Hierarchisch abgestufte Suche mit regulären Ausdrücken.

1. Public Domain: Konservativer Ansatz, beschränkt auf Suche nach den von creativecommons.org vorgeschlagenen Public-Domain-Varianten:

Public Domain Mark(PDM): creativecommons.org/publicdomain/mark/1.0
CC Zero: creativecommons.org/publicdomain/zero/1.0

2. Creative Commons: Zweistufiger Suchprozess mit regulären Ausdrücken: Zunächst Suche nach allgemeinen 'Markern', die auf CC-Lizenzen hindeuten, beispielsweise:

Creative[\-\_\s]*Commons
https?://creativecommons.org
cc(-|_| )by

Falls ein solcher Marker gefunden wird, erfolgt in der zweiten Stufe die Abbildung auf eine bestimmte CC-Lizenz. Dazu werden wiederum drei Phasen durchlaufen:

Suche nach (mehr oder weniger) wohlgeformten CC-URIs ("creativecommons.org/licenses/by-nc" etc.)
Suche nach Kombinationen von natürlichsprachlichen Lizenbestandteilen in mehreren Sprachen ("Namensnennung", "No Comercial", "Bez utworów zależnych")
Suche nach gängigen Abkürzungen von CC-Lizenzen ("cc-by-sa, cc_by_2_5")

3. (Kein) Open Access: Vorrangig Suche nach URIs aus dem DRIVER-Vokabular

info:eu-repo/semantics/openAccess
info:eu-repo/semantics/restrictedAccess
"OpenAccess" in diversen Schreibweisen

Evaluierung/Entwicklung der Suchmuster

Erforderlicher Arbeitsablauf:

Übersicht über den Brutto-Datenbestand verschaffen/häufig vorkommende dc:rights-Inhalte identifizieren
Normalisierungsregeln entwickeln
Auswirkung der Regeln auf die Nettodaten überprüfen

Problem: BASE enthält über 40 Mio. Records (brutto), die über ein dc:rights-Element verfügen - ohne Werkzeugunterstützung aussichtlos!

Lösung: Analysetool in HarCon >>> >>>

Gesamtergebnisse

Normalisierungskategorien als neue Suchoptionen in BASE verfügbar >>>

Aktuelle Statistiken (22.10.2105):

Kategorie	Anzahl	Anteil
Gesamt	79,814,774	100%
Open Access	23,419,090	29,3%
Creative Commons*	626,397	0,8%
Public Domain*	24,946	0,03%
Kein Open Access	1,347,691	1,7%
Unknown	55,048,253	69%

* Teilmenge von Open Access

Zusammenfassung

Rechtenormalisierung in BASE ermöglicht automatisiertes Erkennen von Nachnutzungsbedingungen auf Record-Ebene
Neue Suchoptionen in BASE bezüglich freier Lizenzen/Inhalte
Test und Überprüfung neuer Normalisierungsregeln in HarCon vor der Übernahme ins Live-System

Danke für Ihre Aufmerksamkeit!