Hintergrund
- Berufsbegleitendes MALIS-Studium an der TH Köln seit SoSe 2021
- Verpflichtendes Praxisprojekt im 3. Semester
- "[...] sollte deutliche Bezüge zu den Studieninhalten sowie den Anwendungsbereichen und Tätigkeitsfeldern haben, für die der MALIS-Studiengang qualifiziert."
- Häufig in Kooperation mit der eigenen oder einer externen Einrichtung
- MALIS-Dozent:in oder externe qualifizierte Person als Betreuer:in
- Workload: 200h
- Kontakt zu Adrian Pohl vom hbz (MALIS-Dozent)
- Idee: Erstellung eines Systems zur automatischen Klassifikation in der NWBib
Die NWBib
- Seit 1983 betreibt das hbz die Nordrhein-Westfälische Bibliographie (NWBib)
- Landesbibliografie: Erfasst Publikationen mit regionalem Bezug zum Bundesland NRW
- Reines Nachweisinstrument (keine Volltexte)
- Viele unterschiedliche Publikationstypen, tendenziell viel graue Literatur (z.B. Ausstellungskataloge, Werkverzeichnisse oder Vereinshefte)
- Umfang zur Zeit der Projektbearbeitung: 456.927 Nachweise
Sacherschließung in der NWBib
- Großer Teil der NWBib ist vollständig intellektuell erschlossen
- Verschlagwortung mittels GND-Vokabular
- Räumliche Einordnung mittels NWBib-Raumsystematik
- Sachliche Klassifikation mittels NWBib-Sachsystematik
Projektidee: Automatische Indexierung (Klassifikation gemäß Sachsystematik) für den noch unerschlossenen Teil der NWBib!
Automatische Inhaltserschließung
- Bereits seit den 50er Jahren gibt es Versuche, die originär intellektuelle Aufgabe der Sacherschließung zu (teil-)automatisieren
- Disziplinen: Statistik, Computerlinguistik, Informatik (hier insbesondere: Maschinelles Lernen / KI)
- Grundidee: Eine Maschine "lernt" Zusammenhänge aus einem händisch indexierten Datensatz und ist anschließend in der Lage, unbekannte Dokumente selbst zu klassifizieren (Schlagwortvergabe/Systemstellen)
- "Wiederentdeckung" der KI und Fortschritte in diesem Gebiet in der letzten Dekade als neuer Impulsgeber (Deep Learning)
2 Ansätze:
- Halbautomatische Indexierung: Maschine schlägt mögliche Indexterme vor, ein Mensch kontrolliert diese vor der Übernahme (Recommender-System)
- Vollautomatische Indexierung: Maschine weist Indexterme ohne weitere menschliche Kontrolle selbstständig zu
Automatische Inhaltserschließung (2)
Derzeitiger Stand
- Viel Forschung, wenig Praxis
- Funktionierende Implementierungen sind selten, häufig Prototypen/Speziallösungen
- Kaum kommerzielle Anwendungen für Bibliotheken verfügbar
Beispiele:
- BASE: Automatische Zuweisung von DDC-Klassen
- ZBW: Projekt AutoSE
- DNB:
- Ausschließlich automatische Erschließung von Online-Publikationen ("Reihe O") seit 2010
- Seit 2017 Ausweitung auch auf Nicht-Verlagsbuchhandel-Titel ("Reihe B") und Hochschulschriften ("Reihe H")
...aber warum sollte uns das interessieren?
- Interessantes Projekt mit interessanten Ergebnissen
- Wichtig im Rahmen von BASE: DDC-Klassifikation technisch veraltet, Nachfolgesystem benötigt (Masterarbeit?)
- KI ist ein "Hot Topic", dass auch für Bibliotheken in Zukunft vermutlich relevanter werden wird...
- ...und bereits jetzt heftig umstritten ist.
Grundlagen
Das Projekt wurde mithilfe des Toolkits Annif realisiert
- Entwickelt an der finnischen Nationalbibliothek
- Bietet viele unterschiedliche Arten von Klassifikationsalgorithmen
- Integrierte linguistische Vorverarbeitung
- Trainierte Klassifikatoren ansprechbar über Web-Frontend oder API
- Eingesetzt u.a. vom ZBW und (seit 2022) auch von der DNB
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Ablauf
Evaluation
Wie wird die Leistungsfähigkeit eines Klassifikators evaluiert?
- Genau wie beim Information Retrieval (z.B. bei Suchmaschinen) über Precision und Recall
- Recall: Anzahl der korrekt identifizierten Systemstellen im Verhältnis zur Gesamtmenge der korrekten Systemstellen.
- Precision: Anzahl der korrekt identifizierten Systemstellen im Verhältnis zur Gesamtmenge der Vorschläge.
Reales Beispiel aus dem Testkorpus
Titel: "R(h)ein-über-Brücken - Instandhaltung der Rheinquerungen muss Priorität haben"
Diesem Titel wurden drei Systemstellen händisch zugewiesen:
- 553000 Straßenverkehr
- 555000 Eisenbahn
- 843010 Baukonstruktion. Bautechnik
Der Omikuji-Klassifikator schlägt für diesen Titel folgende Systemstellen vor:
- 553000 Straßenverkehr
- 574040 Straßenbau
- 554000 Öffentlicher Personennahverkehr
- 543020 Wirtschaftsförderung
- 444050 Kriminalität
- 584000 Naturschutz. Landschaftspflege
- 543010 Unternehmen
- 547600 Technik
- 543620 Unternehmer. Unternehmensführung
- 555000 Eisenbahn
- 2 der 3 korrekten Systemstellen sind im Vorschlag enthalten, daher ist der Recall 2/3 = 66,7%
- Der Vorschlag enthält zusätzlich allerdings auch noch 8 falsche Systemstellen. Die Precision beträgt daher lediglich 2/(2+8) = 20%
Ergebnisse der Evaluation
Precision/Recall für einzelne Klassifikatoren (Mittelwerte über den gesamten Testkorpus):
Klassifikator | Precision | Recall |
TF-IDF | 8% | 63% |
MLLM | 7% | 7% |
Omikuji | 10% | 78% |
FastText | 10% | 74% |
Precision/Recall für Ensembles ohne neuronales Netz:
Ensemble | Precision | Recall |
TF-IDF + Omikuji | 10% | 78% |
TF-IDF + Omikuji + FastText | 11% | 81% |
Precision/Recall für Ensembles mit neuronalem Netz:
Ensemble | Precision | Recall |
TF-IDF + Omikuji (nn) | 25% | 74% |
TF-IDF + Omikuji + FastText (nn) | 29% | 76% |
Live-Demo
Annif-Installation an der UB: http://annif-nwbib.ub.uni-bielefeld.de/
Interessante Beispiele aus dem unklassifizierten Bestand der NWBib:
- Hausbau im Mittelalter, 3: Sonderband für Josef Schepers - Josef Schepers zum 80. Geburtstag am 9.3.1988 gewidmet
- "Niu lustert mol teo" - "Vortell dat bleoß nich wuiter, süss kümps diu inne Zeitung!"
- Alkoholabhängigkeit und Wohnungslosigkeit
Letzte Folie...
Vielen Dank für ihre Aufmerksamkeit!