Implementierung einer automatischen DDC-Klassifikation für die Suchmaschine BASE auf Basis von Annif
DOI:
https://doi.org/10.11576/kwi-1152Abstract
Dieser Vortrag präsentiert die Ergebnisse einer Masterarbeit, die im Rahmen des Studiengangs MALIS an der TH Köln verfasst wurde.
In der Suchmaschine BASE werden bereits seit Jahren Dokumente maschinell nach der Dewey Decimal Classification (DDC) erschlossen, es besteht jedoch der Wunsch, das mittlerweile veraltete System zur automatischen Klassifikation zu ersetzen. Zu diesem Zweck war es erforderlich, Daten aus BASE zu gewinnen, die als Trainingsmenge eines maschinellen Lernverfahrens dienen können. Es wird gezeigt, wie mithilfe einer explorativen Analyse aus einem Korpus von über 220 Mio. Dokumenten geeignete Daten extrahiert, kuratiert und zu sprachspezifischen Lernkorpora umgearbeitet wurden. Auf dieser Grundlage wurden mithilfe des Toolkits Annif eine Reihe von Klassifikatoren erstellt, deren Leistungsfähigkeit anschließend evaluiert und ein geeigneter Kandidat ausgewählt. Ein Vergleich zeigt, dass das in dieser Ausarbeitung erstellte System dem zur Zeit im Einsatz befindlichen BASE-Klassifikator weit überlegen ist.
Downloads
Veröffentlicht
Ausgabe
Rubrik
Lizenz
Dieses Werk steht unter der Lizenz Creative Commons Namensnennung 4.0 International.
Alle Artikel in dieser Kollektion sind unter der Lizenz CC-BY-4.0 veröffentlicht