next up previous contents
Next: Normierungsfunktionen Up: No Title Previous: Verteilte Suche nach Autor

Normierung

  Bei der Dublettenkontrolle werden Datensätze unterschiedlicher Herkunft miteinander verglichen. Bevor dies geschehen kann, müssen Zeichensatz, Fehleingaben (z.B. doppelte Leerzeichen), unterschiedliche Erfassungspraktiken erkannt und bearbeitet werden. In diesem Kapitel werden unterschiedliche Datensätze unter diesen Gesichtspunkten analysiert.


Ziel der Normierung ist es, die unterschiedlichen Schreibweisen eines Wortes oder einer Wortgruppe zu vereinheitlichen. Es werden Unterschiede in den Zeichenketten ausgeglichen, die keine oder nahezu keine inhaltliche Bedeutung haben ([RM94], [Rus99a], [LSW99], [DHHS91], [SH91]).

Sonderzeichen werden entfernt oder durch andere Zeichen ersetzt, Großbuchstaben in Kleinbuchstaben umgewandelt, überflüssige Leerzeichen gelöscht. Die Anzahl der verwendeten Zeichen wird von 256 Zeichen auf 26 Buchstaben und 10 Ziffern reduziert. Die Normierung ist um so effizienter, je weniger unterschiedliche Schreibweisen generiert werden.

Eine perfekte Normierung existiert jedoch nicht. Die Normierung kann unbeabsichtigt unterschiedliche Sachverhalte zusammenfassen. Beispielsweise kann ``Frankfurt am Main'' und ``Frankfurt an der Oder'' zu dem Wort ``frankfurt'' zusammengefaßt werden. Diese Fehler sind in der Anwendung vernachlässigbar, da zur Dublettenprüfung jeweils mehrere Attribute (Titel, Autor, Verlag, Jahr etc.) herangezogen werden. Eine zufällige Übereinstimmung eines Attributes [*] wird durch den Vergleich der anderen Attribute korrigiert.


Zuerst werden die wichtigsten Normierungsfunktionen in Abschnitt 5.1 aufgelistet und anhand von Beispielen kurz erläutert. In Abschnitt 5.2 wird erklärt, wie und in welcher Reihenfolge die Normierungsfunktionen im System ZACK auf die Attribute angewandt werden.

In Abschnitt 5.3 wird die Normierung des Attributes Autor mit Daten unterschiedlicher Herkunft getestet. Es wird manuell geprüft, ob die Normierung des Attributes Autor korrekte oder falsche Ergebnisse ergibt.

In Abschnitt 5.4 werden die unterschiedlichen Schreibweisen von Frankfurt am Main und Frankfurt an der Oder in der Deutschen Bibliothek untersucht.

In Abschnitt 5.5 wird die Normierung von ZACK auf 2,5 Millionen DNB-Datensätze der Deutschen Bibliothek angewendet und statistisch analysiert. In Abschnitt 5.6 wird die Normierung von ZACK auf Datensätze unterschiedlicher Herkunft (DDB, BVB, GBV) angewandt und statistisch analysiert.


Die Untersuchungen in diesem Kapitel beziehen sich nur auf das Format MAB2 und Datensätze von deutschen Bibliotheken. Andere Formate wie USMARC oder UNIMARC werden nicht betrachtet.



 
next up previous contents
Next: Normierungsfunktionen Up: No Title Previous: Verteilte Suche nach Autor

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/