next up previous contents
Next: Einlesen und Analyse Up: Scripte und Programme Previous: Scripte und Programme

Normierung und Dublettenkontrolle

mab2normierung
ist ein Testscript zur Normierung der Attribute Titel, Autor, Verlag, Verlagsort, Jahr und ISBN. Die Ausgabe ist eine Statistik der Normierungsfunktionen. Für jede Normierungsfunktion wird angegeben, ob sich die Anzahl der unterschiedlichen Schreibweisen reduziert hat. Es wurde für die Normierung in Kapitel 5 (Seite [*]) genutzt.

mab2match
sucht nach Dubletten und gibt die zueinander passenden Datensätze aus. Zuerst werden die Felder der Datensätze normiert. Anschließend wird mit einer gewissen Toleranz entschieden, ob zwei oder mehrere Datensätze gleich sind. Die Datensätze werden in einer Kurztrefferliste ausgegeben. Auf Wunsch kann man sich auch im Detail anzeigen lassen, warum zwei Datensätze als dublett erkannt worden sind. Optional können die Normierungsfunktionen, die Gewichtung und die Toleranz beim Vergleich (z.B. Seitenzahl +/- 5 Seiten) angegeben werden.

Es wird eingesetzt im zweiten System von ZACK (siehe Kapitel 4.5, Seite [*]). Die CGI-Scripte z1 und match benutzen mab2match zur Ermittlung der Dubletten.

mab2premerge
ist ein Testscript für das Perl-Module MAB2merge.pm. Es liest Dubletten ein, ermittelt den ``besten'' Datensatz und gibt ihn aus. Es wurde in Kapitel 7 Ausgabe von Dubletten, Seite [*], zum Testen der Algorithmen verwendet.

mab2splitnorm
liest MAB2-Datensätze im Diskettenformat ein, normiert die Felder Autor, Titel, Verlagsort, Verlag, Jahr, ISBN, Seitennummer und Auflage und gibt die normierten Werte aus. Die Ausgabe erfolgt für jedes Feld in eine separate Datei.

Der besseren Übersicht wegen und um Platz zu sparen, wird die Ausgabe sortiert und komprimiert. Für jeden Wert wird angegeben, wie oft er vorkommt. Zum Schluß werden die Werte nach der Häufigkeit ihres Auftretens sortiert, die am häufigsten auftretenden zuerst.

Es wurde für die Normierung in Kapitel 5 (Seite [*]) genutzt.


next up previous contents
Next: Einlesen und Analyse Up: Scripte und Programme Previous: Scripte und Programme

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/