next up previous contents
Next: Berechnung der Gesamtgewichtung Up: Vergleich von Attributen Previous: Vergleich von Attributen

Legende Gewichtungen der Attribute

Positive Gewichtung (Pro1):
Wird vergeben, wenn die Attribute in beiden Datensätzen übereinstimmen.
Positive Gewichtung II (Pro2):
Wird vergeben, wenn das betreffende Attribut in einem Datensatz existiert und im anderen Datensatz nicht. Alternativ könnte man diese Gewichtung vergeben, wenn zwei Attribute ähnlich, aber nicht gleich sind.
Negative Gewichtung (Con):
Wird vergeben, wenn die Attribute nicht gleich oder ähnlich sind.

Zur besseren Lesbarkeit werden die Gewichtungen hier in Prozent angegeben. Eine positive Gewichtung von 70 steht also für eine Wahrscheinlichkeit von 70% bzw. 0,7, daß die Datensätze dublett sind.

Ziel in ZACK ist die Erkennung von gleichen Werken, nicht nur gleichen Ausgaben. Deshalb werden die negative Gewichtungen generell niedriger geschätzt als positive Gewichtungen.

Das Werk wird vor allem durch den Autor und den Titel bestimmt. Deshalb wird eine hohe positive und negative Gewichtung für Autor und Titel vergeben. Die ISBN-Nummer erhielt ebenfalls eine hohe positive Gewichtung. Wenn zwei Bücher dieselbe ISBN-Nummer haben, dann handelt es sich mit sehr hoher Wahrscheinlichkeit um das gleiche Werk. Verlag, Verlagsort, Auflage und ISBN-Nummer bezeichnen die physikalische Ausgabe. Ein Buch kann in verschiedenen Verlagen erscheinen, z.B als Hardcover und als Paperback. Die negativen Gewichtungen für Verlag, Verlagsort und ISBN-Nummer werden deshalb niedrig geschätzt, um trotzdem inhaltlich gleiche Publikationen als solche zu erkennen.


next up previous contents
Next: Berechnung der Gesamtgewichtung Up: Vergleich von Attributen Previous: Vergleich von Attributen

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/