next up previous contents
Next: Legende Gewichtungen der Attribute Up: Maschinelle Dublettenkontrolle in ZACK Previous: Maschinelle Dublettenkontrolle in ZACK

Vergleich von Attributen

Beim Vergleich eines Attributes zweier Datensätze gibt es vier Fälle:

1.
Das Attribut X existiert in beiden Datensätzen.
2.
Das Attribut X existiert im ersten Datensatz, aber nicht im zweiten.
3.
Das Attribut X existiert nicht im ersten Datensatz, aber im zweiten.
4.
Das Attribut X existiert in keinem der beiden Datensätze

Für die Dublettenkontrolle ist vor allem der erste Fall das Attribut existiert in beiden Datensätzen interessant. Die Fälle 2 und 3 - das Attribut existiert in nur einem der beiden Datensätze sind von geringer Bedeutung (siehe Positive Gewichtung II, Tabelle 6.1, Seite [*]). Der letzte Fall ist für die Dublettenkontrolle uninteressant - was nicht vorhanden ist, kann auch nicht verglichen werden.


ZACK arbeitet mit Gleichheit und Ähnlichkeit. Gleichheit und Ähnlichkeit sind in ZACK wie folgt definiert:

Gleichheit:
Beide Attribute sind gleich.
Ähnlichkeit:
Kleinere Unterschiede zwischen den Attributen werden nicht beachtet. Dazu gehören bei Zahlen kleine Abweichungen nach oben oder unten (+5 Seiten, -5 Seiten). Bei Zeichenfolgen werden ein oder zwei Tippfehler ignoriert (siehe 6.3.4 Trigramme).

In ZACK wird die Gleichheit zweier Datensätze nach den Regeln eines Expertensystems festgestellt. Es werden mehrere Attribute auf Gleichheit bzw. Ähnlichkeit überprüft und eine entsprechende Gewichtung vergeben. Alle Gewichtungen der einzelnen Regeln werden am Schluß zu einer Gesamtbewertung verrechnet. Anhand der Gesamtbewertung wird entschieden, ob es sich um eine Dublette handelt (nach [RM94], siehe auch [Pup88] und [BFM96]).

Bei den Gewichtungen handelt es sich um ``Symptom-Diagnose-Wahrscheinlichkeiten''. Diese geben an, wie wahrscheinlich bei einem bestimmten Symptom (z.B. Attribut ISBN gleich) die Diagnose ``die Sätze sind dublett'' sind. Bei den Wahrscheinlichkeiten handelt es sich um empirische Wahrscheinlichkeiten, die von Experten geschätzt werden. Es sind keine statistischen Wahrscheinlichkeiten.


Attribut positive positive negative
  Gewichtung Gewichtung II Gewichtung
Titel 70   30
Autor 40 10 30
Jahr 20   20
Verlag 20 5 10
Verlagsort 20 5 10
Seitennummer 30 5 20
Auflage 10 5 5
ISBN 80   10


Tabelle: Dublettenkontrolle in ZACK : Gewichtungen der Attribute beim Vergleich  




 
next up previous contents
Next: Legende Gewichtungen der Attribute Up: Maschinelle Dublettenkontrolle in ZACK Previous: Maschinelle Dublettenkontrolle in ZACK

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/