Beim Vergleich eines Attributes zweier Datensätze gibt es vier Fälle:
Für die Dublettenkontrolle ist vor allem der erste Fall das Attribut existiert in beiden Datensätzen interessant. Die Fälle 2 und 3 - das Attribut existiert in nur einem der beiden Datensätze sind von geringer Bedeutung (siehe Positive Gewichtung II, Tabelle 6.1, Seite ). Der letzte Fall ist für die Dublettenkontrolle uninteressant - was nicht vorhanden ist, kann auch nicht verglichen werden.
ZACK arbeitet mit Gleichheit und Ähnlichkeit.
Gleichheit und Ähnlichkeit sind in ZACK wie folgt definiert:
In ZACK wird die Gleichheit zweier Datensätze nach den Regeln eines Expertensystems festgestellt. Es werden mehrere Attribute auf Gleichheit bzw. Ähnlichkeit überprüft und eine entsprechende Gewichtung vergeben. Alle Gewichtungen der einzelnen Regeln werden am Schluß zu einer Gesamtbewertung verrechnet. Anhand der Gesamtbewertung wird entschieden, ob es sich um eine Dublette handelt (nach [RM94], siehe auch [Pup88] und [BFM96]).
Bei den Gewichtungen handelt es sich um ``Symptom-Diagnose-Wahrscheinlichkeiten''. Diese geben an, wie wahrscheinlich bei einem bestimmten Symptom (z.B. Attribut ISBN gleich) die Diagnose ``die Sätze sind dublett'' sind. Bei den Wahrscheinlichkeiten handelt es sich um empirische Wahrscheinlichkeiten, die von Experten geschätzt werden. Es sind keine statistischen Wahrscheinlichkeiten.
Attribut | positive | positive | negative |
Gewichtung | Gewichtung II | Gewichtung | |
Titel | 70 | 30 | |
Autor | 40 | 10 | 30 |
Jahr | 20 | 20 | |
Verlag | 20 | 5 | 10 |
Verlagsort | 20 | 5 | 10 |
Seitennummer | 30 | 5 | 20 |
Auflage | 10 | 5 | 5 |
ISBN | 80 | 10 |
Tabelle: Dublettenkontrolle in ZACK : Gewichtungen der Attribute
beim Vergleich