Bei ZACK besteht die Gesamtbewertung aus zwei Werten: der positiven Gesamtbewertung (Argumente für eine Dublette) und der negativen Gesamtbewertung (Argumente, die gegen eine Dublette sprechen). Die positive Gesamtbewertung faßt alle positiven Gewichtungen zusammen und die negative Gesamtbewertung alle negativen Gewichtungen.
Für die Berechnung der Gesamtbewertung gibt es
zwei Alternativen:
In ZACK wird die Gesamtevidenz verwendet. Die Gesamtevidenz ist immer ein Wert zwischen 0 und 1. Bei kleinen Evidenzen verhält sich die Gesamtevidenz wie die Addition, je größer die Gesamtevidenz wird, desto weniger erhöhen weitere Evidenzen ihren Wert (siehe auch [Pup88], Seite 52f).
Die positive bzw. negative Gesamtevidenz wird nach der Formel berechnet:
G1 = E1
Gn = Gn-1 + (1 - Gn-1) * En
Einzelevidenzen: E1 bis En (mit 0 Ei 1)
Gesamtevidenz: G (mit )
Es gilt:
Beweis (vollständige Induktion):
n = 1 | ok
1 - (1 - E1) * ... * (1 - En+1)
= 1 - (1 - E1) * ... * (1 - En) * (1 - En + 1)
= 1 - (1 - E1) * ... * (1 - En) + (1 - E1) * ... * (1 - En) * En+1 | ausmultiplizieren
| Null addieren
= Gn + [1 - Gn] * En+1
= Gn + 1
Beispiel für den Vergleich zweier Datensätze mit Gewichtung:
Beispiel 1 | Beispiel 2 | |
Titel | ¬Die¬ Akazie | ¬Die¬ Akazie |
Autor | Simon, Claude | Simon, Claude |
Jahr | 1998 | 1993 |
Verlag | Suhrkamp | Suhrkamp |
Verlagsort | Frankfurt am Main | Frankfurt am Main |
Seitennummer | 354 S. | 354 S. |
Auflage | 1. Aufl. | 1. Aufl. |
ISBN | ISBN 3-518-22302-X Pp. : DM 29.80 | ISBN 3-518-38732-4 |
Tabelle: Beispiel Dublettenkontrolle in ZACK : Attribute vor Normierung
Attribut | Beispiel 1 | Beispiel 2 | Pro1 | Pro2 | Con | positive | negative |
Gesamt- | Gesamt- | ||||||
evidenz | evidenz | ||||||
Titel | die akazie | die akazie | 70 | - | - | 70 | |
Autor | simonc | simonc | 40 | - | - | 82 | |
Verlag | suhrk | suhrk | 20 | - | - | 85,6 | |
Jahr | 1998 | 1993 | - | - | 20 | 85,6 | 20 |
Verlagsort | frank | frank | 20 | - | - | 88,48 | 20 |
ISBN | 351822302X | 3518387324 | - | 10 | 88,48 | 28 | |
Seitennummer | 354 | 354 | 30 | - | - | 91,936 | 28 |
Auflage | 1 | 1 | 10 | - | - | 92,7424 | 28 |
Tabelle: Beispiel Dublettenkontrolle in ZACK : mit Normierung und Berechnung der positiven und negative Gesamtevidenzen
positive Gesamtevidenz:
G = 1 - (1 - 0,7) * (1 - 0.4) * (1 - 0,2) * (1 - 0,2) * (1 - 0.3) * (1 - 0,1)
G = 1 - 0,3 * 0,6 * 0,8 * 0,7 * 0,9 * 0,8 = 0,927474
negative Gesamtevidenz:
G = 1 - (1 - 0,2) * (1 - 0,1)
G = 1 - 0,8 * 0,9 = 0,28
Jede zusätzliche Evidenz füllt den restlichen Bereich
zwischen der bisherigen Gesamtevidenz und dem maximalen Wert
1 anteilmäßig auf. Wenn die bisherige Gesamtevidenz
beispielsweise bei 0,7 liegt, so füllt die hinzuzurechnende
Evidenz 0,4 den zwischen 0,7 und 1,0 liegenden Bereich 0,3
zu 0,4 (40%) = 0,12 auf. Die neue
Gesamtevidenz beträgt somit 0,7 + 0,12 = 0,82 .
Datensätze werden als Dubletten erkannt, wenn die positive Gesamtevidenz über dem positiven Schwellwert von 0,75 und gleichzeitig die negative Gesamtevidenz unter dem negativen Schwellwert von 0,4 liegt. Andere Fälle (positiver Schwellwert von 0,75 nicht erreicht oder negativer Schwellwert von 0,4 überschritten) gelten als nicht dublett. Die Schwellwerte für die positive und negative Gesamtevidenz werden empirisch bestimmt (siehe auch Abschnitt 6.4 Interaktive Dublettenkontrolle).
Die grundlegende Schwäche dieses Verfahrens liegt darin, daß die Evidenzen so behandelt werden, als ob sie statistisch voneinander unabhängig wären. In Wirklichkeit jedoch impliziert ein gleicher Titel mit hoher Wahrscheinlichkeit auch eine gleiche ISBN-Nummer.
Die Reihenfolge der verglichenen Attribute ändert nichts am Gesamtergebnis der Gesamtevidenz. Es ist also unerheblich, ob man in der Reihenfolge Titel, Autor und ISBN vergleicht oder in der umgekehrten Reihenfolge ISBN, Autor und Titel (siehe auch [RM94] und [Pup88]).