next up previous contents
Next: Ähnliche Zahlen Up: Maschinelle Dublettenkontrolle in ZACK Previous: Legende Gewichtungen der Attribute

Berechnung der Gesamtgewichtung

Bei ZACK besteht die Gesamtbewertung aus zwei Werten: der positiven Gesamtbewertung (Argumente für eine Dublette) und der negativen Gesamtbewertung (Argumente, die gegen eine Dublette sprechen). Die positive Gesamtbewertung faßt alle positiven Gewichtungen zusammen und die negative Gesamtbewertung alle negativen Gewichtungen.


Für die Berechnung der Gesamtbewertung gibt es zwei Alternativen:

1.
Alle Bewertungen werden addiert.
2.
Alle Bewertungen werden zu einer Gesamtevidenz berechnet.

In ZACK wird die Gesamtevidenz verwendet. Die Gesamtevidenz ist immer ein Wert zwischen 0 und 1. Bei kleinen Evidenzen verhält sich die Gesamtevidenz wie die Addition, je größer die Gesamtevidenz wird, desto weniger erhöhen weitere Evidenzen ihren Wert (siehe auch [Pup88], Seite 52f).


Die positive bzw. negative Gesamtevidenz wird nach der Formel berechnet:


G1 = E1

Gn = Gn-1 + (1 - Gn-1) * En


Einzelevidenzen: E1 bis En (mit 0 $\le$ Ei $\le$ 1)
Gesamtevidenz: G (mit $0 \le G \le 1$)


Es gilt:

\begin{displaymath}
G = 1 - (1 - E_1) * (1 - E_2) * \dots (1 - E_{n-1}) * (1 - E_n)\end{displaymath}

Beweis (vollständige Induktion):

n = 1 | ok
$n \Rightarrow n + 1$
1 - (1 - E1) * ... * (1 - En+1)
= 1 - (1 - E1) * ... * (1 - En) * (1 - En + 1)
= 1 - (1 - E1) * ... * (1 - En) + (1 - E1) * ... * (1 - En) * En+1 | ausmultiplizieren
$ = \underbrace{1 - (1 - E_1) * ... * (1 - E_n)}_{G_n} + [1 \underbrace{-1 + (1 - E_1) * ... * (1 - E_n)}_{-G_n}] * E_{n+1}$ | Null addieren


= Gn + [1 - Gn] * En+1
= Gn + 1


Beispiel für den Vergleich zweier Datensätze mit Gewichtung:


  Beispiel 1 Beispiel 2
Titel ¬Die¬ Akazie ¬Die¬ Akazie
Autor Simon, Claude Simon, Claude
Jahr 1998 1993
Verlag Suhrkamp Suhrkamp
Verlagsort Frankfurt am Main Frankfurt am Main
Seitennummer 354 S. 354 S.
Auflage 1. Aufl. 1. Aufl.
ISBN ISBN 3-518-22302-X Pp. : DM 29.80 ISBN 3-518-38732-4


Tabelle: Beispiel Dublettenkontrolle in ZACK : Attribute vor Normierung


Attribut Beispiel 1 Beispiel 2 Pro1 Pro2 Con positive negative
            Gesamt- Gesamt-
            evidenz evidenz
               
Titel die akazie die akazie 70 - - 70  
Autor simonc simonc 40 - - 82  
Verlag suhrk suhrk 20 - - 85,6  
Jahr 1998 1993 - - 20 85,6 20
Verlagsort frank frank 20 - - 88,48 20
ISBN 351822302X 3518387324   - 10 88,48 28
Seitennummer 354 354 30 - - 91,936 28
Auflage 1 1 10 - - 92,7424 28


Tabelle: Beispiel Dublettenkontrolle in ZACK : mit Normierung und Berechnung der positiven und negative Gesamtevidenzen



positive Gesamtevidenz:

G = 1 - (1 - 0,7) * (1 - 0.4) * (1 - 0,2) * (1 - 0,2) * (1 - 0.3) * (1 - 0,1)

G = 1 - 0,3 * 0,6 * 0,8 * 0,7 * 0,9 * 0,8 = 0,927474


negative Gesamtevidenz:

G = 1 - (1 - 0,2) * (1 - 0,1)

G = 1 - 0,8 * 0,9 = 0,28


Jede zusätzliche Evidenz füllt den restlichen Bereich zwischen der bisherigen Gesamtevidenz und dem maximalen Wert 1 anteilmäßig auf. Wenn die bisherige Gesamtevidenz beispielsweise bei 0,7 liegt, so füllt die hinzuzurechnende Evidenz 0,4 den zwischen 0,7 und 1,0 liegenden Bereich 0,3 zu 0,4 (40%) = 0,12 auf. Die neue Gesamtevidenz beträgt somit 0,7 + 0,12 = 0,82 .

Datensätze werden als Dubletten erkannt, wenn die positive Gesamtevidenz über dem positiven Schwellwert von 0,75 und gleichzeitig die negative Gesamtevidenz unter dem negativen Schwellwert von 0,4 liegt. Andere Fälle (positiver Schwellwert von 0,75 nicht erreicht oder negativer Schwellwert von 0,4 überschritten) gelten als nicht dublett. Die Schwellwerte für die positive und negative Gesamtevidenz werden empirisch bestimmt (siehe auch Abschnitt 6.4 Interaktive Dublettenkontrolle).

Die grundlegende Schwäche dieses Verfahrens liegt darin, daß die Evidenzen so behandelt werden, als ob sie statistisch voneinander unabhängig wären. In Wirklichkeit jedoch impliziert ein gleicher Titel mit hoher Wahrscheinlichkeit auch eine gleiche ISBN-Nummer.

Die Reihenfolge der verglichenen Attribute ändert nichts am Gesamtergebnis der Gesamtevidenz. Es ist also unerheblich, ob man in der Reihenfolge Titel, Autor und ISBN vergleicht oder in der umgekehrten Reihenfolge ISBN, Autor und Titel (siehe auch [RM94] und [Pup88]).


next up previous contents
Next: Ähnliche Zahlen Up: Maschinelle Dublettenkontrolle in ZACK Previous: Legende Gewichtungen der Attribute

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/