Berechnung der Gesamtgewichtung

Next: Ähnliche Zahlen Up: Maschinelle Dublettenkontrolle in ZACK Previous: Legende Gewichtungen der Attribute

Berechnung der Gesamtgewichtung

Bei ZACK besteht die Gesamtbewertung aus zwei Werten: der positiven Gesamtbewertung (Argumente für eine Dublette) und der negativen Gesamtbewertung (Argumente, die gegen eine Dublette sprechen). Die positive Gesamtbewertung faßt alle positiven Gewichtungen zusammen und die negative Gesamtbewertung alle negativen Gewichtungen.

Für die Berechnung der Gesamtbewertung gibt es zwei Alternativen:

1.: Alle Bewertungen werden addiert.
2.: Alle Bewertungen werden zu einer Gesamtevidenz berechnet.

In ZACK wird die Gesamtevidenz verwendet. Die Gesamtevidenz ist immer ein Wert zwischen 0 und 1. Bei kleinen Evidenzen verhält sich die Gesamtevidenz wie die Addition, je größer die Gesamtevidenz wird, desto weniger erhöhen weitere Evidenzen ihren Wert (siehe auch [Pup88], Seite 52f).

Die positive bzw. negative Gesamtevidenz wird nach der Formel berechnet:

G₁ = E₁

G_n = G_n-1 + (1 - G_n-1) * E_n

Einzelevidenzen: E₁ bis E_n (mit 0 $\le$ E_i $\le$ 1)
Gesamtevidenz: G (mit $0 \le G \le 1$ )

Es gilt:

$\begin{displaymath} G = 1 - (1 - E_1) * (1 - E_2) * \dots (1 - E_{n-1}) * (1 - E_n)\end{displaymath}$

Beweis (vollständige Induktion):

n = 1 | ok
$n \Rightarrow n + 1$
1 - (1 - E₁) * ... * (1 - E_n+1)
= 1 - (1 - E₁) * ... * (1 - E_n) * (1 - E_{n + 1})
= 1 - (1 - E₁) * ... * (1 - E_n) + (1 - E₁) * ... * (1 - E_n) * E_n+1 | ausmultiplizieren
$= \underbrace{1 - (1 - E_1) * ... * (1 - E_n)}_{G_n} + [1 \underbrace{-1 + (1 - E_1) * ... * (1 - E_n)}_{-G_n}] * E_{n+1}$ | Null addieren

= G_n + [1 - G_n] * E_n+1
= G_{n + 1}

Beispiel für den Vergleich zweier Datensätze mit Gewichtung:

Beispiel 1 Beispiel 2

Titel ¬Die¬ Akazie ¬Die¬ Akazie

Autor Simon, Claude Simon, Claude

Jahr 1998 1993

Verlag Suhrkamp Suhrkamp

Verlagsort Frankfurt am Main Frankfurt am Main

Seitennummer 354 S. 354 S.

Auflage 1. Aufl. 1. Aufl.

ISBN ISBN 3-518-22302-X Pp. : DM 29.80 ISBN 3-518-38732-4

Tabelle: Beispiel Dublettenkontrolle in ZACK : Attribute vor Normierung

Attribut Beispiel 1 Beispiel 2 Pro1 Pro2 Con positive negative

Gesamt- Gesamt-

evidenz evidenz

Titel die akazie die akazie 70 - - 70

Autor simonc simonc 40 - - 82

Verlag suhrk suhrk 20 - - 85,6

Jahr 1998 1993 - - 20 85,6 20

Verlagsort frank frank 20 - - 88,48 20

ISBN 351822302X 3518387324 - 10 88,48 28

Seitennummer 354 354 30 - - 91,936 28

Auflage 1 1 10 - - 92,7424 28

Tabelle: Beispiel Dublettenkontrolle in ZACK : mit Normierung und Berechnung der positiven und negative Gesamtevidenzen

positive Gesamtevidenz:

G = 1 - (1 - 0,7) * (1 - 0.4) * (1 - 0,2) * (1 - 0,2) * (1 - 0.3) * (1 - 0,1)

G = 1 - 0,3 * 0,6 * 0,8 * 0,7 * 0,9 * 0,8 = 0,927474

negative Gesamtevidenz:

G = 1 - (1 - 0,2) * (1 - 0,1)

G = 1 - 0,8 * 0,9 = 0,28

Jede zusätzliche Evidenz füllt den restlichen Bereich zwischen der bisherigen Gesamtevidenz und dem maximalen Wert 1 anteilmäßig auf. Wenn die bisherige Gesamtevidenz beispielsweise bei 0,7 liegt, so füllt die hinzuzurechnende Evidenz 0,4 den zwischen 0,7 und 1,0 liegenden Bereich 0,3 zu 0,4 (40%) = 0,12 auf. Die neue Gesamtevidenz beträgt somit 0,7 + 0,12 = 0,82 .

Datensätze werden als Dubletten erkannt, wenn die positive Gesamtevidenz über dem positiven Schwellwert von 0,75 und gleichzeitig die negative Gesamtevidenz unter dem negativen Schwellwert von 0,4 liegt. Andere Fälle (positiver Schwellwert von 0,75 nicht erreicht oder negativer Schwellwert von 0,4 überschritten) gelten als nicht dublett. Die Schwellwerte für die positive und negative Gesamtevidenz werden empirisch bestimmt (siehe auch Abschnitt 6.4 Interaktive Dublettenkontrolle).

Die grundlegende Schwäche dieses Verfahrens liegt darin, daß die Evidenzen so behandelt werden, als ob sie statistisch voneinander unabhängig wären. In Wirklichkeit jedoch impliziert ein gleicher Titel mit hoher Wahrscheinlichkeit auch eine gleiche ISBN-Nummer.

Die Reihenfolge der verglichenen Attribute ändert nichts am Gesamtergebnis der Gesamtevidenz. Es ist also unerheblich, ob man in der Reihenfolge Titel, Autor und ISBN vergleicht oder in der umgekehrten Reihenfolge ISBN, Autor und Titel (siehe auch [RM94] und [Pup88]).

Next: Ähnliche Zahlen Up: Maschinelle Dublettenkontrolle in ZACK Previous: Legende Gewichtungen der Attribute

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/

	Beispiel 1	Beispiel 2
Titel	¬Die¬ Akazie	¬Die¬ Akazie
Autor	Simon, Claude	Simon, Claude
Jahr	1998	1993
Verlag	Suhrkamp	Suhrkamp
Verlagsort	Frankfurt am Main	Frankfurt am Main
Seitennummer	354 S.	354 S.
Auflage	1. Aufl.	1. Aufl.
ISBN	ISBN 3-518-22302-X Pp. : DM 29.80	ISBN 3-518-38732-4

Attribut	Beispiel 1	Beispiel 2	Pro1	Pro2	Con	positive	negative
						Gesamt-	Gesamt-
						evidenz	evidenz

Titel	die akazie	die akazie	70	-	-	70
Autor	simonc	simonc	40	-	-	82
Verlag	suhrk	suhrk	20	-	-	85,6
Jahr	1998	1993	-	-	20	85,6	20
Verlagsort	frank	frank	20	-	-	88,48	20
ISBN	351822302X	3518387324		-	10	88,48	28
Seitennummer	354	354	30	-	-	91,936	28
Auflage	1	1	10	-	-	92,7424	28