Vergleich von Attributen

Next: Legende Gewichtungen der Attribute Up: Maschinelle Dublettenkontrolle in ZACK Previous: Maschinelle Dublettenkontrolle in ZACK

Vergleich von Attributen

Beim Vergleich eines Attributes zweier Datensätze gibt es vier Fälle:

1.: Das Attribut X existiert in beiden Datensätzen.
2.: Das Attribut X existiert im ersten Datensatz, aber nicht im zweiten.
3.: Das Attribut X existiert nicht im ersten Datensatz, aber im zweiten.
4.: Das Attribut X existiert in keinem der beiden Datensätze

Für die Dublettenkontrolle ist vor allem der erste Fall das Attribut existiert in beiden Datensätzen interessant. Die Fälle 2 und 3 - das Attribut existiert in nur einem der beiden Datensätze sind von geringer Bedeutung (siehe Positive Gewichtung II, Tabelle 6.1, Seite ). Der letzte Fall ist für die Dublettenkontrolle uninteressant - was nicht vorhanden ist, kann auch nicht verglichen werden.

ZACK arbeitet mit Gleichheit und Ähnlichkeit. Gleichheit und Ähnlichkeit sind in ZACK wie folgt definiert:

Gleichheit:: Beide Attribute sind gleich.
Ähnlichkeit:: Kleinere Unterschiede zwischen den Attributen werden nicht beachtet. Dazu gehören bei Zahlen kleine Abweichungen nach oben oder unten (+5 Seiten, -5 Seiten). Bei Zeichenfolgen werden ein oder zwei Tippfehler ignoriert (siehe 6.3.4 Trigramme).

In ZACK wird die Gleichheit zweier Datensätze nach den Regeln eines Expertensystems festgestellt. Es werden mehrere Attribute auf Gleichheit bzw. Ähnlichkeit überprüft und eine entsprechende Gewichtung vergeben. Alle Gewichtungen der einzelnen Regeln werden am Schluß zu einer Gesamtbewertung verrechnet. Anhand der Gesamtbewertung wird entschieden, ob es sich um eine Dublette handelt (nach [RM94], siehe auch [Pup88] und [BFM96]).

Bei den Gewichtungen handelt es sich um ``Symptom-Diagnose-Wahrscheinlichkeiten''. Diese geben an, wie wahrscheinlich bei einem bestimmten Symptom (z.B. Attribut ISBN gleich) die Diagnose ``die Sätze sind dublett'' sind. Bei den Wahrscheinlichkeiten handelt es sich um empirische Wahrscheinlichkeiten, die von Experten geschätzt werden. Es sind keine statistischen Wahrscheinlichkeiten.

Attribut positive positive negative

Gewichtung Gewichtung II Gewichtung

Titel 70 30

Autor 40 10 30

Jahr 20 20

Verlag 20 5 10

Verlagsort 20 5 10

Seitennummer 30 5 20

Auflage 10 5 5

ISBN 80 10

Tabelle: Dublettenkontrolle in ZACK : Gewichtungen der Attribute beim Vergleich

Legende Gewichtungen der Attribute

Next: Legende Gewichtungen der Attribute Up: Maschinelle Dublettenkontrolle in ZACK Previous: Maschinelle Dublettenkontrolle in ZACK

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/

Attribut	positive	positive	negative
	Gewichtung	Gewichtung II	Gewichtung
Titel	70		30
Autor	40	10	30
Jahr	20		20
Verlag	20	5	10
Verlagsort	20	5	10
Seitennummer	30	5	20
Auflage	10	5	5
ISBN	80		10