Beispiel:
a) | ``Verteilung mathematischer Software mittels elektronischer Netze'' |
---|---|
b) | ``Verteilung mathematischer Software'' |
Es wird beim Vergleich von a) mit b) nur bis zum Wort Software verglichen.
Für jedes Attribut gibt es einen Pro1, Pro2 und Con Wert im Wertebereich von 0 bis 100. Zur besseren Lesbarkeit werden die Gewichtungen hier in Prozent angegeben. Eine positive Gewichtung von 70 steht also für eine Wahrscheinlichkeit von 70% bzw. 0,7, daß die Datensätze dublett sind.
1. positive Gewichtung (Pro1): beide Attribute stimmen überein
2. positive Gewichtung (Pro2): das Attribut ist in einem Datensatz belegt, aber nicht im zweiten Datensatz.
3. negative Gewichtung (Con): beide stimmen nicht übereinstimmen.
Ein Wert von 0 führt zu keiner Änderung der Gesamtevidenz - das Attribut wird bei der Dublettenkontrolle ignoriert.
Ein Wert von 100 sorgt dafür, daß die Gesamtevidenz den Maximalwert 100 erreicht. D.h. bei Gleichheit eines einzelnen Attributes - z.B. die ISBN- Nummer - wird der maximale Wert erreicht. Zusätzliche weitere gleiche Attribute (Autor, Titel etc.) erhöhen dann die Gesamtevidenz nicht mehr.
Die Datensätze werden als Dubletten erkannt, wenn die positive Gesamtevidenz über dem Schwellwert von 75 und gleichzeitig die negative Gesamtevidenz unter dem Schwellwert von 40 liegt. Andere Fälle (positiver Schwellwert von 75 nicht erreicht oder negativer Schwellwert von 40 überschritten) gelten als nicht dublett.
Beispiel:
### 00331nM2.01000024 h
001 0011134474
002a19970107
003 19970107
004 19990112184111.0
006n1
030 u|1dcr|z|||37
037ade
050 a|a
051 m||||||
070 00700037
070aBVB
077 $a37$c1
331 Kurze Belehrung über den Anbau des unächten Akazienbaums
335 für fränkische Forstbediente und Landwirthe
410 Nürnberg
412 Felßecker
425a1797
433 20 S.
TITLE -> kurze belehrung ueber den anbau des unaechten akazienbaums :$VAR1 = {
6 => 1,
7 => 1
};
AUTHOR -> :$VAR1 = {};
PUBLISHER -> felss :$VAR1 = {
6 => 1
};
YEAR -> 1797 :$VAR1 = {
6 => 1,
7 => 1
};
PLACE -> nuern :$VAR1 = {
6 => 1,
7 => 1
};
ISBN -> :$VAR1 = {};
PAGENR -> 20 :$VAR1 = {
6 => 1
};
Recordlist: 6 7
G-SORT: 6 7 Pro1: 110, pro2: 5, con: 10, E-Pro: 0.818 E-Con: 0.100 matched
Die Datensätze 6 und 7 haben denselben (normierten) Titel `` kurze belehrung ueber den anbau des unaechten akazienbaums''; Jahr, Verlagsort sind ebenfalls gleich. Der Datensatz 6 hat kein Attribut Autor. Den (normierten) Verlag ``felss'' gibt es in nur diesem Datensatz. Die Datensätze 6 und 7 werden als minimal ähnlich erkannt. Die Gesamtgewichtung ergibt: positive Gewichtung (Pro1) in der Summe 110 (Titel + Jahr + Verlagsort), positive Gewichtung II (Pro2) in der Summe 5 (Seitennummer), negative Gewichtung in der Summe 10 (Verlag). Die positive Gesamtevidenz beträgt 0,818, die negative Gesamtevidenz 0,1. Die Datensätze werden als Dublette erkannt - die positive Gesamtevidenz liegt über dem Schwellwert 0,75 und die negative Gesamtevidenz unter dem Schwellwert 0,4.