next up previous contents
Next: Effizienz der Dublettenkontrolle Up: Interaktive Dublettenkontrolle Previous: Interaktive Dublettenkontrolle

Legende CGI-Script match

Toleranz:
Gibt die Kriterien für den Vergleich der Attribute an.
exakt:
Die Attribute müssen genau übereinstimmen.
kleine Fehler:
Das Jahr darf um den Wert +/- 1 abweichen; die Seitennummer darf um dem Wert +/- 5 abweichen; Titel, Autor, Verlag, Verlagsort dürfen maximal 2 Tippfehler beinhalten.

einige Fehler:
Bei unterschiedlicher Länge von Titel, Autor, Verlag und Verlagsort wird nur bis zum Ende der kürzeren Zeichenfolge verglichen.

Beispiel:

a) ``Verteilung mathematischer Software mittels elektronischer Netze''
b) ``Verteilung mathematischer Software''

Es wird beim Vergleich von a) mit b) nur bis zum Wort Software verglichen.

Gewichtung:
Pro1 ist die positive Evidenz, die bei Gleichheit oder Ähnlichkeit eines Attributes vergeben wird. Pro2 ist eine zweite positive Evidenz, die vergeben wird, wenn das Attribut in einem Datensatz existiert und im anderen nicht. Con ist die negative Evidenz, die bei Ungleichheit der Attribute vergeben wird.

Für jedes Attribut gibt es einen Pro1, Pro2 und Con Wert im Wertebereich von 0 bis 100. Zur besseren Lesbarkeit werden die Gewichtungen hier in Prozent angegeben. Eine positive Gewichtung von 70 steht also für eine Wahrscheinlichkeit von 70% bzw. 0,7, daß die Datensätze dublett sind.

1. positive Gewichtung (Pro1): beide Attribute stimmen überein

2. positive Gewichtung (Pro2): das Attribut ist in einem Datensatz belegt, aber nicht im zweiten Datensatz.

3. negative Gewichtung (Con): beide stimmen nicht übereinstimmen.

Ein Wert von 0 führt zu keiner Änderung der Gesamtevidenz - das Attribut wird bei der Dublettenkontrolle ignoriert.

Ein Wert von 100 sorgt dafür, daß die Gesamtevidenz den Maximalwert 100 erreicht. D.h. bei Gleichheit eines einzelnen Attributes - z.B. die ISBN- Nummer - wird der maximale Wert erreicht. Zusätzliche weitere gleiche Attribute (Autor, Titel etc.) erhöhen dann die Gesamtevidenz nicht mehr.

Schwellwert für Gesamtevidenz:
Anhand dieser Schwellwerte wird entschieden, ob es sich um Dubletten handelt oder nicht.

Die Datensätze werden als Dubletten erkannt, wenn die positive Gesamtevidenz über dem Schwellwert von 75 und gleichzeitig die negative Gesamtevidenz unter dem Schwellwert von 40 liegt. Andere Fälle (positiver Schwellwert von 75 nicht erreicht oder negativer Schwellwert von 40 überschritten) gelten als nicht dublett.

Debug:


0 Nur die Kurztrefferliste wird ausgegeben.
1 Ausgabe der Gesamtevidenz Ergebnisse für jeden Vergleich (G-SORT)

2 Ausgabe der MAB2-Datensätze im Kategorienformat, gefolgt von einer Liste der Datensätze, die ein Attribut gemeinsam haben (Recordlist).


Beispiel:

### 00331nM2.01000024      h
001 0011134474
002a19970107
003 19970107
004 19990112184111.0
006n1
030 u|1dcr|z|||37
037ade
050 a|a
051 m||||||
070 00700037
070aBVB
077 $a37$c1
331 Kurze Belehrung über den Anbau des unächten Akazienbaums
335 für fränkische Forstbediente und Landwirthe
410 Nürnberg
412 Felßecker
425a1797
433 20 S.

TITLE -> kurze belehrung ueber den anbau des unaechten akazienbaums :$VAR1 = {
          6 => 1,
          7 => 1
        };

AUTHOR ->  :$VAR1 = {};

PUBLISHER -> felss :$VAR1 = {
          6 => 1
        };

YEAR -> 1797 :$VAR1 = {
          6 => 1,
          7 => 1
        };

PLACE -> nuern :$VAR1 = {
          6 => 1,
          7 => 1
        };

ISBN ->  :$VAR1 = {};

PAGENR -> 20 :$VAR1 = {
          6 => 1
        };

Recordlist: 6 7
G-SORT: 6 7 Pro1: 110, pro2: 5, con: 10, E-Pro: 0.818 E-Con: 0.100 matched

Die Datensätze 6 und 7 haben denselben (normierten) Titel `` kurze belehrung ueber den anbau des unaechten akazienbaums''; Jahr, Verlagsort sind ebenfalls gleich. Der Datensatz 6 hat kein Attribut Autor. Den (normierten) Verlag ``felss'' gibt es in nur diesem Datensatz. Die Datensätze 6 und 7 werden als minimal ähnlich erkannt. Die Gesamtgewichtung ergibt: positive Gewichtung (Pro1) in der Summe 110 (Titel + Jahr + Verlagsort), positive Gewichtung II (Pro2) in der Summe 5 (Seitennummer), negative Gewichtung in der Summe 10 (Verlag). Die positive Gesamtevidenz beträgt 0,818, die negative Gesamtevidenz 0,1. Die Datensätze werden als Dublette erkannt - die positive Gesamtevidenz liegt über dem Schwellwert 0,75 und die negative Gesamtevidenz unter dem Schwellwert 0,4.


next up previous contents
Next: Effizienz der Dublettenkontrolle Up: Interaktive Dublettenkontrolle Previous: Interaktive Dublettenkontrolle

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/