next up previous contents
Next: Ausgabe von Dubletten Up: Dublettenkontrolle Previous: Legende Aufwand und Rechenzeit

Probleme in der Praxis

  Die Dublettenkontrolle liefert in seltenen Fällen falsche Ergebnisse. Es werden Datensätze als dublett erkannt, die nicht das gleiche Werk bezeichnen.

Beispiel: Ein Autor veröffentlicht innerhalb eines Jahres mehrere Publikationen in demselben Verlag. Die Titel sind verschieden, aber Autor, Verlag, Verlagsort und Jahr sind gleich.

Zur besseren Übersicht werden die Datensätze von der DDB hier leicht gekürzt im MAB2-Kategorienformat ausgegeben. Nicht dargestellt werden interne oder automatisch erzeugte Felder (z.B. Feldnummern 002-099) sowie Schlagwörter.

### 00700nM2.01200024      h
001 952637898
100 Alevras, Dimitris
104aGrötschel, Martin
108aWessäly, Roland
331 Cost efficient network synthesis from leased lines
359 Dimitris Alevras ; Martin Grötschel ; Roland Wessäly. \
      Konrad-Zuse-Zentrum für Informationstechnik Berlin, ZIB
410 Berlin
412 ZIB
425a1997
433 19 S.
435 30 cm
451 Preprint / Konrad-Zuse-Zentrum für Informationstechnik Berlin ; SC 97,22
454bKonrad-Zuse-Zentrum für Informationstechnik <Berlin>: Preprint
455 SC 97,22

### 00706nM2.01200024      h
001 951590138
100 Alevras, Dimitris
104aGrötschel, Martin
108aWessäly, Roland
331 Capacity and survivability models for telecommunication networks
359 Dimitris Alevras ; Martin Grötschel ; Roland Wessäly. \
      Konrad-Zuse-Zentrum für Informationstechnik Berlin, ZIB
410 Berlin
412 ZIB
425a1997
433 14 S.
435 30 cm
451 Preprint / Konrad-Zuse-Zentrum für Informationstechnik Berlin ; SC 97,24
454bKonrad-Zuse-Zentrum für Informationstechnik <Berlin>: Preprint
455 SC 97,24

In diesem Beispiel ist der Titel verschieden, aber die Autoren (Dimitris Alevras, Roland Wessäly und Martin Grötschel), Verlagsort (Berlin), Verlag (ZIB), Jahr (1997) und die Seitenzahl (19 bzw. 14 Seiten, Toleranz +/- 5 Seiten) sind gleich.

Bei Neuauflagen von Klassikern (z.B. Goethe, Faust) tritt ein weiteres Problem auf. Titel und Autor sind identisch, nur die Herausgeber, Verlag, Jahr, Seitenzahl und ISBN sind verschieden. Titel und Autor haben in ZACK eine hohe Gewichtung, da sie die wichtigsten Attribute zur Bestimmung eines Werkes sind. Soll man diese Neuauflagen jetzt als Dublette zusammenfassen? Falls nicht, muß man gegebenenfalls anhand des Attributes Herausgeber und ISBN-Nummer entscheiden, ob die Auflagen verschieden sind.


Die ISBN-Nummer sollte bei jeder Ausgabe vom Verlag neu vergeben ([Ott94]) werden. Bücher mit ungleichen ISBN-Nummern können deshalb durchaus das gleiche Werk beschreiben. Deshalb wurde in ZACK eine geringe negative Gewichtung vergeben, falls die ISBN-Nummern nicht übereinstimmen.

Die Dublettenkontrolle in ZACK verwendet z.Z. nicht die zweite Person (Feld 104) und auch nicht die Zusätze zum Hauptsachtitel (Feld 335).


Es hat sich als Fehler herausgestellt, daß ZACK die Zusätze zum Hauptsachtitel ignoriert. Dieses Feld ist für die Dublettenkontrolle wichtig. Die zweite Person sollte ebenfalls in die Dublettenerkennung einbezogen werden, um Neuauflagen von Klassikern besser zu erkennen.


next up previous contents
Next: Ausgabe von Dubletten Up: Dublettenkontrolle Previous: Legende Aufwand und Rechenzeit

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/