next up previous contents
Next: Vergleich von Attributen Up: Dublettenkontrolle Previous: Zusammenfassung

Maschinelle Dublettenkontrolle in ZACK

 

Um Dubletten für den Benutzer zusammenfassen [*] zu können, muß der Computer die Datensätze miteinander vergleichen und entscheiden, ob sie gleiche oder ähnliche Werke beschreiben.

Der Vergleich findet über ausgewählte Attribute (Autor, Titel etc.) statt. Diese werden zueinander ins Verhältnis gesetzt. Im einfachsten Fall sind alle Attribute gleich. Komplizierter wird es, wenn es ein Attribut in nur einem Datensatz gibt, oder wenn sich die Attribute nur minimal unterscheiden.

Bevor die Attribute eines Datensatzes verglichen werden, müssen sie normiert werden. In Kapitel 5 Normierung wird beschrieben, wie Zeichensatz, Fehleingaben (z.B. doppelte Leerzeichen) und unterschiedliche Erfassungspraktiken erkannt und bearbeitet werden.



 
Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/