next up previous contents
Next: Was ist eine Dublette? Up: No Title Previous: Analyse und Ergebnisse

Dublettenkontrolle

 

In diesem Kapitel wird beschrieben, wie die Dublettenerkennung in ZACK durchgeführt wird. Es werden die verwendeten Algorithmen, der benötigte Rechenaufwand in ZACK und die Ergebnisse der Dublettenkontrolle erläutert.


Im ersten Abschnitt 6.1 wird erklärt, was Dubletten sind und wie sie entstehen. In Abschnitt 6.2 wird eine manuelle Dublettenkontrolle durchgeführt. Es wird untersucht, inwieweit man anhand der Datensätze entscheiden kann, ob es sich um dieselben Werke handelt und welche Probleme dabei auftauchen. In Abschnitt 6.3 wird beschrieben, wie die Dublettenkontrolle in ZACK durchgeführt wird und welche Algorithmen dabei Verwendung finden. In Abschnitt 6.4 wird ein Tool vorgestellt, mit dessen Hilfe man eine interaktive Dublettenkontrolle durchführen kann. Der Benutzer kann die Dublettenkontrolle in ZACK online testen, optimieren und bewerten. In Abschnitt 6.5 wird untersucht, wie effizient die in ZACK verwendeten Algorithmen bei der Dublettenkontrolle in der Praxis sind. Im letzten Abschnitt 6.6 werden diejenigen Fälle untersucht, bei denen die maschinelle Dublettenkontrolle falsche Ergebnisse liefert.



 
Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: http://wolfram.schneider.org/lv/diplom/