In diesem Kapitel wird beschrieben, wie die Dublettenerkennung in ZACK durchgeführt wird. Es werden die verwendeten Algorithmen, der benötigte Rechenaufwand in ZACK und die Ergebnisse der Dublettenkontrolle erläutert.
Im ersten Abschnitt 6.1 wird erklärt, was
Dubletten sind und wie sie entstehen. In Abschnitt
6.2 wird eine manuelle Dublettenkontrolle
durchgeführt. Es wird untersucht, inwieweit man anhand der Datensätze
entscheiden kann, ob es sich um dieselben Werke handelt und welche
Probleme dabei auftauchen. In Abschnitt
6.3 wird beschrieben, wie die
Dublettenkontrolle in ZACK durchgeführt wird und
welche Algorithmen dabei Verwendung finden. In Abschnitt
6.4 wird ein Tool vorgestellt, mit
dessen Hilfe man eine interaktive Dublettenkontrolle durchführen kann.
Der Benutzer kann die Dublettenkontrolle in ZACK online testen,
optimieren und bewerten. In Abschnitt
6.5 wird untersucht, wie effizient die in ZACK
verwendeten Algorithmen bei der Dublettenkontrolle in der Praxis sind. Im
letzten Abschnitt 6.6 werden diejenigen Fälle
untersucht, bei denen die maschinelle Dublettenkontrolle falsche
Ergebnisse liefert.