Es hat sich gezeigt, daß man mit einem Index die Anzahl der notwendigen Vergleiche deutlich reduzieren kann. Bei der Suche im Attribut Titel reduziert sich der Aufwand für die Vergleiche um rund 90%, bei der Suche mit dem Attribut Autor immerhin noch um 1/3.
Bei der Autorensuche haben die Treffer fast alle denselben Autor. Deshalb wird die Vorauswahl von ähnlichen Datensätzen schwieriger und komplexer. Im ungünstigsten Fall sind die Cluster so groß wie die Anzahl der Datensätze, und der Aufwand mit einem Index ist genauso groß wie bei einem Vergleich ``jeder Datensatz mit jedem'' (O2). Bei großen Datenmengen (>100) gibt es mehr potentielle Dubletten und die Größe der Cluster wächst. Die Anzahl der notwendigen Vergleiche wird um so geringer, je besser die Cluster der minimal ähnlichen Datensätze gebildet werden. Dabei ist entscheidend, daß die Cluster möglichst klein bleiben (Anzahl < 5), da innerhalb eines Clusters alle Datensätze miteinander verglichen werden.
Für den Aufbau des temporären Indexes wird Rechenzeit benötigt. Der Aufwand dafür wächst linear mit der Anzahl der Datensätze. Mit einem Index kann man nur gleiche Attribute vergleichen. Sobald Tippfehler auftauchen, ist ein Vergleich nicht mehr möglich.