Ursprünglich war geplant, die Datensätze linear (vom ersten bis zum letzten) per Hand durchzulesen und die Dubletten aufzuschreiben - eine Art Memory-Spiel für Bibliothekare ;-). Dieses Verfahren stellte sich als zu aufwendig heraus. Das menschliche Kurzzeitgedächtnis kann nicht so viele Informationen zwischenspeichern. Bei mehr als 50 Datensätzen ist die manuelle Dublettenkontrolle nur noch bedingt möglich. Die Augen ermüden sehr schnell, und man verliert leicht den Überblick.
Die Wahl der Testdaten erwies sich als sehr gut. Unter den Datensätzen befinden sich sowohl Haupt- als auch Untersätze (``h'', ``u'', siehe auch im Anhang Abbildung A.1, Seite ). Es gab neben den erwarteten Büchern über die Computersprache Perl kirchliche Literatur, übersetzt von Carl Johann Perl; diverse andere Bücher über Menschen mit dem Nachnamen Perl; Bücher, amtliche Bekanntmachungen und Werbung/Touristikinformationen der Gemeinde Perl; Stadtpläne, geologische Karten, Radwanderkarten von Perl und Umgebung; biologische Literatur über Perl-Zellulose.
Die Erfahrungen mit den unterschiedlichen Schreibweisen wurde für die Normierung in Kapitel 5 verwendet (siehe auch Kapitel 9 Probleme).