Ursprünglich war geplant, die Datensätze linear (vom ersten bis zum letzten) per Hand durchzulesen und die Dubletten aufzuschreiben - eine Art Memory-Spiel für Bibliothekare ;-). Dieses Verfahren stellte sich als zu aufwendig heraus. Das menschliche Kurzzeitgedächtnis kann nicht so viele Informationen zwischenspeichern. Bei mehr als 50 Datensätzen ist die manuelle Dublettenkontrolle nur noch bedingt möglich. Die Augen ermüden sehr schnell, und man verliert leicht den Überblick.
Die Wahl der Testdaten erwies sich als sehr gut. Unter den Datensätzen
befinden sich sowohl Haupt- als auch Untersätze (``h'', ``u'', siehe
auch im Anhang Abbildung A.1, Seite ). Es
gab neben den erwarteten Büchern über die Computersprache Perl
kirchliche Literatur, übersetzt von Carl Johann Perl; diverse andere
Bücher über Menschen mit dem Nachnamen Perl; Bücher, amtliche
Bekanntmachungen und Werbung/Touristikinformationen der Gemeinde Perl;
Stadtpläne, geologische Karten, Radwanderkarten von Perl und Umgebung;
biologische Literatur über Perl-Zellulose.
Die Erfahrungen mit den unterschiedlichen Schreibweisen wurde für die Normierung in Kapitel 5 verwendet (siehe auch Kapitel 9 Probleme).