Zur besseren Lesbarkeit werden die Gewichtungen hier in Prozent angegeben. Eine positive Gewichtung von 70 steht also für eine Wahrscheinlichkeit von 70% bzw. 0,7, daß die Datensätze dublett sind.
Ziel in ZACK ist die Erkennung von gleichen Werken, nicht nur gleichen Ausgaben. Deshalb werden die negative Gewichtungen generell niedriger geschätzt als positive Gewichtungen.
Das Werk wird vor allem durch den Autor und den Titel bestimmt. Deshalb wird eine hohe positive und negative Gewichtung für Autor und Titel vergeben. Die ISBN-Nummer erhielt ebenfalls eine hohe positive Gewichtung. Wenn zwei Bücher dieselbe ISBN-Nummer haben, dann handelt es sich mit sehr hoher Wahrscheinlichkeit um das gleiche Werk. Verlag, Verlagsort, Auflage und ISBN-Nummer bezeichnen die physikalische Ausgabe. Ein Buch kann in verschiedenen Verlagen erscheinen, z.B als Hardcover und als Paperback. Die negativen Gewichtungen für Verlag, Verlagsort und ISBN-Nummer werden deshalb niedrig geschätzt, um trotzdem inhaltlich gleiche Publikationen als solche zu erkennen.