next up previous contents
Next: Anzahl: Up: Legende Normierungsstatistik Previous: Legende Normierungsstatistik

Normierungsstufe:

angewandte Normierungsverfahren für die Felder.

Stufe 0: Keine Normierung, die Felder werden unverändert gelassen.
Stufe 1: Normierung des Zeichensatzes, Entfernung von Kommentaren und überflüssigen Leerzeichen. Es findet praktisch kein Informationsverlust statt. Im einzelnen: Großbuchstaben werden zu Kleinbuchstaben umgesetzt, alles zwischen Klammern und Nicht-Sortierzeichen gelöscht, Jahr ist 4-stellig, ISBN besteht aus 10 Ziffern oder dem Buchstaben X und Bindestrichen, Seitennummern und Auflage sind Zahlen; Umlaute nach ASCII umgewandelt, Sonderzeichen entfernt, doppelte Leerzeichen und Leerzeichen am Zeilenanfang und -ende entfernt.

Stufe 2: Normierung von Zeichenfolgen. Es findet ein minimaler Informationsverlust statt. Im einzelnen: Nur den ersten Buchstaben des Vornamens im Feld Autor speichern: ``wall, larry'' $\Rightarrow$ ``wall l'' Nur den ersten Verlagsort speichern: ``berlin ; new york ; hongkong'' $\Rightarrow$ ``berlin''. Nur die ersten 5 Zeichen vom Verlag speichern. Nur die ersten 5 Zeichen vom Verlagsort speichern. Bindestriche in ISBN entfernen, kleines ``x'' durch großes ``X'' ersetzen, den Buchstaben ``o'' durch die Ziffer Null ``0'' ersetzen. (Anmerkung: erst danach werden Umlaute, Sonderzeichen und Leerzeichen wie unter 1 angegeben umgewandelt bzw. entfernt. )

Stufe 3: Normierung von Zeichenfolgen. Es findet ein Informationsverlust statt: Im einzelnen: Sämtliche Leerzeichen im Titel und Autor löschen. Nur die ersten 50 Zeichen vom Titel abspeichern.


Die Normierung geschieht stufenweise. Stufe 2 schließt alle Normierungen von Stufe 1 mit ein; Stufe 3 schließt alle Normierungen von Stufe 2 und Stufe 1 mit ein.


next up previous contents
Next: Anzahl: Up: Legende Normierungsstatistik Previous: Legende Normierungsstatistik

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/