Next: Anzahl:
Up: Legende Normierungsstatistik
Previous: Legende Normierungsstatistik
angewandte Normierungsverfahren
für die Felder.
- Stufe 0:
Keine Normierung, die Felder werden
unverändert gelassen.
- Stufe 1:
Normierung des Zeichensatzes, Entfernung von Kommentaren und
überflüssigen Leerzeichen. Es findet praktisch kein
Informationsverlust statt.
Im einzelnen:
Großbuchstaben werden zu Kleinbuchstaben umgesetzt, alles zwischen Klammern
und Nicht-Sortierzeichen gelöscht, Jahr ist 4-stellig, ISBN
besteht aus 10 Ziffern oder dem Buchstaben X und Bindestrichen,
Seitennummern und Auflage sind Zahlen;
Umlaute nach ASCII umgewandelt, Sonderzeichen entfernt,
doppelte Leerzeichen und Leerzeichen am Zeilenanfang und -ende
entfernt.
- Stufe 2:
Normierung von Zeichenfolgen. Es findet ein
minimaler Informationsverlust statt.
Im einzelnen:
Nur den ersten Buchstaben des Vornamens im Feld
Autor speichern: ``wall, larry'' ``wall l''
Nur den ersten Verlagsort speichern:
``berlin ; new york ; hongkong'' ``berlin''.
Nur die ersten 5 Zeichen vom Verlag speichern.
Nur die ersten 5 Zeichen vom Verlagsort speichern.
Bindestriche in ISBN entfernen, kleines ``x'' durch großes ``X''
ersetzen, den Buchstaben ``o'' durch die Ziffer Null ``0''
ersetzen.
(Anmerkung: erst danach werden Umlaute, Sonderzeichen und
Leerzeichen wie unter 1 angegeben umgewandelt bzw. entfernt.
)
- Stufe 3:
Normierung von Zeichenfolgen. Es findet ein
Informationsverlust statt:
Im einzelnen:
Sämtliche Leerzeichen im Titel und Autor löschen.
Nur die ersten 50 Zeichen vom Titel abspeichern.
Die Normierung geschieht stufenweise. Stufe 2 schließt
alle Normierungen von Stufe 1 mit ein; Stufe 3 schließt alle
Normierungen von Stufe 2 und Stufe 1 mit ein.
Next: Anzahl:
Up: Legende Normierungsstatistik
Previous: Legende Normierungsstatistik
Copyright (c) 1999 Wolfram Schneider
, 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/