next up previous contents
Next: Die häufigsten Datenfelder Up: Verteilung der MAB2-Felder Previous: Verteilung der MAB2-Felder

Erläuterungen zur Tabelle der Feldstatistik

Nr. (erste Spalte):
Fortlaufende Nummer in der Tabelle. Aus Platzgründen wurde die Tabelle nach jeweils 40 Einträgen umgebrochen. Insgesamt hat die Tabelle 244 Einträge (entspricht 7 Teil-Tabellen).
Feld (zweite Spalte):
Feldnummer der MAB2-Datensätze. Die Feldnummer besteht aus 3 Ziffern. In der Tabelle stehen die Feldnummern zuerst, die am häufigsten in allen Datensätzen vorkommen.

Alle Typen (dritte Spalte):
Wieviele Datensätze (alle Satztypen: h, u und y) das betreffende Feld enthalten. Es wird nicht berücksichtigt, ob das Feld Daten enthält oder leer ist. Enthält ein Datensatz ein Feld mehrfach - z.B. mehrere ISBN-Nummern - so wird das Feld nur einmal berücksichtigt. Die prozentuale Angabe bezieht sich auf die Gesamtzahl der Datensätze im Verhältnis zur Häufigkeit des betreffenden Feldes. 100,00 Prozent heißt, daß das Feld in jedem Datensatz existiert. Da jedes Feld nur einmal pro Datensatz berücksichtigt wird, kann die prozentuale Angabe den Wert 100 nicht übersteigen.

Beispiel: In Zeile 21 steht das Feld 540 (ISBN). Von den insgesamt 2.535.095 Datensätzen (h, u, und y) besitzen 1.413.387 Datensätze dieses Feld, das entspricht 55,75%.

h-Sätze (vierte Spalte):
Wieviele Datensätze vom Typ h (Hauptsatz) das betreffende Feld enthalten sowie das dazugehörige prozentuale Verhältnis.

Beispiel: In Zeile 21 steht das Feld 540 (ISBN). Von den insgesamt 2.115.316 h-Datensätzen besitzen 1.165.001 Datensätze dieses Feld, das entspricht 55,07%.

u-Sätze (fünfte Spalte):
Wieviele Datensätze vom Typ u (Untersatz) das betreffende Feld enthalten sowie das dazugehörige prozentuale Verhältnis.

Beispiel: In Zeile 21 steht das Feld 540 (ISBN). Von den insgesamt 411.759 u-Datensätzen besitzen 248.291 Datensätze dieses Feld, das entspricht 60,30%.

Einige der für die Dublettenkontrolle genutzten Attribute (Titel, Autor, Verlag, Jahr, Verlagsort, ISBN-Nummer und Seitennummer) sind in vielen Datensätzen nicht vorhanden. Die Dublettenkontrolle muß diese Fälle berücksichtigen. Gegebenenfalls müssen andere MAB2-Felder zur Bestimmung der Attribute herangezogen werden.

Autor (Feld 100):
Dieses Feld ist in insgesamt 65,0% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Autorfeld zu 75,7% belegt. D.h. 1/3 der Datensätze enthalten kein Autorfeld.
Titel (Feld 331):
Dieses Feld ist in insgesamt 86,5% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Titelfeld zu 96,0% belegt.

Verlagsort (Feld 410):
Dieses Feld ist in insgesamt 83,7% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist der Verlagsort zu 69,9% belegt.

Verlag (Feld 412):
Dieses Feld ist in insgesamt 83,7% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Feld Verlag zu 69,9% belegt. D.h. 1/6 bis 1/3 der Datensätze enthalten damit keine Verlagsangabe.

ISBN-Nummern (Feld 540):
Dieses Feld ist in insgesamt 55,7% aller Datensätze vorhanden. Etwas mehr als die Hälfte der Datensätze besitzen eine ISBN-Nummer.

Seitennummer (Feld 433):
Das Feld Seitennummer ist in insgesamt 77,4% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Feld Seitennummer zu 78,5% belegt. D.h. 1/4 der Datensätze enthalten damit keine Seitennummer.

Auflage (Feld 403):
Das Feld Auflage ist in insgesamt 24,2% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Feld Auflage zu 23,8% enthalten. Damit besitzen nur 1/4 der Datensätze das Feld Auflage.

Schlagwörter (Feld 902):
Das Feld für das erste Schlagwort ist in 30,5% der Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Feld zu 35,7% belegt. Damit sind nur 1/3 der Datensätze mit Schlagwörtern versehen.

next up previous contents
Next: Die häufigsten Datenfelder Up: Verteilung der MAB2-Felder Previous: Verteilung der MAB2-Felder

Copyright (c) 1999 Wolfram Schneider , 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/