Next: Die häufigsten Datenfelder
Up: Verteilung der MAB2-Felder
Previous: Verteilung der MAB2-Felder
- Nr. (erste Spalte):
- Fortlaufende Nummer in der Tabelle. Aus Platzgründen wurde die
Tabelle nach jeweils 40 Einträgen umgebrochen. Insgesamt hat
die Tabelle 244 Einträge (entspricht 7 Teil-Tabellen).
- Feld (zweite Spalte):
- Feldnummer der MAB2-Datensätze. Die Feldnummer besteht
aus 3 Ziffern. In der Tabelle stehen die Feldnummern zuerst,
die am häufigsten in allen Datensätzen vorkommen.
- Alle Typen (dritte Spalte):
- Wieviele Datensätze (alle Satztypen: h, u und y) das betreffende Feld
enthalten. Es wird nicht berücksichtigt, ob das Feld Daten enthält oder
leer ist. Enthält ein Datensatz ein Feld mehrfach - z.B. mehrere
ISBN-Nummern - so wird das Feld nur einmal berücksichtigt. Die prozentuale
Angabe bezieht sich auf die Gesamtzahl der Datensätze im Verhältnis
zur Häufigkeit des betreffenden Feldes. 100,00 Prozent heißt, daß
das Feld in jedem Datensatz existiert. Da jedes Feld nur einmal
pro Datensatz berücksichtigt wird, kann die prozentuale Angabe
den Wert 100 nicht übersteigen.
Beispiel: In Zeile 21 steht das Feld 540 (ISBN). Von den insgesamt
2.535.095 Datensätzen (h, u, und y) besitzen 1.413.387 Datensätze
dieses Feld, das entspricht 55,75%.
- h-Sätze (vierte Spalte):
- Wieviele Datensätze vom Typ h (Hauptsatz) das betreffende Feld
enthalten sowie das dazugehörige prozentuale Verhältnis.
Beispiel: In Zeile 21 steht das Feld 540 (ISBN). Von den insgesamt
2.115.316 h-Datensätzen besitzen 1.165.001 Datensätze
dieses Feld, das entspricht 55,07%.
- u-Sätze (fünfte Spalte):
- Wieviele Datensätze vom Typ u (Untersatz) das betreffende Feld
enthalten sowie das dazugehörige prozentuale Verhältnis.
Beispiel: In Zeile 21 steht das Feld 540 (ISBN). Von den insgesamt
411.759 u-Datensätzen besitzen 248.291 Datensätze
dieses Feld, das entspricht 60,30%.
Einige der für die Dublettenkontrolle genutzten Attribute (Titel,
Autor, Verlag, Jahr, Verlagsort, ISBN-Nummer und Seitennummer) sind
in vielen Datensätzen nicht vorhanden. Die Dublettenkontrolle
muß diese Fälle berücksichtigen. Gegebenenfalls müssen andere MAB2-Felder
zur Bestimmung der Attribute herangezogen werden.
- Autor (Feld 100):
- Dieses Feld ist in insgesamt 65,0%
aller Datensätze vorhanden. Betrachtet man nur die h-Sätze,
ist das Autorfeld zu 75,7% belegt. D.h. 1/3 der Datensätze
enthalten kein Autorfeld.
- Titel (Feld 331):
- Dieses Feld ist in insgesamt 86,5% aller Datensätze
vorhanden. Betrachtet man nur die h-Sätze, ist das Titelfeld
zu 96,0% belegt.
- Verlagsort (Feld 410):
- Dieses Feld ist in insgesamt 83,7% aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist der Verlagsort zu 69,9% belegt.
- Verlag (Feld 412):
- Dieses Feld ist in insgesamt 83,7% aller Datensätze
vorhanden. Betrachtet man nur die h-Sätze, ist das Feld Verlag zu 69,9%
belegt. D.h. 1/6 bis 1/3 der Datensätze enthalten damit keine Verlagsangabe.
- ISBN-Nummern (Feld 540):
- Dieses Feld ist in insgesamt 55,7% aller Datensätze vorhanden. Etwas mehr als die Hälfte der Datensätze
besitzen eine ISBN-Nummer.
- Seitennummer (Feld 433):
- Das Feld Seitennummer ist in
insgesamt 77,4% aller Datensätze vorhanden.
Betrachtet man nur die h-Sätze, ist das Feld Seitennummer
zu 78,5% belegt. D.h. 1/4 der Datensätze enthalten damit keine
Seitennummer.
- Auflage (Feld 403):
- Das Feld Auflage ist in insgesamt 24,2%
aller Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das
Feld Auflage zu 23,8% enthalten. Damit besitzen nur 1/4
der Datensätze das Feld Auflage.
- Schlagwörter (Feld 902):
- Das Feld für das erste Schlagwort ist in 30,5% der Datensätze vorhanden. Betrachtet man nur die h-Sätze, ist das Feld
zu 35,7% belegt. Damit sind nur 1/3 der Datensätze mit Schlagwörtern
versehen.
Next: Die häufigsten Datenfelder
Up: Verteilung der MAB2-Felder
Previous: Verteilung der MAB2-Felder
Copyright (c) 1999 Wolfram Schneider
, 4-July-1999
URL: https://wolfram.schneider.org/lv/diplom/