Von 345 Datensätzen enthalten 267 das Autor-Feld 100, die restlichen 78 Datensätze haben kein Feld 100. Nach den ersten Normierungschritten (Kleinschreibung, eckige Klammern löschen, überflüssige Leerzeichen entfernen) bleiben 105 unterschiedliche Autoren übrig.
Im Feld 100 wird jetzt eine zusätzliche Normierung vorgenommen. Vom Vornamen wird nur noch der erste Buchstabe genommen, aus `` gruner, klaus'' wird ``gruner, k''. Die Anzahl der unterschiedlichen Autoren reduzierte sich dadurch um 6 Autoren, von 105 auf 99.
In 5 der 6 Fälle wurde die unterschiedliche Schreibweise der Autorennamen richtig erkannt. In nur einem Fall wurden zwei verschiedene Personen zusammengefaßt. Die Beurteilung, ob zwei Namen denselben Autor bezeichnen, wurde anhand der MAB-Datensätze getroffen. Dazu wurden andere Attribute herangezogen, wie z.B. Titel, ISBN-Nummer, Verlag und Jahr.
Die gefundenen Autoren im Einzelnen:
Nur Anfangs- | Ursprüngliche | Anmerkung |
buchstabe des | Schreibweisen | |
Vornamens | ||
``perl,m'' | ``perl, martin lewis'' | unterschiedliche |
``perl, matthias'' | Personen | |
``quigley,e'' | ``quigley, e.'' | dieselbe Person, |
``quigley, ellen'' | unterschiedliche Schreibweise | |
``quigley, ellie'' | ||
``till,d'' | ``till, dave'' | dieselbe Person |
``till, david'' | unterschiedliche Schreibweise | |
``wall,l'' | ``wall, l.'' | dieselbe Person |
``wall, larry'' | unterschiedliche Schreibweise | |
``Âsliwa,m'' | ``Âsliwa, micha/l'' | dieselbe Person |
``Âsliwa, michaø'' | unterschiedliche Schreibweise |
Tabelle: Manuelle Normierung des Attributes Autor bei verteilter Suche