Richtlinien zur Erfassung von Daten
Empfehlungen zur Datenqualität bei der Erhebung
Ziel der Richtlinie zur Erfassung von Daten ist es, die Qualität der Daten bei der ersten Erfassung (oder einer Bearbeitung) qualitativ zu verbessern.
Anwendungsbereich
Diese Richtlinien beziehen sich auf die Ersterfassung und Bearbeitung von Daten. Das Dokument dient als Richtlinie, um die Qualität der Daten zum Erfassungszeitpunkt anzuheben.
Richtlinien
- URIs sollten zur Identifizierung von Entitäten verwendet werden. Im Idealfall sollten dabei URIs aus Referenzservices (GND, VIAF, etc.) verwendet werden. Insbesondere Personen, Institutionen, Publikationen, sollten über Referenzressourcen eindeutig identifiziert werden. Im Idealfall ab der ersten Erfassung.
- Für eigene Objekte – oder Objekte, welche nicht über einen Referenzservice gefunden werden können – sollten, um deren global eindeutige Identifikation/Referenzierbarkeit zu gewährleisten, URIs kreiert werden, welche mit einer Domäne beginnen, über die die ausliefernde Institution verfügen kann.
- Begriffe, Konzepte, Schlagworte, usw. sollten nicht als Strings angegeben werden, sondern durch die Verwendung der entsprechenden URI, die auf einen Eintrag in einem kontrollierten Vokabular wie Getty AAT, Iconclass, Wikidata, GeoNames oder VIAF verweisen.
- URIs müssen generell RFC 3986 folgen und dürfen demnach u. a. keine Leerzeichen enthalten. Sonderzeichen wie Leerzeichen müssen encoded werden. URIs dürfen höchstens einmal encoded sein.
- Zu den Metadaten sollten Sprach-Tags hinzugefügt werden. Diese geben die Sprache des Textinhalts eines Feldes an. Bei mehreren Sprachen in einem Text kann maximal eine Sprache festgehalten werden, hierbei sollte die „hauptsächliche“ Sprache verwendet werden. Sprach-Tags müssen BCP 47 konform sein.
- Sprach-Tags sind getrennt vom Inhalt eines Textfelds zu führen. D. h. in einer konkreten Datenbank sollte der Sprach-Tag nicht als Teil des Textes innerhalb des Feldes erfasst, sondern in einem getrennten Feld festgehalten werden.
- Schlagworte und Begriffe sollten nicht als Listen innerhalb eines Feldes geführt werden, sondern das Feld mit je nur einem Begriff so oft wie nötig wiederholt werden.
- Textfelder für Schlagworte sollten keine Encodings, Sonderzeichen oder Markup enthalten.
- Fließtextfelder sollten ebenfalls keine Encodings, Sonderzeichen oder Markup (wie z. B. HTML, TEI, Markdown) enthalten. Der einzige zulässige Spezialfall ist dabei der Newline-Character zur Kennzeichnung von Zeilenumbrüchen.
- Weitere Standards, wie etwa die ISO-Standards, helfen bei der Vereinheitlichung und der damit einhergehenden besseren Auffindbarkeit der Objekte.
Ein Feld, in dem Daten einem ISO-Standard entsprechend festgehalten werden, sollte von einem zweiten Feld begleitet werden, in dem der entsprechende Standard festgehalten wird. Zumindest sollte der entsprechende Standard Teil der strukturierten Daten sein. - Beispielsweise normiert der Standard ISO 8601-1 die Zeit- bzw. Datumsangabe. Die Erweiterung ISO 8601-2 erlaubt es auch, dass ungefähre oder unbekannte zeitliche Angaben strukturiert und sinnvoll erfasst und auffindbar werden.
- Das letzte Bearbeitungsdatum eines Datensatzes sollte automatisch erfasst und mit dem Datensatz ausgeliefert werden können.
Die Inhalte dieser Seite sind unter CC0 bereitgestellt.