Persistente Identifikatoren

Eindeutige Kennzeichnung einzelner Objekte durch PIDs

Was ist ein PID?

Ein persistenter Identifikator (PID) ist eine eindeutige Kurzkennzeichnung für ein digitales Objekt. Er ist ein Aspekt für gute Datenqualität nach den FAIR-Prinzipien.

Ein PID ist eine Kennzeichnung für digitale Objekte, Dokumente oder Ressourcen im Internet. Dieser Identifikator beschreibt das Objekt eindeutig, einzigartig und persistent.

Identifikator – Bezeichnung eines Objekts
eindeutig – unmissverständliche Zuordnung
einzigartig – einmalige Verwendung, identifiziert genau ein Objekt
persistent – dauerhaft speicher- und abrufbar, unverändert über lange Zeiträume

Ein Identifikator bezeichnet ein digitales Objekt wie ein Name eine Person. Da es aber auch möglich ist, dass zwei Personen zufällig denselben Namen besitzen, hilft bei einem Objekt ein persistenter Identifikator (persistent identifier, PID) als eindeutige Referenz. Der persistente Identifikator eines Objekts lässt sich daher eher mit der Sozialversicherungsnummer vergleichen.

PIDs sind oft in einem Format, die eine Auflösung über das Internet ermöglichen, was bedeutet, dass man durch den PID auf das zugehörige Objekt zugreifen kann. Sie sind eine Kombination aus alphanumerischen Zeichen und verlinken meist auf eine Kontextseite mit Informationen über das Digitalisat und einem Link auf das Digitalisat selbst.

Verwaltet werden die PIDs von Registrierungsagenturen, die sicherstellen, dass die PIDs eindeutig und dauerhaft sind. Beispiele für bekannte PIDs sind DOI (Digital Object Identifier) für wissenschaftliche Publikationen, URN (Uniform Resource Identifier) für verschiedene Ressourcen oder HANDLE als allgemeines System für die Verwaltung von PIDs. Auch die ISBN (Internationale Standardbuchnummer) für Bücher kann man als eine Art PID verstehen.

Komponenten eines PIDs

Ein PID setzt sich aus zwei Bestandteilen zusammen:

TeileEinesPIDs.pngDurch die Verbindung von Identifikator des Objekts sowie einer Basis-URL kann das Objekt eindeutig bei Wikidata aufgerufen werden.

Wie URN und URL zusammen die → URI ergeben, besteht auch der PID aus einem Namen und einem Link zum Objekt.

Ein digitales Objekt kann schließlich mehrere Identifikatoren und/oder PIDs besitzen. Wichtig ist, dass alle Objektkennungen in den Metadaten angeführt werden.

VerschiedenePIDs.png

Ein digitales Objekt kann mehrere verschiedene (persistente) Identifikatoren besitzen.

Mehrere verschiedene Identifikatoren und PIDs können dasselbe Objekt beschreiben. Etwa hat die Venus von Willendorf auf Wikidata viele persistente Identifikatoren. Im Link der jeweiligen Identifikatoren kann die verwendete Struktur abgelesen werden.

Zweck eines PIDs

Der Hauptzweck eines PIDs ist es, Informationen für die Identifizierung, Verifizierung und (digitale) Lokalisierung des beschriebenen Objekts bereitzustellen. Anstelle direkt auf das Objekt zu verlinken, kann der PID auch auf eine Kontextseite verweisen, auf der beschreibende Informationen und ein Link zum Medienobjekt zu finden sind. Dabei ist es auch wichtig, dass sich das referenzierte Objekt nicht verändert oder allenfalls eine Versionierung festgehalten wird.

PIDs gibt es für verschiedene Arten von Ressourcen; hauptsächlich werden zwei unterschiedliche Kategorien verwendet: PIDs für Objekte (Daten, Objekte, Publikationen …) und PIDs für Personen und Organisationen.

Unterschied zu lokalen Identifikatoren

Der entscheidende Unterschied zwischen PIDs und „normalen“ Identifikatoren ist, dass PIDs global verwendet werden und somit global eindeutig sein müssen. „Normale“ Identifikatoren sind oftmals nur lokal oder im eigenen System eindeutig. Die Verlinkung auf die Darstellung des digitalen Objekts kann dabei auch ein Dateipfad, der von außen nicht zugänglich ist, oder ein nur temporär verfügbarer Link sein. Wenn die Verlinkung sich ändert, kann mit einem regulären Identifikator das Objekt nicht mehr aufgefunden werden. Somit sind „normale“ Identifikatoren weniger zuverlässig für eine langfristige Auffindbarkeit und Identifizierung des Objekts.

Bekommt ein digitales Objekt einen (weltweit) eindeutigen Identifikator von der Institution und funktioniert die öffentliche Verlinkung auf dessen Darstellung auf unbestimmte Zeit, wirkt der normale Identifikator wie ein persistenter Identifikator.

Linktipps

Muster für PIDs

Für das Generieren eines PIDs braucht es eine eindeutige Folge von alphanumerischen Zeichen für jedes Objekt. Es empfiehlt sich dafür eine Struktur, die gleichzeitig für Menschen leicht lesbar und verständlich ist und das Objekt (zumindest) national eindeutig beschreiben kann. Eine eindeutige Identifikationsnummer lässt sich etwa nach dem hier vorgestellten Muster zusammenstellen:

Am Beispiel einer Socke lässt sich ein solcher Identifikator erstellen:

Daraus ergibt sich somit AT_COR_PED_VEST-SOCc0122 als eindeutiger Identifikator.

HumanreadablePID.png

Am Beispiel einer Socke lässt sich ein Identifikator nach einem immer gleichen Muster leicht erstellen. Grafik: Kulturpool, CC0.

Es kann in Institutionen vorkommen, dass verschiedene Abteilungen (oder Sammlungen) unterschiedliche Konventionen zur Erfassung eines Objekts haben. Aufgrund ihrer historischen Bedeutung für die Bestandserfassung können diese intern genutzten Identifikatoren in eine neue, eindeutige Anordnung einbezogen werden. Natürlich kann auch hier stattdessen einfach eine (neue) fortlaufende Nummer gewählt werden.

Tipps zum Erstellen eines PID

Die Identifikatoren werden im Kulturpool im Metadatenfeld «dc:identifier» angegeben, wobei die Anzahl unbeschränkt ist. So können auf einfache Weise verschiedene Identifikatoren demselben Objekt zugeordnet werden.

PIDs in den Metadatenstandards

Mögliche Übermittlung des PID in einzelnen Metadatenstandards:

Registrierungsagenturen

Es ist für die Nutzung im Internet oftmals von Vorteil, den persistenten Identifikator bei einer Registrierungsagentur (auch: Verzeichnisdienst, Repositorium, Resolver) registrieren zu lassen, um das Objekt wirklich global einzigartig und dauerhaft auflösbar zu machen.

Die Registrierungsagentur übernimmt die Speicherung der Daten zum Objekt und das Verwalten der Identifikatoren. Oft kann der Identifikator selbst ausgewählt werden und es werden von der Registrierungsagentur weitere Kürzel vorangestellt, um die Eindeutigkeit zu gewährleisten. Veränderungen und Aktualisierungen zum Objekt sind oft selbst verwaltbar, der PID bleibt dabei stets unverändert. Es ist empfehlenswert, direkt nach einer Registrierung des digitalen Objekts bei einem Verzeichnisdienst den PID auf der eigenen Website und in den Metadaten zu vermerken. Somit kann der PID so schnell wie möglich zum Zitieren oder Verlinken verwendet werden. 

Persistente Identifikatoren, die bei einem System registriert werden, folgen üblicherweise einem Schema ähnlich zu diesem:

PIDs und Registrierungsagenturen

Verschiedene PIDs sind über weite Bereiche bekannt.

Linktipps

Vorteile eines PID

Im digitalen Raum steigt die Bedeutung einer genauen und zuverlässigen Identifizierung von Ressourcen. Genau hier bietet ein PID besonders Unterstützung. Etwa können Quellenangaben in Artikeln durch die Angabe des PIDs unterstützt werden, wodurch ein referenzierter Artikel schneller gefunden werden kann. Sie vereinfachen die Verwaltung, das Teilen und das Referenzieren der Ressource im digitalen Raum.

Warum sollte ein PID verwendet werden?

Weitere indirekte Vorteile durch die Verwendung von PIDs:

Im Sinne nachhaltiger Digitalisierung nach den FAIR-Prinzipien wird deshalb die Verwendung von PIDs empfohlen.