Ein Datensatz kommt selten allein

21.01.2019

Wenn Sie bei uns Ihre Daten archivieren möchten, gibt es einige Schritte, die vor einer Veröffentlichung im AUSSDA Dataverse noch gemacht werden müssen.

Durch das gewissenhafte Ausfüllen und die schnelle Übermittlung von unterstützenden Dokumenten an das AUSSDA-Team helfen DatenproduzentInnen bei der Veröffentlichung der Daten.

 

Metadaten

Die Metadaten ermöglichen überhaupt erst die Auffindbarkeit einzelner Datensätze in unserem AUSSDA Dataverse. Während einige Metadaten, die Datensätze oberflächlich beschreiben (z.B. Titel, Abstract, Principal Investigator), geben andere einen genaueren Einblick in die Art der Datenerhebung (z.B. Sampling Procedure, Mode of Data Collection, Type of Instrument). Die thematische Einordnung der Daten passiert durch die Topic Classification und die Keywords. AUSSDA nutzt zur Erstellung der Keywords den European Language Social Science Thesaurus (ELSST), damit die Daten auch in anderen Datenkatalogen, wie z.B. dem CESSDA Data Catalogue auffindbar sind.

Ein sorgfältig ausgefülltes Metadatenblatt hilft uns, den Eintrag im AUSSDA Dataverse mit den wichtigen Informationen über die Daten zu bestücken, und erhöht damit die Wahrscheinlichkeit, dass interessierte Forschende und Citizen Scientists die archivierten Daten finden, nachfragen und nutzen.

 

Dokumentation

Im besten Fall archivieren wir nicht allein die Datensätze der DepositorInnen sondern zusätzliche Dokumentationsunterlagen, die genauere Einblicke in die archivierten Daten liefern. Ein Beispiel sind mitgelieferte Methodenberichte, die nachnutzenden Forschenden Einschätzungen über die Art der Forschung ermöglichen, da sie u.a. mehr über den Vorgang der Stichprobenziehung erfahren. Zusätzlich gestatten Codebücher einen schnellen Überblick über die einzelnen Variablen und deren Labels in den Datensätzen. Auch da im Stata-Format lange Variablenlabels nur verkürzt dargestellt werden (siehe unten), erlauben Codebücher ein besseres Verständnis der Variablen. Zudem können bei AUSSDA mit den Daten Fragebögen, Datenmanagementpläne, Feldberichte und vieles mehr archiviert werden.

 

Daten

Die DatenproduzentInnen sind für die Anonymisierung der Daten verantwortlich. Daten mit hohem Nachnutzungspotenzial werden noch zusätzlich von unseren DatenspezialistInnen geprüft, um kritische Variablen zu identifizieren und außerdem ein gutes Verständnis der Variablen und Labels zu gewährleisten. Um kritische Variablen handelt es sich zum Beispiel, wenn personenbezogene Informationen zu finden sind (wie vollständige Namen, E-Mail-Adressen), wenn also einzelne Personen eindeutig identifiziert werden können. Die Identifikation kann übrigens häufig auch über sogenannte Kreuztabellen möglich sein, gerade bei geringen Fallzahlen. Wenn z.B. in der einzigen Stadt im Burgenland mit über 10.000 Einwohnern (also Eisenstadt), der eine Apotheker (ISCO-Codes, Gender) im Alter von 47 Jahren (Age) identifizierbar wird. Aus diesem Grund raten wir häufig dazu, niedrige Fallzahlen aufzugruppieren, wenn ein Datensatz Open Access zur Verfügung gestellt werden soll.

Eine kurze prägnante Beschriftung von Daten (Variablen- und Valuelabels) führt zu mehr Übersichtlichkeit und zu einer besseren Nutzbarkeit. So werden z.B. in Stata Labels nur bis 80 Zeichen Länge dargestellt, in SPSS sind längere Labels möglich. Die Transformation von SPSS in Stata führt deswegen häufig zu schlecht lesbaren Variablenlabels.

 

Wie sieht es dann in der Veröffentlichung aus?

Im Dataverse finden sich dann neben dem Datensatz selbst, der in den Formaten SPSS, Stata und als tab zur Verfügung steht, Forschungsdokumentation wie Fragebogen, Codebuch und ein Methodenbericht als herunterladbare Dateien. Die Metadaten sind in vorgegebenen Feldern eingebettet und für Suchmaschinen lesbar. Über einen eigenen DOI, einen langfristigen Identifier, ist der archivierte Datensatz dauerhaft auffindbar.

Scrabbel Pieces spelling the words "Data", "Documentation" and "Metadata"