Wie AUSSDA die Dataverse Community unterstützt

21.07.2022

Wir bei AUSSDA sind stolz darauf, ein aktiver Teil der Dataverse Community zu sein. Ein kurzes Update rund um pyDataverse und neue Projekte

Unser DevOp Stefan Kasberger ist maßgeblich an der Entwicklung von Python-Tools für Dataverse beteiligt und hat ein Python-Modul – pyDataverse – programmiert, das den Zugriff auf die Dataverse-APIs ermöglicht und Datensätze und Files zugänglich macht. Außerdem ermöglicht es Nutzer*innen, verschiedene Dataverses zu entdecken.

Die Use Cases dieses Moduls, das im Rahmen des SSHOC-Projekts entwickelt wurde, umfassen Datenmigrationen, Automatisierung, Tests, Microservices sowie Anwendungen im Bereich Data Science. Durch neue Features und Releases stellen wir sicher, dass pyDataverse sich ständig weiterentwickelt. Das Projekt wurde zu GDCC verschoben, zudem arbeitet Stefan an einem asynchronen Feature-Prototyp (hier geht es zum Feature Branch). Der wichtigste Aspekt des Projekts ist, dass pyDataverse heute ein hilfreiches Tool ist, das viele Mitglieder der Dataverse-Community schätzen und verwenden: Bislang wurden mehr als 100.000 Datensätze und Files mit Hilfe des Moduls migriert.

Dataverse_tests

pyDataverse hat auch den Grundstein für weitere Projekte gelegt. Für alle, die die Betriebsanforderungen ihrer Dataverse-Installation testen möchten, wurde ein brandneues Tool entwickelt: dataverse_tests. Damit lässt sich eine neue Dataverse Installation genauso testen wie die Konfiguration nach einem Upgrade. Auch Tests während des laufenden Betriebs werden für DevOps und Entwickler*innen damit einfacher. Daneben bietet das Tool eine CLI für allgemeine Test-Workflow-Schritte, wie etwa den Download großer Datenmengen, das Erstellen einer Testdatensammlung und die Möglichkeit, nach den DevOp-Aktivitäten aufzuräumen.

Die Open-Source-Tests sind in Python mit pytest, requests und Selenium geschrieben. Sie sind gut dokumentiert und lassen sich leicht anpassen und erweitern. Dataverse_tests verwendet dataverse_testdata, eine Sammlung hochwertiger Metadaten, die wir für Testzwecke erstellt haben.

Das erste Release von dataverse_tests ist da – wir freuen uns über zahlreiche neue Nutzer*innen und Feedback auf unser Tool!

Dataverse Community Meeting

Nach 2019 und 2021 hat Stefan auch am diesjährigen Dataverse Community Meeting teilgenommen. Im Rahmen seiner Präsentation "pyDataverse: Doing Tests, Data Migrations and Other API Stuff" stellte er seine Arbeit an den genannten Projekten vor. Als zusätzlichen Service hat Stefan zwei Screencasts aufgenommen, die es dem Publikum erleichtern, ihm zu folgen – eins zum Login ins Dataverse Frontend während des Tests, das zweite zum Daten-Workflow. Nachschauen lohnt sich!

Screenshot vom Login in Dataverse

Test Login Dataverse. Screenshot: Kasberger.

Data Science mit pyDataverse in einem Jupyter Notebook. Screenshot: Kasberger.

Utils Workflow. Screenshot: Kasberger.

SSHOC Logo

pyDataverse erhielt Finanzierung durch das SSHOC Projekt.