Zu Hauptinhalt springen

Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement

In allen Bereichen der Forschung werden gro?e Mengen an Daten produziert, welche verarbeitet werden müssen. Es haben sich schon einige Standards und Methoden etabliert, um diese Daten zu strukturieren, zu organisieren und somit auch für andere nutzbar zu machen. Es existieren bereits einige Initiativen, darunter NFDI, welche sich mit dem Bereich Forschungsdatenmanagement auseinandersetzen.

Ziel der Bachelorarbeit war die Analyse bestehender Forschungsdatenmanagement-Projekte und das Herausfiltern von Standards und Verfahren. Hierdurch sollten Kriterien zur Klassifikation dieser Standards und Verfahren entwickelt und auf den Bereich der Informatik angewendet werden. Zu diesem Zweck wurden die bereits existierenden NFDI-Konsortien n?her betrachtet.


NFDI

Bund und alle Bundesl?nder haben gemeinsam am 12.10.2020 den Verein Nationale Forschungsdateninfrastruktur (NFDI) e.V. gegründet. Ziel ist es, die unterschiedlichen Wissenschaftsdisziplinen und Forschungsdatenmanagementinitiativen innerhalb Deutschlands zu strukturieren und übergreifend zu vernetzen. Hierzu soll in den Forschungsprozessen künftig das Forschungsdatenmanagement nahtlos eingebunden werden. Um dies zu erreichen, müssen bestehende Strukturen und vorhandene Forschungsdaten koordiniert werden und eine Standardisierung des Datenmanagements eingeführt werden (Quelle).


Ergebnisse der Interviewstudie

Zweck

Ziel der Interviewstudie war es, aus der Expertenperspektive die für den jeweiligen Bereich entwickelten Standards und Methoden kennen zu lernen. Aus den gewonnenen Informationen sollen Vorschl?ge und Best Practices für ein Forschungsdatenmanagementsystem für die Universit?t Regensburg entwickelt werden.

Durchführung

Um ein m?glichst breites Spektrum an Meinungen zu bekommen, wurden 17 Personen aus zw?lf Konsortien und eine Person des UR Data Hubs interviewt. Die Interviewteilnehmer stammen aus den Konsortien KonsortSWD, NFDI4Culture, NFDI4Memory, NFDI4DS, NFDI4Ing, NFDIxCS, GHGA, NFDI4Biodiversity, NFDI4Health, Mardi4NFDI, NFDI4Chem und PUNCH4NFDI.


Standards

Es werden nur die Standards pr?sentiert, welche als erster Vorschlag für die Universit?t Regensburg ausgew?hlt wurden.

Metadatenstandards

Beschreibung von Metadaten, also Daten über Daten

  • METS/MODS (Quelle):
    • Qualit?t der Metadaten
    • Metadata Encoding and Transmission Standard (METS)
    • Metadata Object Description Schema (MODS)
  • DataCite (Quelle):
    • Metadatenschema, für die Ausstattung von Datens?tzen mit Metadaten?
  • LIDO?(Quelle):?
    • Bereitstellung von Metadaten
  • CodeMeta (Quelle):
    • Austausch von Software-Metadaten zw. Repositories & Organisationen???
  • CitationCFF?(Quelle):
    • Speicherung von Metadaten über Softwarezitationen
  • CIDOC CRM (Quelle):
    • RDF-Schema zur Kodierung von Metadaten?
  • Dublin?Core (Quelle):?
    • Vokabular von fünfzehn Eigenschaften für die Beschreibung von Ressourcen
  • Darwin Core (Quelle):
    • Glossar mit Begriffen für den Austausch von Informationen über die biologische Vielfalt?
  • Pangaea?(Quelle):
    • Umfassende Metadatenbeschreibung?
  • Bioschemas.org?(Quelle):
    • Strukturierung & Beschreibung biologischer Daten?
  • Schema.org?(Quelle):
    • Definition eines Vokabulars für die Bereitstellung von Metadaten zu Datens?tzen
  • WikiData?(Quelle):
    • WikiCite:?Zum Import & der Erfassung von Metadaten aus verschiedenen?Quellen, z.B. Wikisource

Klassifikationsstandards

Beziehen sich auf Systeme oder Strukturen zur Klassifizierung von Informationen von Daten

  • ICD-10?(Quelle):
    • Klassifikation von Krankheiten & verwandter Gesundheitsprobleme??

Datenformat- und Strukturstandards

Beziehen sich auf Struktur und Format von Forschungsdaten

  • METS/MODS?(Quelle):
    • DFG-Viewer Strukturdatenset: XML-Format, zur Beschreibung hierarchischer Strukturen digitaler?Dokumente
  • FIT Protocol Format (Quelle):
    • Speicherung & Austausch von Daten, die von Sport-, Fitness- &
      Gesundheitsger?ten stammen?
  • ROOT (Quelle):
    • Datenstruktur, für den schnellen Zugriff auf gro?e Datenmengen
  • FHIR (Quelle):
    • u.a. Definition der Struktur des Kerninformationsbestandes
  • CDISC (Quelle):
    • Definition spezifischer Formate & Strukturen klinischer Studiendaten?
  • SDTM?(Quelle):
    • Organisation & Formatierung von Daten?

Interoperabilit?tsstandards

Erm?glichen Interoperabilit?t zwischen verschiedenen Datenquellen und Systemen

  • OAI-PMH (Quelle):
    • Mechanismus für die Interoperabilit?t von Repositorien??
  • Pangaea (Quelle???????):
    • Interoperabilit?t von Daten & Metadaten?
  • FHIR (Quelle???????):
    • Fokus: menschenlesbare Information als Basis der Interoperabilit?t??
  • WikiData?(Quelle???????):
    • Identifier & Statements sorgen für Interoperabilit?t?

Identifikationsstandards

Eindeutige Definition verschiedener Arten von Ressourcen

  • DataCite (Quelle???????):
    • Genaue und konsistente Identifizierung einer Ressource zu Zitier- und Abrufzwecken??

Standards für die Bereitstellung und den Zugang zu Forschungsdaten?

Beziehen sich auf den Zugang zu Forschungsdaten und den Austausch zwischen Forschern

  • Zenodo (Quelle??????????????)???????:?
    • Gemeinsame Nutzung, Archivierung & Ver?ffentlichung?von Daten & Software

Methoden

Es werden alle in der Interviewstudie genannten Methoden p?sentiert und keine Einschr?nkungen vorgenommen.

Datenerhebungmethoden

Für die Sammlung von Forschungsdaten

  • Vorgehensweisen & Prozesse anpassen
  • Dynamik im Setting der Datengenerierung & -bearbeitung
  • Wiederverwendung von bestehenden L?sungen, z.B. Datenbanken
  • Interoperabel denken
  • Ordentliche Beweise & Schlussfolgerungen, z.B. in der Mathematik
  • Nutzung eigener Software für Experimente
  • Triggering
  • heterogene Ressourcen nutzen

Datenbereinigung und -vorbereitung

Zur S?uberung und Vorbereitung von Rohdaten

  • Pseudonymisierung & Anonymisierung von sensiblen Daten
  • Datenselektion
  • Inhalte annotieren

Datenmanagement und -speicherung

Für die Organisation, Speicherung und Verwaltung von Forschungsdaten

  • Dateiformate aktuell halten
  • Dokumentation pflegen
  • Datenmanagementpl?ne aufstellen
  • Begleitende Systeme für die Langzeitarchivierung nutzen
  • Containerisierung von SW
  • Versionskontrolle mit GIT
  • Vernünftig Zitieren
  • Nutzung des Layer Model des Computing
  • Data Links
  • Nutzung von Dynamic Archiving
  • Datenbank, in der Forschungsdaten abgelegt werden, über API ver?ffentlichen
  • Nutzung relationaler Datenbanken

Datenanalysemethoden

Techniken der Analyse von Forschungsdaten

  • Simple Statistik bis Künstliche Intelligenz
  • Nutzung von Machine-Learning-Verfahren
  • Nutzung von Dynamic Filtering

Sicherheit und Datenschutz

Verfahren zum Schutz der Vertraulichkeit, Integrit?t und Verfügbarkeit von Forschungsdaten

  • Zugriffsbeschr?nkungen
  • Einwilligungserkl?rungen
  • Bereitstellung als Open Data

Reproduzierbarkeit und Wiederholbarkeit

Stellen sicher, dass Forschungsdaten und -analyse reproduzierbar und wiederholbar sind

  • Zug?nglichmachung von Experimentdaten, z.B. persistente URL
  • Technisches Peer Review nutzen
  • Technologie-agnostisch arbeiten
  • Forschung transparenter machen

Metadatenmanagement

Für die Erstellung, Verwaltung und den Austausch von Metadaten

  • Sicherung von Daten & entsprechender Metadaten für Langzeitarchivierung
  • Kontrollvokabular verwenden
  • Nutzung des LinkML-Frameworks

Ontologien

Es werden nur die Ontologien p?sentiert, welche als erster Vorschlag für die Universit?t Regensburg ausgew?hlt wurden.

Geistes- & Sozialwissenschaften

  • CIDOC Conceptual Reference Model (CIDOC CRM) (Quelle):
    • Basisontologie fu?r Daten des kulturellen Erbes mit Erweiterungen fu?r bibliographische Dokumentation oder Geoinformatik
    • Integration von Daten aus verschiedenen Quellen auf eine software- und schemaunabha?ngige Weise
  • European Language Social Science Thesaurus (ELSST) (Quelle):
    • (Ist ein Thesaurus, wurde jedoch bei den Ontologien genannt)
    • In 16 Sprachen verfu?gbarer europa?ischsprachiger Thesaurus der Sozialwissenschaften
    • Deckt folgende Disziplinen ab: Politik, Soziologie, Wirtschaft, Bildung, Recht, Kriminalita?t, Demografie, Gesundheit, Bescha?ftigung, Informations- & Kommunikationstechnologie & Umweltwissenschaft?

  • Functional Requirements for Bibliographic Records?in OWL2 DL?Ontology?(FRBR in OWL2 DL?Ontology) (Quelle):

    • Funktionale Anforderungen fu?r bibliografische Datensa?tze

  • WikiProject Ontology (Quelle):
    • Bescha?ftigt sich mit der Natur des Seins, des Werdens, der Existenz und der Realita?t
    • Anwendung dieser Erkenntnisse bei der Pflege von Wikidata
    • Unterstu?tzung einer breiten semantischen Interoperabilita?t zwischen bekannten Ontologien

Ingenieurwissenschaften

  • ACM (Quelle):
    • Polyhierarchische Ontologie fu?r die Verwendung in semantischen Webanwendungen?
    • Semantisches Vokabular als einzige Quelle von Kategorien & Konzepten, die den Stand der Technik in der Informatik widerspiegeln

Lebenswissenschaften

  • Human Phenotype Ontology (HPO) (Quelle):
    • Bietet ein standardisiertes Vokabular fu?r pha?notypische Anomalien, die bei menschlichen Krankheiten auftreten
  • Animal Trait Ontology (ATO) (Quelle):
    • Standardisierte Merkmalsontologie fu?r Nutztiere
  • Systematized Nomenclature of Medicine-Clinical Terms (SNOMED CT) (Quelle):
    • Medizinische Terminologie, zur Standardisierung von Speicherung, Abruf & Austausch von elektronischen Gesundheitsdaten

Naturwissenschaften

  • Algorithm Knowledge Graph Ontology (AlgoData) (Quelle):
    • Definiert, welche Arten von Objekten im Algorithmus-Wissensgraphen zula?ssig sind & mit welchen Eigenschaften sie in Beziehung stehen ko?nnen
    • Definition von fu?nf Klassen, ?Problem“, ?Algorithmus“, ?Benchmark“, ?Software“, ?Publikation“, sowie eine minimale, aber intuitiv versta?ndliche Anzahl von Eigenschaften
    • Verla?sst sich auf die strikte Einhaltung der Ontologie, um eine zuverla?ssige, maschinenlesbare Datenbank fu?r (numerisches) Algorithmenwissen bereitzustellen
  • Chemical Methods Ontology (CHMO) (Quelle):
    • Beschreibt Methoden, die zur Datenerfassung in chemischen Experimenten verwendet werden
    • Beschreibt auch die bei diesen Experimenten verwendeten Instrumente?
  • Mondo Disease Ontology (Mondo) (Quelle):
    • Zielt darauf ab, Krankheitsdefinitionen weltweit zu harmonisieren

Herausforderungen

Es wurden etliche Herausforderungen genannt. Hier eine Zusammenfassung der Relevantesten:

Kulturelle Transformation und Akzeptanz

Herausforderungen:

  • Fehlende gemeinsame Einsch?tzung der Vorteile gemeinsamer Standards und des gemeinsamen Vorgehens
  • Standards müssten besser angenommen werden
  • Ein Umdenken müsste stattfinden
  • Widerst?nde gegen die FAIR-Principles

Bew?ltigungsideen:

  • Vorteile von Forschungsdatenmanagement darlegen, um Wissen zu gewinnen
  • Workshops über Requirements für FAIRes Datenmanagement
  • Mehr Wertsch?tzung für das Engagement der Forschenden, die Forschungsdatenmanagement betreiben und dadurch mehr Bereitschaft erzeugen, Zeit in gutes Forschungsdatenmanagement zu stecken

Technische Herausforderungen

Herausforderungen:

  • Umgebungsabh?ngigkeiten und Versionsabh?ngigkeiten bei bereitgestellter Software?
  • Architekturabh?ngige Container beeinflussen Performance negativ
  • Fehlende Datenqualit?t
  • Gro?e Anzahl heterogener Dateitypen
  • Bestehende Datensilos
  • Schwer verst?ndlicher Quellcode

Bew?ltigungsideen:

  • Bestehende Datensilos mit Hilfe von Schnittstellen und Verfahren zum Mappen zusammenführen
  • Quellcode verst?ndlich machen, um ihn in weitere?Projekte?übernehmen, integrieren, erweitern und ver?ndern zu k?nnen
  • Bereits in Nicht-Informatik-Ausbildungen Softwareengineering integrieren
  • M?glicherweise Erstellung von Code durch künstliche Intelligenz

Organisatorische Herausforderungen

Herausforderungen:?

  • Sp?rliche Mittel richtig einsetzen
  • Abw?gen zwischen flacher Erschlie?ung mehrerer Datens?tze oder einer vollumf?nglichen Datendokumentation
  • Evaluation existierender Werkzeuge und deren spezifischer?Einsatz in spezifischen Umgebungen
  • Zersplitterte Disziplinen
  • Nationale Standards führen bei internationer Zusammenarbeit zu Problemen, wenn diese Standards in den anderen L?ndern nicht existieren

Bew?ltigungsideen:

  • Mehrarbeit honorieren
  • Standards über einen Aushandlungsprozess festlegen und auf ein h?heres Abstraktionsniveau bringen
  • Miteinbeziehen von europ?ischen bzw. internationalen Perspektiven, um international zu funktionieren

Rechtliche Herausforderungen

Herausforderungen:

  • Gesetzgebung macht es schwierig, auf Gesundheitsdaten anderer Standorte zuzugreifen, da zu gro?es Missbrauchspotential
  • Gesetzliche Hürden?wie Genehmigungen?verz?gern Prozess des Zugriffs auf sensible Daten
  • Datenschutz

Bew?ltigungsideen:

  • Aktuelle Disskusion, ob automatischer Zugriff auf Daten ohne explizite Einwilligung des Patienten erm?glicht werden soll
  • St?rkere Festlegung von Richtlinien


Begriffe & Definitionen

Nachfolgend eine Zusammenfassung der für die Arbeit wichtigsten Begriffe. Die vollst?ndigen Definitionen k?nnen nachgelesen werden auf Quelle:


Forschungsdaten

Alle Daten, auch digitale, die w?hrend wissenschaftlicher T?tigkeit entstehen, werden als Forschungsdaten bezeichnet. Wissenschaftliche T?tigkeiten umfassen unter anderem Messungen, Befragungen und Quellenarbeit. bwin娱乐_bwin娱乐官网欢迎您@e Daten bilden die Basis für wissenschaftliche Arbeiten und dokumentieren die erzielten Ergebnisse. Das Verst?ndnis von Forschungsdaten ist immer disziplin- und projektspezifisch. Daraus resultieren diverse Anforderungen an die Datenaufbereitung, -verarbeitung und -verwaltung. All diese Themen sind Teil des Forschungsdatenmanagements.


Metadaten

Metadaten enthalten Informationen über andere Daten bzw. Ressourcen und deren Merkmale. Sie werden entweder unabh?ngig oder zusammen mit den Daten, die sie n?her beschreiben, gespeichert. Da eine Unterscheidung zwischen Daten und Metadaten auf Grund ihres Einsatzes in unterschiedlichen Kontexten schwer f?llt, ist eine genaue Definition des Begriffs Metadaten schwierig.


Forschungsdatenmanagement

Das Forschungsdatenmanagement ist der Prozess der Transformation, Selektion und Speicherung von Forschungsdaten. Ziel ist es, einen langfristigen und vom Datenerzeuger unabh?ngigen Zugang zu schaffen und eine Nachnutzung sowie ?berprüfbarkeit dieser Daten zu erm?glichen. Um die Erhaltung der wissenschaftlichen Aussagekraft von Forschungsdaten und die Erreichung der Ziele zu gew?hrleisten, sollten strukturierte Ma?nahmen im Datenlebenszyklus ergriffen werden.


Datenlebenszyklus

Der Datenlebenszyklus ist ein Modell, das alle Stationen veranschaulicht,?die von den Daten durchlaufen werden. Der Datenlebenszyklus startet mit der Erhebung der Daten und erstreckt sich bis zur Nachnutzung der Daten. Die Phasen k?nnen variieren, jedoch umfassen sie im Allgemeinen die folgenden Schritte:

  1. Planung des Forschungsvorhabens

  2. Datenerhebung

  3. Datenaufbereitung und -analyse,

  4. Daten teilen und publizieren,

  5. Datenarchivierung und

  6. Nachnutzung der Daten.

In der ersten Phase spielt zudem die Erstellung des Datenmanagementplans eine wichtige Rolle.


Definition Forschungsdatenmanagement basierend auf Ergebnissen der Interviewstudie

Quelle: Natalie Franz: Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement, Bachelorarbeit, Universit?t Regensburg, 2024


Forschungsdatenmangement an der Universit?t Regensburg

Die Universit?t Regensburg engagiert sich zum Thema Forschungsdatenmanagement in folgenden Bereichen:


Weitere Leitlinien, denen sich die Universit?t Regensburg verpflichtet fühlt:


Initiativen

National

Es wurden nicht nur in Deutschland nationale Organisationen gegründet, die sich mit dem Thema Forschungsdatenmanagement auseinandersetzen. Weitere Beispiele für nationale Organisationen sind:

International

Beispiele für international agierende Initiativen:


Forschungsdatenmanagementinitiativen basierend auf Ergebnissen der Interviewstudie

Quelle: Natalie Franz: Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement, Bachelorarbeit, Universit?t Regensburg, 2024



  1. Fakult?t für Informatik und Data Science

Bachelorarbeit

Natalie Franz


E-Mail: natalie-sarah.franz@stud.uni-regensburg.de