Fachspezifische Datenkompetenzen

Datenorganisation in Tabellen – Tidy Data für Bibliotheks- und Informationswissenschaftler:innen

Akkordeon öffnen/schließen

Daten in Tabellenformaten sind weit verbreitet. Oft werden diese so eingegeben und formatiert, dass sie für das menschliche Auge einfach zu lesen sind. Um mit tabellarischen Daten jedoch einfache und korrekte Analysen und Visualisierungen durchzuführen oder sie mittels Programmiersprachen wie R oder Python weiterzuverarbeiten, sollte der Datensatz vorher bereinigt und nach den Prinzipien von Tidy Data organisiert werden.

Konkret werden folgende Themen behandelt und anhand von Beispieldaten aus den Bibliotheks- und Informationswissenschaften geübt:

Best Practices für die Dateneingabe und -formatierung
Vermeidung gängiger Formatierungsfehler
Umgang mit Datumsangaben in Spreadsheets
Grundlagen der Qualitätskontrolle und Datenmanipulation in Tabellen
Datenexport aus Tabellen
Abgleich mit externen Quellen, z.B. Normdateien

Der Workshop orientiert sich an den Curricula von The Carpentries.

Trainer:innen: Claudia Engelhardt (TU Dresden/Center for Interdisciplinary Digital Sciences)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Datenorganisation in Tabellen – Tidy Data für Ökolog:innen

Akkordeon öffnen/schließen

Daten in Tabellenformaten sind weit verbreitet. Oft werden diese so eingegeben und formatiert, dass sie für das menschliche Auge einfach zu lesen sind. Um mit tabellarischen Daten jedoch einfache und korrekte Analysen und Visualisierungen durchzuführen oder sie mittels Programmiersprachen wie R oder Python weiterzuverarbeiten, sollte der Datensatz vorher bereinigt und nach den Prinzipien von Tidy Data organisiert werden.

Konkret werden folgende Themen behandelt und anhand von Beispieldaten aus der Ökologie geübt:

Best Practices für die Dateneingabe und -formatierung
Vermeidung gängiger Formatierungsfehler
Umgang mit Datumsangaben in Spreadsheets
Grundlagen der Qualitätskontrolle und Datenmanipulation in Tabellen
Datenexport aus Tabellen

Der Workshop orientiert sich an den Curricula von The Carpentries.

Trainer:innen: Claudia Engelhardt (TU Dresden/Center for Interdisciplinary Digital Sciences)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Datenorganisation in Tabellen - Tidy Data für Sozialwissenschaftler:innen

Akkordeon öffnen/schließen

Daten in Tabellenformaten sind weit verbreitet. Oft werden diese so eingegeben und formatiert, dass sie für das menschliche Auge einfach zu lesen sind. Um mit tabellarischen Daten jedoch einfache und korrekte Analysen und Visualisierungen durchzuführen oder sie mittels Programmiersprachen wie R oder Python weiterzuverarbeiten, sollte der Datensatz vorher bereinigt und nach den Prinzipien von Tidy Data organisiert werden.

Konkret werden folgende Themen behandelt und anhand von Beispieldaten aus den Sozialwissenschaften geübt:

Best Practices für die Dateneingabe und -formatierung
Vermeidung gängiger Formatierungsfehler
Umgang mit Datumsangaben in Spreadsheets
Grundlagen der Qualitätskontrolle und Datenmanipulation in Tabellen
Datenexport aus Tabellen

Der Workshop orientiert sich an den Curricula von The Carpentries.

Trainer:innen: Claudia Engelhardt (TU Dresden/Center for Interdisciplinary Digital Sciences)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Datenaufbereitung mit OpenRefine für Bibliotheks- und Informationswissenschaftler:innen

Akkordeon öffnen/schließen

Die Datenaufbereitung ist ein wichtiger Schritt zur Vorbereitung der Datenanalyse. OpenRefine ist ein Open Source-Tool zur Datenbereinigung und -transformation.

Es bietet Funktionen wie Facettierung und Clustering, die helfen, Fehler im Datensatz zu finden und zu korrigieren. OpenRefine ist eine Java-Anwendung, die lokal im Browser läuft; die Daten verlassen den eigenen Rechner also nicht. Der halb- bis ganztägige hands-on Workshop orientiert sich an den OpenRefine-Curricula von The Carpentries. Er behandelt anhand von Beispieldaten aus den Bibliotheks- und Informationswissenschaften folgende Themenbereiche:

ein Projekt in OpenRefine anlegen, exportieren und importieren
Facetten und Textfilter nutzen, um ausgewählte Bereiche des Datensatzes zu betrachten und zu bearbeiten
Variationen mit Hilfe von Clustering, Bulk Editing und Transformationen reduzieren
Aktionen rückgängig machen und wiederherstellen
den Verlauf exportieren und auf ähnliche Projekte anwenden

Trainer:innen: Claudia Engelhardt (TU Dresden/Center for Interdisciplinary Digital Sciences)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Datenaufbereitung mit OpenRefine für Ökolog:innen

Akkordeon öffnen/schließen

Die Datenaufbereitung ist ein wichtiger Schritt zur Vorbereitung der Datenanalyse. OpenRefine ist ein Open Source-Tool zur Datenbereinigung und -transformation.

Es bietet Funktionen wie Facettierung und Clustering, die helfen, Fehler im Datensatz zu finden und zu korrigieren. OpenRefine ist eine Java-Anwendung, die lokal im Browser läuft; die Daten verlassen den eigenen Rechner also nicht. Der halb- bis ganztägige hands-on Workshop orientiert sich an den OpenRefine-Curricula von The Carpentries. Er behandelt anhand von Beispieldaten aus der Ökologie folgende Themenbereiche:

ein Projekt in OpenRefine anlegen, exportieren und importieren
Facetten und Textfilter nutzen, um ausgewählte Bereiche des Datensatzes zu betrachten und zu bearbeiten
Variationen mit Hilfe von Clustering, Bulk Editing und Transformationen reduzieren
Aktionen rückgängig machen und wiederherstellen
den Verlauf exportieren und auf ähnliche Projekte anwenden

Trainer:innen: Claudia Engelhardt (TU Dresden/Center for Interdisciplinary Digital Sciences)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Datenaufbereitung mit OpenRefine für Sozialwissenschaftler:innen

Akkordeon öffnen/schließen

Die Datenaufbereitung ist ein wichtiger Schritt zur Vorbereitung der Datenanalyse. OpenRefine ist ein Open Source-Tool zur Datenbereinigung und -transformation.

Es bietet Funktionen wie Facettierung und Clustering, die helfen, Fehler im Datensatz zu finden und zu korrigieren. OpenRefine ist eine Java-Anwendung, die lokal im Browser läuft; die Daten verlassen den eigenen Rechner also nicht. Der halb- bis ganztägige hands-on Workshop orientiert sich an den OpenRefine-Curricula von The Carpentries. Er behandelt anhand von Beispieldaten aus den Sozialwissenschaften folgende Themenbereiche:

ein Projekt in OpenRefine anlegen, exportieren und importieren
Facetten und Textfilter nutzen, um ausgewählte Bereiche des Datensatzes zu betrachten und zu bearbeiten
Variationen mit Hilfe von Clustering, Bulk Editing und Transformationen reduzieren
Aktionen rückgängig machen und wiederherstellen
den Verlauf exportieren und auf ähnliche Projekte anwenden

Trainer:innen: Claudia Engelhardt (TU Dresden/Center for Interdisciplinary Digital Sciences)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Forschungsdatenmanagement in der Linguistik

Akkordeon öffnen/schließen

Dieser Workshop führt praxisnah in FDM für die Linguistik ein.

Der Workshop vermittelt eine praxisnahe Einführung in FDM für die Linguistik. Eingangs werden zentrale Grundlagen des FDM reaktiviert – darunter der Datenlebenszyklus, die FAIR-Prinzipien sowie die CARE-Prinzipien.

Darauf aufbauend werden die Besonderheiten linguistischer Forschungsdaten thematisiert:

die Vielfalt an Datentypen, wie z.B. Audio- und Videoaufnahmen, Transkripte, Annotationen, glossierte Beispiele und Korpora
unterschiedliche Arbeitsweisen: Arbeit mit Sekundärdaten, Korpus- und experimentelle Linguistik, NLP und Feldforschung
typische Herausforderungen: der Umgang mit personenbezogenen Daten, ethische Fragen in der Arbeit mit indigenen Sprach-Communities, komplexe Datenabhängigkeiten und fehlende Standardisierung bzw. Dokumentation.

Wir stellen sowohl allgemeine FDM-Tools (z.B. zu Dokumentation, Versionierung und Ablage) als auch etablierte fachspezifische Werkzeuge (z.B. ELAN, CLARIN) und Infrastrukturen (Text+).

Dabei machen wir klar: Viele FDM-Praktiken sind ohnehin Teil normaler linguistischer Arbeit – etwa die Erhebung von Metadaten oder die Nutzung von Annotationsrichtlinien.

So begreifen die Teilnehmenden FDM nicht als Zusatzaufgabe, sondern als integralen Bestandteil guter wissenschaftlicher Praxis.

Trainer:innen: Mike Berger (Generativer Linguist, ScaDS.AI Leipzig), Kay-Michael Würzner (Computerlinguist & Fachreferent für Informatik, SLUB Dresden)
Format: Workshop (Präsenz, online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch

Arbeiten mit Textdaten - Einführung in TEI

Akkordeon öffnen/schließen

Dieser Workshop bietet eine praxisnahe Einführung in die Grundlagen der Text Encoding Initiative (TEI).

TEI ist eine spezialisierte Auszeichnungssprache zur strukturierten und semantischen Beschreibung von Texten. Im Fokus stehen die besonderen Möglichkeiten von TEI, komplexe Überlieferungssituationen, editorische Eingriffe und textuelle Strukturen präzise abzubilden und damit schriftliche Quellen für Analyse, Austausch und langfristige Nachnutzung zugänglich zu machen. Anhand praxisnaher Beispiele lernen die Teilnehmenden zentrale Elemente und Prinzipien kennen und wenden diese direkt an.

Die Inhalte des Workshops sind im Detail:

Grundlagen von XML und TEI
Strukturierung und Annotation von Texten
Abbildung editorischer Eingriffe
Verweise auf die Gemeinsame Normdatei (GND)
Praktische Kodierungsübungen

Der Workshop vermittelt Lernenden ein Verständnis zentraler TEI-Konzepte und befähigt sie, einfache Texte eigenständig auszuzeichnen sowie die Einsatzmöglichkeiten von TEI in den Altertumswissenschaften einschätzen zu können.

Trainerin: Alexandra Krug (Wissensmanagerin in Come2Data, ZIH der TU Dresden)
Zielgruppen: Studierende (M.A.), Forschende
Format: Workshop (Präsenz, Online)
Sprachen: Deutsch, Englisch
Anzahl Teilnehmende: 12

Arbeiten mit genuin digitalen Quellen und die historisch-kritische Methode

Akkordeon öffnen/schließen

Die spurlose Veränderbarkeit und Möglichkeit zur perfekten Duplizierung stellen Forschende bei der Analyse genuin digitaler Quellen vor besondere Herausforderungen. Dieser Workshop vermittelt, wie genuin digitale Quellen kritisch analysiert und im Sinne der historisch-kritischen Methode bewertet werden können. Die damit verbundenen Herausforderungen werden anhand der Wikipedistik diskutiert und praxisnahe Lösungsansätze erprobt. Die Teilnehmenden lernen die Besonderheiten digitaler Datenverarbeitung im Kontrast zu materiellen Beschreibstoffen kennen und erproben praktische Strategien für eine reflektierte Quellenarbeit.

Die Inhalte des Workshops sind im Detail:

Charakteristika genuin digitaler und retrodigitalisierter Quellen
Analyse von Entstehungsbedingungen und digitalen Transformationsprozessen
Historisch-kritische Methoden auf digitale Kontexte übertragen

Der Workshpp vermittelt Lernenden ein Verständnis für die Besonderheiten genuin digitaler Quellen und befähigt sie das Konzepts der historisch-kritischen Methode auf genuin digitale Daten anzuwenden und praxisnahe Strategien zu entwickeln.

Trainerin: Alexandra Krug (Wissensmanagerin in Come2Data, ZIH der TU Dresden)
Zielgruppen: Studierende (M.A.), Forschende
Format: Workshop (Präsenz, Online)
Sprachen: Deutsch, Englisch
Anzahl Teilnehmende: 12

Analyse medizinischer Daten mit Python und Machine Learning

Akkordeon öffnen/schließen

Dieser Workshop vermittelt praxisnah die Grundlagen von Python und des maschinellen Lernens im Kontext medizinischer Daten.

Die Teilnehmenden erhalten zunächst eine Einführung in die grundlegenden Konzepte der Programmierung mit Python, darunter Datentypen, Kontrollstrukturen und den Umgang mit Bibliotheken wie NumPy und pandas zur Verarbeitung strukturierter Daten. Anschließend werden zentrale Schritte der Datenanalyse behandelt, wie Datenbereinigung, Exploration und Visualisierung. Darauf aufbauend erfolgt ein Einstieg in grundlegende Methoden des maschinellen Lernens, einschließlich einfacher Klassifikations- und Regressionsverfahren sowie der Evaluation von Modellen. Ein besonderer Fokus liegt auf der Anwendung dieser Methoden auf medizinische Fragestellungen, etwa im Umgang mit klinischen Routinedaten. Der Workshop kombiniert theoretische Grundlagen mit praktischen Übungen in Python. Er richtet sich an Einsteigerinnen und Einsteiger ohne oder mit geringen Vorkenntnissen, die Python und Machine Learning für medizinische Daten anwenden möchten.

Trainerin: Marie Gerwek (Medical Data Science, IMISE Leipzig)
Format: Workshop (Präsenz, Online)
Zielgruppen: Studierende (B.A., M.A.), Forschende
Sprachen: Deutsch, Englisch
Anzahl Teilnehmende: 20
Sonstiges: Python-Kenntnisse oder sonstige Programmiererfahrung sind von Vorteil.