Ringvorlesung: Datenqualität

13. November 2019

Den fünften Teil der Vortragsreihe bildet ein Vortrag zur Datenqualität. Vortragender ist Herr Lenz vom Lehrstuhl für Informatik 6 (Datenmanagement).

Datenqualitätsprobleme verursachen weltweit jährlich immense Kosten. Die Sicherung der Datenqualität wird dabei zunehmend schwieriger, da Zahl und Umfang der verfügbaren Datenquellen steigt und immer mehr Datenquellen miteinander verknüpft werden, die Heterogenität der Daten zunimmt und das Vertrauen in unbekannte Datenquellen sinkt. Forschungsdaten bilden hier keine Ausnahme. Was ist also eigentliche „Datenqualität“, wie kann man Datenqualität messen, und wie kann man Datenqualität systematisch verbessern? Dieser Vortrag versucht einen Einstieg in diese sehr vielschichtige und komplexe Thematik zu vermitteln.

Vielschichtig ist die Problematik allein schon deswegen weil Datenqualität – oder wie sie oft definiert wird: „Fitness for use“ – meist abhängig ist vom Verwendungszweck der Daten. Wenn der Zweck bekannt ist kann die Datenqualität gezielt bei der Datenerfassung für den beabsichtigten Zweck optimiert werden. Was aber wenn der Zweck nicht bekannt ist oder Daten für einen bestimmten Zweck erhoben wurden und dann für einen anderen Zweck wiederverwendet werden sollen, wie z.B. bei der Wiederverwendung von medizinischen Routinedaten für die Forschung? Welche verschiedenen Qualitätsmerkmale („Dimensionen der Datenqualität“) spielen hier bei der Beurteilung der Datenqualität eine Rolle? – Es sind viele, es sind sehr unterschiedliche, es sind sehr spezifische, und sie sind oft schwer zu messen. Für die Verbesserung der Datenqualität gibt es aber immerhin ein paar etablierte Methoden und es gibt Werkzeuge, die zumindest bei den häufigsten Problemen (wie z.B. der Eliminierung von Duplikaten) helfen können.