Mastering Big Data in Science – großskaliges Datenmanagement für die Wissenschaft

SCC weiht neuartige Anlage für die Speicherung und Analyse wissenschaftlicher Daten mit zweitägigem Kolloquium ein

Eine Gruppe von Kolloquiumsteilnehmern am KIT-Campus Nord (Foto: Rolf Mayer) Daten gewinnen in der Wissenschaft und für die Allgemeinheit eine immer größere Bedeutung. Durch Experimente, Beobachtungen, Instrumentierungen und Messungen werden Tag für Tag rund um die Uhr gewaltige Datenmengen produziert. Um diese Daten zu analysieren und daraus neue wissenschaftliche Erkenntnisse zu extrahieren, sind Services mit entsprechender Infrastruktur erforderlich, die eine Verarbeitung und Auswertung solcher Daten ermöglichen. Das Steinbuch Centre for Computing (SCC) hat mit der Large Scale Data Facility (LSDF) ein neuartiges Konzept für die Speicherung, Verwaltung, Archivierung und Analyse von wissenschaftlichen Daten entwickelt und in Betrieb genommen.

Anlässlich der Einweihung der LSDF fand Anfang Februar am KIT ein zweitägiges Kolloquium mit hochkarätigen Vorträgen statt. Professor Wilfried Juling, Mitglied des erweiterten Präsidiums und Chief Science und Information Officer (CSO/CIO) des KIT, betonte in seiner Begrüßung der rund 100 Teilnehmer, dass es bei LSDF keineswegs nur um reine Datenspeicherung gehe, sondern um adäquate Infrastrukturen und Services zur Unterstützung des kompletten Data Life Cycle – von der Generierung der Rohdaten über erste Analysen und Zwischenspeicherung bis hin zur Langzeitarchivierung. Datenintensive Anwendungen beispielsweise würden schon bald Infrastrukturen erfordern, die über eine Peta-Skalierung weit hinausgingen. Innovative Lösungen beim Management großskaliger Daten seien daher von hoher wissenschaftlicher Relevanz.

Die LSDF-Infrastruktur des SCC umfasst die Bereitstellung von Speicher- und Rechenressourcen und liefert auch neue Forschungsaspekte. Im Fokus stehen dabei neben der engen Benutzerunterstützung, der Analyse der Daten und der Bereitstellung verlässlicher Services Forschungsthemen wie der schnelle und sichere Zugriff auf Speicher und Rechner, automatisierte Workflows zur Verschiebung der Daten in unterschiedliche Stufen einer Speicherhierarchie, die Langzeitarchivierung sowie die Entwicklung von Daten-Schnittstellen zur LSDF und deren tiefe Integration in den wissenschaftlichen Alltag bei Benutzern.

Professor Achim Streit, Direktor am SCC, ging in seinem Vortrag insbesondere auf die Hintergründe zur Realisierung der LSDF ein. Es existiere ein großes Spektrum an Wissenschaftsbereichen und Anwendergruppen, für die die effiziente und sichere Speicherung und Verwaltung großer Datenmengen, ihre semantische Auswertung und Langzeitarchivierung einen enormen technologischen Fortschritt bedeute, der zu neuem Erkenntnisgewinn führen werde. Zwar gebe es in Deutschland schon große Datenspeicher, diese dienten aber entweder dazu, die I/O-Daten von Simulationen für kurze Zeit zu speichern, oder seien themenspezifisch ausgerichtet und nicht für breite Wissenschaftsbereiche konzipiert. Im Gegensatz dazu stehe die LSDF am SCC allen Wissenschaftsdisziplinen zur Verfügung.

Das LSDF-Projekt, an dem auch das Rechenzentrum und das Institut BIOQUANT der Universität Heidelberg beteiligt sind, hat von der Firma IBM einen „Shared University Research Grant“ in Höhe von 75.000 US-Dollar erhalten, der symbolisch von Dieter Münk, Vice President IBM STG Storage, im Rahmen der Veranstaltung überreicht wurde. Dabei erklärte Münk, IBM sei sehr froh über die Partnerschaft in diesem Projekt, da das LSDF-Konzept großes Potenzial habe und völlig neue Möglichkeiten im Bereich der Datenspeicherung eröffne.

Im Anschluss startete der fachspezifische Teil des Kolloquiums. Das Spektrum der Beiträge reichte von der Simulation digitaler Embryos über Aspekte der Langzeitarchivierung bis hin zu Softwareentwicklungen für das LSDF-Datenmanagement. Wesentliche Erkenntnisse dabei waren, dass in Zukunft das Daten-Management den größten Kostenfaktor darstellt und nicht mehr die Speicher-Hardware an sich. Daher sind Methoden zur Datenreduktion – schon an der Datenquelle – notwendig; gleichzeitig stellen die Daten jedoch ein sehr wertvolles Gut dar.

Ein Beispiel aus der Linguistik zeigte, dass die Gewinnung eines Terabyte an Daten rund 1,5 Millionen Euro kostet. Daher ist der Langzeitarchivierung – physikalisch, logisch-technisch wie auch intellektuell – ein besonderes Augenmerk zu widmen. Gleichfalls müssen Technologien zur Repräsentation der Daten (grafisch, in Form von Wikis für den freien Zugriff über das World Wide Web, usw.) mindestens einen Technologiesprung durchlaufen, um fit für großskalige Datenmengen zu sein.

Insgesamt bestätigten die Vorträge, dass die Zielsetzung der LSDF die Anforderungen der breiten Wissenschaft nach Speicherung und Management großskaliger Datenmengen, Datenauswertung mittels Data Intensive Computing (DIC), Langzeitspeicherung sowie einer engen Benutzerunterstützung erfüllt. Die LSDF ist damit ein wichtiger Baustein für den zukünftigen Erkenntnisgewinn aus wissenschaftlichen Daten.

Foto: Eine Gruppe von Kolloquiumsteilnehmern am KIT-Campus Nord (Fotograf: Rolf Mayer)

Ursula Scheller, 3.2.2011