Time Series Database: An example-based approach

"Daten sind das neue Öl." Dieses Zitat von der EU-Politikerin Meglena Kuneva von 2009 ist in seiner Aussagekraft nicht in die Jahre gekommen. Daten zu haben ist die eine Sache. Sie zu verstehen und Schlüsse aus ihnen zu ziehen eine ganz andere. Während lange Zeit relationale Datenbanken das Nonplusultra waren, gibt es heute weit mehr Varietät in den Möglichkeiten der Lagerung und Verarbeitung von Daten. Im Folgenden interessiert uns das Konzept von Time Series Data und Time Series Databases, also Datenbanken, die auf Zeitreihendaten optimiert sind.

Was ist Time Series Data?

Zeitreihendaten entstehen bei Beobachtung eines Subjektes über viele aufeinanderfolgende Zeitpunkte oder Zeitintervalle. Ein Datenset besteht in der Regel aus einem Zeitstempel und den entsprechenden Daten, die unterschiedlicher Natur sein können (numerische Messwerte, User-Eingaben, …). Die Quelle dieser Daten ist zum Beispiel eine Sensorüberwachung. Stellen wir uns beispielsweise eine Fischzuchtanlage vor, wie sie die SEAWATER Cubes GmbH entwickelt und herstellt. Eine Fischzuchtanlage besteht neben ihren Becken und Fischen aus zahlreichen Sensoren. Die innovative Überwachung der Zuchtbecken durch diese Sensoren füttert eine Zeitreihendatenbank. Über diese Datenbank können die aktuellen und vergangenen Werte der Anlagen wie Temperatur, ph-Wert und Sauerstoffsättigung uvm. eingesehen werden. Nachdem die Daten in eine Anwendung überführt wurden, ist es möglich, die Anlagen 24/7 zu überwachen und bei Abweichungen gegebenenfalls einzugreifen. Nun interessiert uns aber weniger, dass sich die Wassertemperatur am 02.01.2021 um 04:55 Uhr um 0,3 Grad Celsius verringert hat, als vielmehr die Temperaturkurve über den letzten Winter. Aus dieser können wir beispielsweise einen erhöhten Strombedarf herleiten.

Wie funktionieren Time Series Databases?

Zeitreihendatenbanken sind im Wesentlichen Datenbanken, die auf die Verwaltung und Verarbeitung von Zeitreihendaten optimiert sind. D. h., sie sind in ihrem Aufbau besser auf die Charakteristika von Time Series Data ausgelegt, als die relationalen Datenbanken. Zeitreihendaten werden in der Regel nach ihrem Zeitstempel sortiert. Dies muss sehr schnell geschehen, da die Messpunkte mitunter im Sekundentakt eintrudeln. Dies impliziert weiterhin, dass eine große Anzahl von Datenquellen (z. B. zahlreiche Sensoren) parallel verarbeitet werden können, ohne dass ein größerer Zeitverzug entsteht. Zuletzt muss auch auf den Typ der eingehenden Daten geachtet werden: Es ist nötig, dass eine Time Series Database auch verschiedene Datentypen akzeptiert.

Unterm Strich muss eine solche Datenbank also mit sehr vielen zeitlich eng aufeinanderfolgenden, heterogenen Daten aus unterschiedlichen Quellen gleichzeitig umgehen können. Was sie im Vergleich zu einer relationalen Datenbank nicht im gleichen Umfang können muss, sind bspw. Aktualisierungen von Datensätzen, da dies nur selten nötig ist. Ist die Datenbank gefüllt, kommen die eigentlichen Fähigkeiten der Anwendungen zum Tragen. Funktionen mit denen Daten zusammengefasst, dargestellt und ausgewertet werden können, zeigen die Funktionalität der Anwendungen. Zur Veranschaulichung bemühen wir wieder das Beispiel von SEAWATER Cubes.

Im obigen Bild ist eine solche Auswertung zu erkennen. Die drei Graphen zeigen den Zusammenhang zwischen Außen-, Innen- und Wassertemperatur im Jahresverlauf. Diese Art der Darstellung ist wesentlich übersichtlicher, als Daten in einer Tabelle. Produkte aus dem Bereich der Time Series Databases, wie zum Beispiel InfluxDB, können außerdem Mittelwerte, Varianzen und statistisch signifikante Größen ohne viel Aufwand ausgeben. Dieser Output kann genutzt werden, um saisonale Muster zu erkennen und entsprechend zu planen und zu optimieren. Werden diese Datenbanken in eine Cloud-Anwendung eingebaut, ist es sogar möglich, online und ohne vor Ort zu sein den Zustand der Anlage im Blick zu behalten.

Fazit

Das Anwendungsgebiet von Time Series Databases beschränkt sich selbstverständlich nicht auf Fischzuchtanlagen. Vielmehr bietet es die Möglichkeit von Übersichten und Optimierungen überall da, wo Daten über viele Zeitintervalle erhoben werden. Fabrikanlagen, Stromerzeugung, Agrarwirtschaft: wenn Sensorüberwachung integriert ist, können die Daten leicht übernommen und direkt weiterverarbeitet werden.

Interessieren Sie sich für eine maßgeschneiderte Anwendung für Ihr Unternehmen? Nehmen Sie gerne Kontakt zu uns auf unter info@meta-level.de!