Es vergeht kaum eine Woche, ohne dass von Rechenzentren die Rede ist. Selbst die breite Öffentlichkeit weiß mittlerweile, dass Rechenzentren den Grundstein der globalen digitalen Wirtschaft bilden. Die Abwicklung von Finanztransaktionen, das Hosting von Datenbanken, die Verwaltung von Videostreams oder der Betrieb von KI-Systemen – all diese Prozesse beruhen auf einer grundlegenden Voraussetzung, die meist im Verborgenen bleibt: der präzisen Kontrolle der Zeit.
Die geringste zeitliche Abweichung zwischen nur einigen der Tausenden von Servern in einem Rechenzentrum kann zu Dateninkonsistenzen führen, Sicherheitslücken schaffen oder Verstöße gegen Vorschriften verursachen. Welche Herausforderungen, technischen Hürden und Lösungsansätze sind bei der Implementierung einer robusten Zeitsynchronisation in Rechenzentrumsumgebungen zu berücksichtigen? Genau darauf möchten wir an dieser Stelle eingehen.
Was macht die Zeitsynchronisation in einem Rechenzentrum zu solch einem kritischen Faktor?
Moderne Anwendungen stützen sich auf verteilte Datenbanken, deren Knoten über mehrere geografische Standorte hinweg aufgeteilt sind. Um die Konsistenz von Transaktionen zu gewährleisten, nutzen diese Systeme präzise Zeitstempel, mit denen sich Ereignisse chronologisch ordnen lassen. Google hat beispielsweise ein System entwickelt, das Atomuhren und GPS-Empfänger in jedem seiner Rechenzentren kombiniert, um eine Zeitunsicherheit von weniger als 7 ms zu gewährleisten. Mit seinem Dienst Amazon Time Sync hat Amazon einen ähnlichen Ansatz gewählt, der eine Mikrosekunden-Präzision für seine verteilten Datenbanken bietet.
Ein weiterer wichtiger Aspekt ist die Einhaltung gesetzlicher Vorschriften. Im Finanzsektor wird die Bedeutung präziser Zeitsynchronisation unter anderem durch regulatorische Vorgaben deutlich. In Europa verpflichtet die Richtlinie über Märkte für Finanzinstrumente (MiFID II) Marktteilnehmer zur genauen Zeitführung ihrer Handelssysteme. Der zugehörige technische Regulierungsstandard RTS 25 schreibt vor, dass die Uhren von Handelssystemen mit der koordinierten Weltzeit (UTC) synchronisiert werden und dabei festgelegte maximale Abweichungen nicht überschreiten dürfen. Auch in den USA existieren vergleichbare Anforderungen: Die Regeln der FINRA sehen eine Synchronisation auf 50 Millisekunden genau vor. Die Rechenzentren, in denen diese Anwendungen betrieben werden, müssen daher über eine geeignete Infrastruktur zur Zeitsynchronisation verfügen.
Der technische Regulierungsstandard RTS 25 der europäischen Richtlinie MiFID II definiert unterschiedliche Genauigkeitsanforderungen, die sich nach der Art der jeweiligen Aktivität richten. Systeme für den Hochfrequenzhandel (High-Frequency Trading, HFT) müssen mit einer maximalen Abweichung von 100 Mikrosekunden zur koordinierten Weltzeit (UTC) synchronisiert sein. Für andere elektronische Handelsaktivitäten ist eine maximale Abweichung von 1 Millisekunde zulässig, während für manuelle Handelsaktivitäten eine Toleranz von bis zu 1 Sekunde vorgesehen ist. Die Vorschriften verlangen zudem, dass jeder Zeitstempel über eine dokumentierte Kette bis zur UTC rückverfolgbar ist und die Aufzeichnungen fünf Jahre lang aufbewahrt werden. Diese Anforderungen gelten für jedes in der EU tätige Wertpapierdienstleistungsunternehmen. |
Die IT-Sicherheit ist eine weitere strenge Vorgabe für ein Rechenzentrum. Die Ereignisprotokollierung bildet dabei eine tragende Säule dieser Sicherheitsarchitektur. Im Falle eines Cyberangriffs müssen Sicherheitsteams in der Lage sein, die genaue Chronologie der Ereignisse anhand der Protokolle von Hunderten verschiedener Rechner zu rekonstruieren. Wenn die Uhren nicht synchronisiert sind, ist die Zuverlässigkeit der Rekonstruktion nicht gewährleistet. Die forensische Analyse sowie die Reaktion auf Vorfälle würden dadurch erheblich erschwert.
Diese drei Aspekte sind nicht die einzigen wichtigen Punkte: Die Zeitsynchronisation spielt darüber hinaus bei Echtzeitanwendung eine wesentliche Rolle. Das gilt für Videostreaming, Hochleistungsberechnungen sowie andere Anwendungen, die Ingenieuren Kopfzerbrechen bereiten.
NTP und PTP: Zwei Protokolle für zwei Genauigkeitsstufen
Das NTP-Protokoll (Network Time Protocol) ist sozusagen das „historische“ Protokoll zur Zeitsynchronisation. Basierend auf einer hierarchischen Stratum-Architektur synchronisiert NTP die Software-Uhren von Geräten in lokalen Netzwerken (LAN) mit einer Genauigkeit im Millisekundenbereich und im Internet mit einer Genauigkeit im Bereich einiger Dutzend Millisekunden. NTP ist aufgrund seiner Einfachheit und Zuverlässigkeit die erste Wahl für zahlreiche Anwendungen.
Das PTP-Protokoll (Precision Time Protocol) erfüllt die Anforderungen von Anwendungen, bei denen eine Genauigkeit im Millisekundenbereich nicht mehr ausreicht. Im Gegensatz zu NTP, das auf rein algorithmischen Zeitstempeln basiert, überträgt PTP Zeitinformationen von spezifischer Hardware. Dadurch lassen sich variable Latenzen, die durch den Software-Stack entstehen, weitgehend eliminieren, sodass Genauigkeiten im Mikrosekundenbereich oder darunter erreicht werden können.
PTP folgt dabei einer hierarchischen Master-Slave-Architektur, in der eine als „Grandmaster“ bezeichnete Referenzuhr die Zeit an das gesamte Netzwerk verteilt. Die Wahl des Grandmasters erfolgt mithilfe des BMCA-Algorithmus (Best Master Clock Algorithm).
In der Praxis koexistieren die beiden Protokolle oft innerhalb desselben Rechenzentrums. Während PTP in Bereichen mit besonders hohen Präzisionsanforderungen, wie dem Handel, verteilten Datenbanken oder der Telekommunikation, zum Einsatz kommt, wird NTP für Systeme genutzt, bei denen eine Genauigkeit im Millisekundenbereich genügt, beispielsweise für Anwendungsserver, Arbeitsplätze und Peripheriegeräte. Ein hochwertiger Zeitserver muss in der Lage sein, beide Protokolle gleichzeitig bereitzustellen, um allen Anforderungen gerecht zu werden.
Zuverlässige Zeitsynchronisation für kritische Umgebungen
Sorgen Sie für eine präzise und einheitliche Zeitsynchronisation auf allen Ihren Geräten, ohne Abweichungen.
Die besonderen technischen Herausforderungen von Rechenzentren
Obwohl Rechenzentren heute weit verbreitet sind, stellen sie keine gewöhnlichen Betriebsumgebungen dar. Sie bringen in der Regel sehr spezifische Anforderungen an die Synchronisation mit sich.
Typischerweise durchlaufen die Synchronisationsnachrichten zahlreiche Switches und Router. An jeder dieser Netzwerkkomponenten können schwer vorhersehbare Verzögerungen auftreten. Diese Schwankungen der Paketlaufzeit, die als Packet Delay Variation (PDV) bezeichnet werden, beeinträchtigen die Präzision der Zeitsynchronisation. Je höher die Anzahl der durchquerten Switches ist, desto gravierender sind die potenziellen Auswirkungen. Die strategische Platzierung sogenannter Boundary Clocks ermöglicht eine deutliche Reduzierung dieses Effekts. Hierzu wird die PTP-Synchronisation an jedem Zwischenschritt beendet und neu gestartet, sodass Zeitstempel lokal neu erfasst und Verzögerungen einzelner Netzwerksegmente isoliert werden können.
Das Synchronisationsverfahren von PTP beruht auf der Annahme, dass die Paketlaufzeiten in Hin- und Rückrichtung identisch sind. In den komplexen Netzwerken eines Rechenzentrums können die Hin- und Rückwege jedoch unterschiedlich sein. Dadurch entsteht eine Asymmetrie, die einen Zeitfehler verursacht, den PTP nicht eigenständig berechnen kann.
Ein möglichst symmetrisches Netzwerkdesign sowie der Einsatz geeigneter Algorithmen hilft dabei, dieses Problem zu entschärfen.
Die meisten Synchronisationsalgorithmen wurden zu einer Zeit entwickelt, als IT-Infrastrukturen noch anders konzipiert und verwaltet wurden. Mittlerweile ist der Großteil der Infrastrukturen virtualisiert.
Virtuelle Maschinen (VMs) und Container verfügen nicht über eine eigene Hardware-Uhr, sondern sind von der Uhr ihres physischen Hosts abhängig. Die präzise Synchronisation des Hosts wird dadurch umso kritischer: Jede Abweichung wirkt sich auf alle von ihm beherbergten virtuellen Workloads aus. Dabei ist besondere Wachsamkeit geboten, da diese Ressourcen auch „ohne Vorwarnung“ auf andere Hosts verschoben werden können.
Ein letzter wichtiger technischer Aspekt ist die Resilienz, also die Ausfallsicherheit. Was geschieht, wenn der Zeitserver vorübergehend seine externe Referenzquelle verliert, etwa durch den Ausfall des GPS-Empfängers oder eine Netzwerktrennung? Hier kommt die Qualität des internen Oszillators des Zeitservers ins Spiel. Ein OCXO-Oszillator (quarzgesteuerter Ofenoszillator) oder ein Rubidium-Oszillator ermöglicht es, im sogenannten Holdover-Modus eine ausreichende Zeitgenauigkeit über mehrere Stunden oder sogar Tage hinweg aufrechtzuerhalten.
Sicherung der Zeitsynchronisation
Die Zeitsynchronisation zählt zu den oft unterschätzten, jedoch häufig genutzten Angriffsflächen. Die Manipulation der Systemzeit kann weitreichende und kaskadierende Folgen haben: TLS-Zertifikate können als ungültig eingestuft, Authentifizierungsmechanismen beeinträchtigt, Replay-Angriffe begünstigt sowie Zeitstempel in Protokollen verfälscht werden. Dadurch kann auch die Aussagekraft forensischer Analysen erheblich eingeschränkt werden.
Das NTP-Protokoll überträgt in seiner Standardkonfiguration Zeitinformationen in unverschlüsselten und nicht authentifizierten Paketen. Dies macht es anfällig für verschiedene Arten von Angriffen:
- Identitätstäuschung (Spoofing)
- Denial-of-Service-Angriffe (DDoS)
- Man-in-the-Middle (MITM)
Das NTS-Protokoll (Network Time Security) bietet eine Lösung für diese Schwachstellen. NTS nutzt TLS für den initialen Verbindungsaufbau und einen authentifizierten Verschlüsselungsmechanismus zum Schutz der während der Synchronisation ausgetauschten NTP-Pakete. Dadurch werden sowohl die Authentizität der Zeitquelle als auch die Integrität der übertragenen Zeitinformationen sichergestellt.
Empfohlene Architekturen: Redundanz und Resilienz
Die Verfügbarkeit einer zuverlässigen Zeitquelle ist für den Betrieb moderner IT-Infrastrukturen ebenso wichtig wie die Verfügbarkeit des Netzwerks oder der Stromversorgung. Eine robuste Synchronisationsarchitektur basiert auf mehreren Redundanzebenen:
- Es wird empfohlen, sich niemals auf eine einzige Zeitquelle zu verlassen. Ideal ist eine Kombination aus mehreren unabhängigen Quellen, wie beispielsweise GPS und einem internen Oszillator für den Holdover-Modus. Bei einem Verlust des Satellitensignals (durch Jamming/Spoofing oder Hardwareausfall) übernimmt der Oszillator dann nahtlos die Synchronisation.
- Der Zeitserver selbst sollte für Hochverfügbarkeit ausgelegt sein und über redundante Netzteile, doppelte Ethernet-Schnittstellen sowie weitere redundant ausgelegte Komponenten verfügen.
- Auf Netzwerkebene wird die IT-Redundanz durch den Einsatz mehrerer Zeitserver in unterschiedlichen Bereichen des Rechenzentrums sowie durch automatische Umschaltmechanismen gewährleistet. Bei NTP können Peering-Beziehungen zwischen Servern dazu beitragen, die Kontinuität des Zeitdienstes aufrechtzuerhalten. Bei PTP wählt der BMCA-Algorithmus (Best Master Clock Algorithm) im Falle eines Ausfalls automatisch die am besten geeignete verfügbare Grandmaster-Uhr aus.
- Schließlich muss eine vollständige Synchronisationsarchitektur ein Überwachungssystem umfassen, mit dem die tatsächliche Synchronisationsgenauigkeit an jedem Punkt des Netzwerks kontinuierlich überprüft werden kann. Diese Rückverfolgbarkeit ist in regulierten Sektoren von besonders großer Bedeutung.