Die Erreichbarkeit konnte durch lokalen Backup-Transit zwar umgehend wiederhergestellt werden, allerdings geht ein solches hartes Abreißen von BGP-Sessions immer mit etwas Konvergenzzeit einher, weshalb es 1-5 Minuten dauerte, bis sich die Situation für alle im maincubes befindlichen Server stabilisiert hatte. Die IPv6-Anbindung war einige Minuten länger betroffen.
Wartungsarbeiten
Um das zugrundeliegende Problem dauerhaft zu lösen, führen wir am 20.06.2024 im Zeitraum 1-5 Uhr Wartungsarbeiten an der Anbindung zwischen unseren Standorten durch. Planmäßig kommt es hierbei zu keinerlei Ausfällen.
Allerdings besteht bei kritischen Eingriffen immer ein Restrisiko, weshalb wir die Arbeiten hiermit sicherheitshalber ankündigen und in der Zeit mit dem geringsten Trafficaufkommen durchführen. Es kann zudem zu minimal erhöhten Latenzen kommen, da einige Upstreams und insbesondere Peerings temporär nicht zur Verfügung stehen werden.
Technischer Hintergrund
Unser Interxion-PoP ist über eigene Glasfaseranbindungen redundant (also kreuzungsfrei) mit dem maincubes verbunden und terminiert auf der maincubes-Seite auf zwei redundanten Switches des Herstellers Juniper Networks. Das heißt, es gibt theoretisch keinen Single Point of Failure – insbesondere, weil wir die Switches über die MC-LAG-Technologie miteinander verbinden, womit jedes Gerät für sich autark steuerbar bleibt. Auf Lösungen, bei denen mehrere Switches einen virtuellen Verbund bilden, der wie ein einziger Switch gesteuert werden kann (Virtual Chassis), haben wir in einem so kritischen Bereich unseres Netzwerks bewusst verzichtet, da Firmware-Bugs ein Virtual Chassis durchaus so abreißen können, dass dieses bis zu einem physischen Neustart der Geräte (Strom raus, Strom rein) nicht mehr steuerbar ist. Unsere Geräte blieben steuerbar, weshalb wir sie ganz normal neu starten und die volle Redundanz auch in sehr kurzer Zeit wiederherstellen konnten.
Trotzdem hat die Praxis damit gezeigt, dass unser Konzept nicht so perfekt funktioniert hat, wie wir uns das gewünscht hätten, und wir bitten hierfür um Entschuldigung.
Unser Anspruch an die Vernetzung unserer Standorte ist, dass diese Verbindung nie vollständig ausfallen sollte. In den letzten zehn Tagen haben wir daher viele Optionen eruiert und uns schlussendlich dazu entschieden, die schuldigen Aggregation-Switches komplett abzubauen und stattdessen eine direkte (natürlich ebenfalls redundante) Routeranbindung ohne vorgeschaltete Aggregation-Switches zu realisieren. Da uns heute die letzten benötigten Komponenten für die bevorstehende Migration der Glasfaserverbindungen erreicht haben, können wir diese nun ankündigen.
Folgt uns gerne auf Instagram, wenn ihr einen kleinen Einblick in die Arbeiten erhalten wollt.