Vorlesung: Sicherstellung der hohen Verfügbarkeit. Maximale Oracle-Maximal-Zugänglichkeitsarchitekturen (Oracle Maximal Verfügbarkeitsarchitektur) basierender DBAAS (Datenbank als Service) Oracle Oracle Document Information System-Zugänglichkeit

Hohe Verfügbarkeit ist das, was liebt, in Zahlen zu demonstrieren. Jeder ist schon daran gewöhnt vermarktung Und die Zugänglichkeit von 99% erscheint nur fantastisch hoch. Nur ein kleiner Teil der Kunden ist klar, dass die Zugänglichkeit von 98-99% sehr schlecht ist, es gibt keinen Anteil an Orten an der Anywhere.

Schauen Sie sich diese Zahlen an und Sie werden verstehen, welche Zugänglichkeit 90% von der Zugänglichkeit von 99,99% unterscheidet:

Verfügbarkeit	Leerlaufzeit pro Monat	Ausfallzeit pro Jahr.
90%	3 Tage	37 Tage
98%	14,6 Stunden	7,3 Tage
99%	7,3 Stunden	3,7 Tage
99,8%	1,5 Stunde	18 Stunden
99,9%	44 Minuten	8,8 Stunden
99,99%	4,4 Minuten	53 Minuten
99,999%	26 Sekunden	5,3 Minuten

Wenn Sie sich die Tabelle ansehen, verstehen Sie, dass das Rechenzentrum, das die Netzwerkzugänglichkeit in 99% garantiert, 7 Stunden Ruhezeiten pro Monat leisten kann. Stellen Sie sich eine solche Situation vor: Der ganze Tag im Rechenzentrum ist etwas zu erwarten, Ihre Website ist nicht verfügbar, Sie sind Verluste, und Sie können dem Rechenzentrum keinen Anspruch auf den Rechenzentrum stellen - selbst bei dieser Situation wird es eine versprochene Erreichbarkeit bereitstellen.

Ich betrachte die Netzwerkzugriffsfähigkeit von 99% schlecht. Ich bevorzuge Rechenzentren, die mindestens 99,9% der Netzverfügbarkeit gewährleisten.

Wahrscheinlich gibt es Internet-Projekte, die pro Jahr überleben können und 37 Tage lang (mehr als einen Monat!). Trotzdem können sich die meisten Online-Shopping, Portale und Sehenswürdigkeiten (insbesondere diejenigen, deren Transaktionen durch den Standort passieren), dass sich solchen Luxus nicht sogar 18 Stunden im Jahr leisten können. Es ist immer schwierig, den Ruf wiederherzustellen, und wenn es aus den Gründen "am Systemadministrator der Ausgabe" verloren geht, ist dies überhaupt nicht.

"Fünf neun" - das ist eine hohe Verfügbarkeit

Der Begriff "fünf Nasen" bedeutet die Verfügbarkeit von 99,999% und tritt zumindest in technisch in der Marketingliteratur auf. Es wird angenommen, dass der Standort oder das System mit der Verfügbarkeitsstufe "fünf Nasen" eine hohe Verfügbarkeit ist.

Für alle ist eine hohe Verfügbarkeit erforderlich

Es ist von der Tabelle ersichtlich, dass 99,9999% der Verfügbarkeit nur 5,3 Minuten Leerlaufzeit pro Jahr beträgt. Aber selbst diese Rechenzentren, die eine 100% verfügbare Verfügbarkeit garantieren, werden häufig auf Marketing-Tricks begonnen.
Zum Beispiel wird die Zeit abziehen regulierungsdienst Ab der Zeit der Verfügbarkeit. Zum Beispiel verspricht das Rechenzentrum Zugänglichkeit auf 99,99%, aber im Moment, in dem die geplante Arbeit beim Ersetzen von etwas schreibt " vorschriften Innerhalb von 2 Stunden "und berücksichtigt es nicht für die Nichtverfügbarkeit. Daher der Ausgabe - Lesen Sie die Service Level-Vereinbarung (SLA) sorgfältig.

Wenn Sie Ihre Website auf einem einzelnen Server die höchste Verfügbarkeit angeben möchten, wählen Sie das Rechenzentrum mit einem gut garantierten SLA-Zugriff (Service Level-Aggregat) aus.

Beachten Sie! SLA muss garantiert das fehlerhafte Eisen ersetzen lassen. Und idealerweise die Antwortzeit auf das Problem.

Darüber hinaus muss Ihr Administrator die Arbeit des Dienstes nachverfolgen und schnell auf die Nichtverfügbarkeit reagieren.

Ein wenig darüber, was die hohe Verfügbarkeit ist

Verfügbarkeit kann Netzwerk und Service sein.

Netzwerkzugänglichkeit. - Dies ist, wenn Ihr Server im Netzwerk verfügbar ist.
Verfügbarkeit des Dienstes. - Dies ist, wenn Ihr Server Kunden bedienen kann.

Die Verfügbarkeit des Diensts kann nicht besser sein als die Netzwerkverfügbarkeit, wenn Sie keine alternativen Verbindungen verwenden (mit Ihrer Netzwerkverfügbarkeit).

Die Verfügbarkeit des Dienstes hängt von:

netzwerkverfügbarkeit Ihres Servers
die Geschwindigkeit der Reaktion Ihres Administrators auf das Problem
die Unterstützung der Unterstützung für die Unterstützung des Rechenzentrums auf dem Problem
ersatzraten fehlerhafter Eisen im Rechenzentrum

Unzugänglichkeit falten aus:

probleme mit der Netzwerkeinreichung
probleme mit "Eisen"
probleme mit der Last auf dem Server ("verlangsamt", wird nicht bewältigt)
softwarefehler ("Shoals" -Programmierer)

Und der monatliche (außer Fälle von Eisenausfall) und sogar mehr die jährliche Verfügbarkeit von 99,8% kann auf einem guten DC auf einem Server ohne zusätzliche Fehlertoleranzmaßnahmen bereitgestellt werden. Die Verfügbarkeit von 99,9% erfordert bereits etwas Glück.

Wenn Sie eine garantierte Verfügbarkeit von über 99,8% benötigen, müssen Sie mit der Fehlertoleranz umgehen. Und der Server muss nicht eins sein. Dies ist jedoch das Thema eines separaten Gesprächs.

Es gibt Arten von Wirtschaft, in denen sich Pausen in der Erbringung des Dienstes nicht erlaubt sind. Wenn beispielsweise ein zellularer Bediener ein Abrechnungssystem hinter dem Serverausfall hat, bleiben Abonnenten ohne Kommunikation. Aus dem Bewusstsein der möglichen Folgen dieses Ereignisses gibt es einen vernünftigen Wunsch, Fortschritt zu erzielen.

Wir werden Ihnen sagen, welche Wege vor Servern Misserfolgen servieren und welche Architekturen bei der Implementierung der VMManager Cloud verwendet werden: Produkt, das zum Erstellen eines Hochverfügbarkeitsclusters entworfen wird.

Vorwort

Im Schutz des Schutzes gegen Fehler auf Clustern unterscheidet sich die Terminologie im Internet von der Website auf der Website. Um Verwirrung zu vermeiden, bezeichnen wir die Bedingungen und Definitionen, die in diesem Artikel verwendet werden.

Fehlertoleranz (Fehlertoleranz, FT) - Die Fähigkeit des Systems, nach dem Ausfall eines Elements weiterzuarbeiten.
Cluster - eine Gruppe von Servern (Recheneinheiten), kombinierte Kommunikationskanäle.
Fehlertolerant-Cluster, FTC - Cluster, ein Serverfehler, in dem nicht zur vollständigen Einfassungsfähigkeit des gesamten Clusters führt. Die Aufgaben der fehlgeschlagenen Maschine werden zwischen einem oder mehreren verbleibenden Knoten im automatischen Modus verteilt.
Kontinuierliche Verfügbarkeit (Kontinuierliche Verfügbarkeit, CA) - Der Benutzer kann den Dienst jederzeit nutzen, keine Unterbrechungen auftreten. Wie viel Zeit ist, da der Knotenfehler nicht wichtig ist.
Hohe Verfügbarkeit (hohe Verfügbarkeit, ha) - Im Fehlerfall erhält der Benutzer keinen Dienst für einige Zeit, aber die Systemwiederherstellung erfolgt automatisch. Dowft-Zeit wird minimiert.
KND - Dauerhafter Zugänglichkeitscluster, CA-Cluster.
QW - Hochverfügbarkeits-Cluster, HA-Cluster.

Lassen Sie es erforderlich sein, einen Cluster aus 10 Knoten bereitzustellen, in dem virtuelle Maschinen auf jedem Knoten gestartet werden. Es gibt eine Aufgabe, virtuelle Maschinen aus Geräteausfällen zu schützen. Um die Rechendichte der Racks zu erhöhen, wird entschieden, zwei Prozessorserver zu verwenden.

Auf den ersten Blick ist die attraktivste Version des Unternehmens derjenige, wenn der Benutzerdienst fehlschlägt, nicht unterbrochen wird, dh ein Cluster der ständigen Verfügbarkeit. Ohne Cud wird es nicht zumindest in den Aufgaben der bereits erwähnten Abrechnung von Abonnenten und mit der Automatisierung von kontinuierlichem herstellungsprozesse. Neben positiven Funktionen gibt es jedoch einen solchen Ansatz, es gibt "Fallstricke". Über sie den nächsten Abschnitt des Artikels.

Kontinuierliche Verfügbarkeit / Kontinuierliche Verfügbarkeit

Der ununterbrochene Kundendienst ist nur möglich, wenn eine genaue Kopie des Servers (physisch oder virtuell) vorhanden ist, auf dem der Dienst jederzeit läuft. Wenn Sie nach dem Ausfallausfall eine Kopie erstellen, dauert es Zeit, was bedeutet, dass dies in Bereitstellung von Dienstleistungen ist. Außerdem ist es unmöglich, den Inhalt zu erhalten, um den Inhalt zu erhalten arbeitsspeicher Von einem Problemauto, was bedeutet, dass die von dort verlorenen Informationen verloren gehen.
Um CA zu implementieren, gibt es zwei Möglichkeiten: Hardware und Software. Wir werden von jedem von ihnen etwas mehr erzählen.

Hardware-Methode Es ist ein "Split" -Server: Alle Komponenten sind dupliziert, und die Berechnungen werden gleichzeitig und unabhängig durchgeführt. Die Synchronität ist für den Knoten verantwortlich, der unter anderem von den Ergebnissen von Hälften überprüft wird. Bei Inkonsistenzen wird der Grund für die Ursache und ein Versuch, einen Fehler zu korrigieren, durchgeführt. Wenn der Fehler nicht eingestellt ist, ist das fehlerhafte Modul ausgeschaltet.
Habré war kürzlich auf dem Thema von Hardware CA-Servern. Der im Material beschriebene Hersteller stellt sicher, dass die jährliche Leerlaufzeit nicht länger als 32 Sekunden beträgt. Um solche Ergebnisse zu erzielen, müssen Sie Ausrüstung erwerben. Der russische Partner von Stratus berichtete, dass die Kosten eines CA-Servers mit zwei Prozessoren für jedes synchronisierte Modul je nach Konfiguration etwa 160.000 US-Dollar beträgt. Insgesamt zum Cluster benötigen 1.600.000 US-Dollar.

Software.
Zum Zeitpunkt des Schreibens des Artikels ist das beliebteste Werkzeug für die Bereitstellung des Clusters der ständigen Verfügbarkeit von VMware. Die kontinuierliche Verfügbarkeitstechnologie in diesem Produkt wird als "Fehlertoleranz" bezeichnet.

Im Gegensatz zur Hardwaremethode verfügt diese Option über Einschränkungen. Wir listen das Haupt an:

Auf dem physischen Host muss es einen Prozessor geben:
- Intel Architecture Sandy Bridge (oder neuer). Avoton wird nicht unterstützt.
- AMD Bulldozer (oder neuer).
Maschinen, die eine Fehlertoleranz verwenden, sollten in ein 10-Gigabit-Niedrigungsnetz kombiniert werden. VMware empfiehlt dringend ein dediziertes Netzwerk.
Nicht mehr als 4 virtuelle Prozessoren auf VM.
Nicht mehr als 8 virtuelle Prozessoren auf dem physischen Host.
Nicht mehr als 4 virtuelle Maschinen auf dem physischen Host.
Es ist unmöglich, Schnappschüsse von virtuellen Maschinen zu verwenden.
Speicherplatz kann nicht verwendet werden.

Es gibt eine vollständige Liste von Einschränkungen und Inkompatibilitäten.
Es wird experimentell festgestellt, dass die Fehlertoleranztechnologie von VMware erheblich "verlangsamt" eine virtuelle Maschine. Während des Studiums von vmgu.ru Nach dem Einschalten des FTs wurde die Produktivität der VM beim Arbeiten mit der Datenbank um 47% gesunken.

Die vSphere-Lizenzierung ist an physische Prozessoren gebunden. Der Preis beginnt mit 1750 US-Dollar pro Lizenz + 550 US-Dollar für das jährliche Abonnement und technische Unterstützung. Ein VMware vCenter Server ist auch erforderlich, um die Cluster-Steuerung zu automatisieren, die ab 8.000 US-Dollar kostet. Da das 2N-Schema verwendet wird, um eine kontinuierliche Verfügbarkeit sicherzustellen, um 10 Knoten mit virtuellen Maschinen zu betreiben, müssen Sie zusätzlich 10 doppelte Server und Lizenzen an sie erwerben. Die Gesamtkosten des Cluster-Programms sind 2 * (10 + 10) * (1750 + 550) + 8000 \u003d 100 000 $.

Wir haben keine bestimmten Knotenkonfigurationen gemalt: Die Zusammensetzung der Komponenten in Servern hängt immer von den Clusteraufgaben ab. Netzwerkausrüstung bedeutet auch nicht sinnvoll: In allen Fällen ist das Set gleich. Daher haben wir in diesem Artikel entschieden, nur zu berücksichtigen, was genau unter anderem ist: die Kosten der Lizenzen.

Es ist erwähnenswert, dass diese Produkte, deren Entwicklung angehalten wird.

Es gibt einen Remus, der auf Xen, einer freien Open-Source-Lösung basiert. Das Projekt verwendet microSnApps-Technologie. Leider wurde die Dokumentation seit langem nicht aktualisiert. Zum Beispiel ist die Installation für Ubuntu 12.10 beschrieben, deren Unterstützung im Jahr 2014 eingestellt wird. Seltsamerweise war sogar Google keine Firma, die Remus in seinen Aktivitäten anwendete.

Versuche, QEMU zu verfeinern, um die Fähigkeit hinzuzufügen, um eine kontinuierliche Verfügbarkeit des Clusters zu erstellen. Zum Zeitpunkt dieses Schreibens gibt es zwei solcher Projekte.

Der erste ist Kemari, ein Open Source-Produkt, das von Yoshiaki Tamura verwaltet wird. Es soll die Mechanismen der lebenden Migration von QEMU nutzen. Die Tatsache, dass das letzte Commit im Februar 2011 getroffen wurde, sagt jedoch, dass die Entwicklung höchstwahrscheinlich eine Sackgasse eingetreten ist und nicht wieder aufgenommen wird.

Zweitens - Micro Checkpointing, basierende Michael-Hines, auch offene Quelle. Leider gibt es bereits ein Jahr im Repository keine Aktivität. Es scheint, dass sich die Situation ähnlich wie das Kemari-Projekt entwickelt hat.

Somit ist die Implementierung der Verfügbarkeit von Continuus basierend auf der KVM-Virtualisierung derzeit nicht.

Die Praxis zeigt also, dass trotz der Vorteile kontinuierlicher Zugänglichkeitssysteme viele Schwierigkeiten bei der Umsetzung und dem Betrieb solcher Lösungen vorhanden sind. Es gibt jedoch Situationen, in denen die Fehlertoleranz erforderlich ist, es gibt jedoch keine harten Anforderungen an die Kontinuität des Dienstes. In solchen Fällen können Sie hochverfügbare Cluster, QW anwenden.

Hohe Verfügbarkeit / Hochverfügbarkeit

Im Rahmen des QC wird die Fehlertoleranz sichergestellt, indem der Geräteausfall automatisch bestimmt wird, und der anschließende Start des Dienstes auf einem guten Clusterknoten.

Die QW synchronisiert keine Prozesse, die auf Knoten ausgeführt werden, und die lokalen Festplatten der Maschinen sind nicht immer synchronisiert. Bevor Knoten, die von Knoten verwendet werden, sollten sich beispielsweise auf einem separaten unabhängigen Speicher aufweisen, beispielsweise auf einem Netzwerkdatenspeicher. Der Grund ist offensichtlich: Im Falle eines Fehlers fehlt der Knoten damit, was bedeutet, dass es keine Gelegenheit gibt, auf Informationen über den Speicher zuzugreifen. Natürlich sollte der SCD auch fehlertolerant sein, andernfalls funktioniert der QW nicht per Definition.

Somit ist ein Hochverfügbarkeitscluster in zwei Unterkegel unterteilt:

Computing. Es enthält Knoten, auf denen virtuelle Maschinen direkt gestartet werden.
Speichercluster. Es gibt Festplatten, die von Knoten des Rechenunterschlusses verwendet werden.

Im Moment gibt es für die Implementierung von KVD mit virtuellen Maschinen auf Knoten folgende Werkzeuge:

Heartbeat-Version 1.x in Verbindung mit DRBD;
Schrittmacher;
Vmware vSphere;
Proxmox ve;
Xenserver;
OpenStack;
ovirt;
Red Hat Enterprise Virtualization;
Windows Server Failover-Clustering in einem Bündel mit der Serverrolle "Hyper-V";
VmManager Cloud.

Wir werden Sie in die Besonderheiten unserer Produkt-VMManager Cloud vorstellen.

VmManager Cloud.

Unsere VMManager Cloud-Lösung verwendet die QEMU-KVM-Virtualisierung. Wir haben für diese Technologie eine Wahl getroffen, da sie aktiv entwickelt und unterstützt wird, und können Sie auch ein beliebiges Betriebssystem auf der virtuellen Maschine installieren. CoroSync wird als Werkzeug verwendet, um Fehler im Cluster zu identifizieren. Wenn einer der Server fehlschlägt, verteilt vmManager virtuelle Maschinen abwechselnd an den verbleibenden Knoten.

In einer vereinfachten Form ist der Algorithmus:

Der Clusterknoten wird mit der kleinsten Anzahl von virtuellen Maschinen gefunden.
Die Anfrage ist erfüllt. Es gibt genügend freier RAM, um den aktuellen VM in der Liste zu platzieren.
Wenn der Speicher für die verteilte Maschine ausreicht, gibt der VMManager dem Befehl, eine virtuelle Maschine an diesem Knoten zu erstellen.
Wenn der Speicher nicht ausreicht, wird die Suche auf Servern ausgeführt, die mehr virtuelle Maschinen ertragen.

Wir haben auf vielen Eisenkonfigurationen getestet, interviewte vorhandene VMManager Cloud-Benutzer und basierend auf den ermittelten Daten, die zu dem Schluss gezogen wurden, dass für die Verteilung und Wiederaufnahme aller VM ab dem ausgefallenen Knoten 45 bis 90 Sekunden dauert, abhängig von der Gerätegeschwindigkeit.

Praxis zeigt, dass es besser ist, ein oder mehrere Knoten für Notfallsituationen zu unterscheiden und sie nicht während der Mitarbeiterarbeit zu stellen. Dieser Ansatz schließt die Situation aus, wenn die "lebenden" Knoten des Clusters in der Cluster Ressourcen fehlen, um alle virtuellen Maschinen mit den "Toten" zu platzieren. Im Falle eines Ersatzservers wird das Reservierungsschema "n + 1" bezeichnet.

Die VMManager Cloud unterstützt die folgenden Speicherarten: Dateisystem, LVM, Netzwerk LVM, iSCSI und CEPH. Im Rahmen des QW werden die letzten drei verwendet.

Bei der Verwendung der ewigen Lizenz beträgt die Kosten des Programmteils des Clusters von zehn "Kampfknoten" und ein Backup heute 3520 € oder 3865 € (Lizenzkosten € 320 für einen Knoten, unabhängig von der Anzahl der Prozessoren ). Die Lizenz beinhaltet das Jahr kostenloser Updates, und ab dem zweiten Jahr werden sie als Teil des Aktualisierungspakets im Wert von 880 Euro pro Jahr für den gesamten Cluster bereitgestellt.

Überlegen Sie, welchen Schemata-VMManager Cloud-Benutzer mit hohen Verfügbarkeitsclustern umgesetzt wurden.

Erstbyte.

Erstbyte begann im Februar 2016 Cloud-Hosting bereitzustellen. Anfangs arbeitete der Cluster unter Openstack. Die Mangel an zugänglichen Spezialisten für dieses System (sowohl in Anwesenheit als auch in der Anwesenheit und des Preises) veranlasste die Suche nach einer anderen Lösung. Die folgenden Anforderungen wurden einem neuen Werkzeug für die Verwaltung des QWD dargestellt:

Die Fähigkeit, virtuelle Maschinen auf KVM bereitzustellen;
Das Vorhandensein von Integration mit Ceph;
Verfügbarkeit der Integration mit Abrechnung für die Bereitstellung von verfügbaren Dienstleistungen;
Verfügbare Lizenzkosten;
Das Vorhandensein von Unterstützung des Herstellers.

Infolgedessen näherte sich die VMManager Cloud dem Besten für die Anforderungen.

Besonderheiten des Clusters:

Die Datenübertragung basiert auf der Ethernet-Technologie und basiert auf Cisco-Geräten.
Cisco ASR9001 ist für das Routing verantwortlich; Der Cluster verwendet etwa 50.000 IPv6-Adressen.
Verbindungsgeschwindigkeit zwischen Computing-NODs und 10 GB / s-Switches.
Zwischen den Lagerschalter und NODs wird die Rate des Datenaustauschs von 20 GB / s verwendet, wobei die Aggregation zweier Kanäle von 10 GB / s verwendet wird.
Zwischen Racks mit Speicherknoten gibt es eine separate 20-Gigabit-Verbindung, die zur Replikation verwendet wird.
In den Speicherknoten werden SAS-Laufwerke in Verbindung mit SSD-Laufwerken installiert.
Lagerungstyp - Ceph.

BEIM allgemeines Das System sieht so aus:

Diese Konfiguration eignet sich für das Hosting-Standorte mit hohem Verkehr, um Spieler-Server und Datenbanken mit einer Last von mittel bis hoch aufzunehmen.

Erstvoll.

ErstvDs bietet einen fehlertoleranten Hosting-Service, der Produkteinführung fand im September 2015 statt.

Um die VMManager Cloud Company zu verwenden, stammt von den folgenden Überlegungen:

Umfangreiche Erfahrung mit den ISPSystem-Produkten.
Das Vorhandensein von Integration mit dem BillManager standardmäßig.
Ausgezeichnete Qualität von Tech-Support-Produkten.
Ceph-Unterstützung.

Der Cluster hat die folgenden Funktionen:

Die Datenübertragung basiert auf InfiniBand-Netzwerken mit einer Geschwindigkeit von 56 GB / s;
InfiniBand-Netzwerk, das auf Mellanox-Geräten gebaut wurde;
In den Speicherknoten installierte SSD-Träger;
Gebrauchte Lagerungstyp - Ceph.

Das allgemeine Schema sieht aus wie folgt:

Im Falle eines allgemeinen InfiniBand-Netzwerk-Versagens erfolgt die Verbindung zwischen dem Speicher der VM- und Computerserverspeicherung über ein Ethernet-Netzwerk, das auf Juniper-Geräten bereitgestellt wird. "Abholung" tritt automatisch auf.

Vielen Dank schnelle Geschwindigkeit Interaktion mit dem Repository, ein solcher Cluster ist für die Platzierung von ultra-hohen Anwesenheitsstandorten, Video-Hosting mit einer Streaming-Wiedergabe von Inhalten sowie zur Durchführung von Vorgängen mit großen Datenvolumina geeignet.

Epilog

Lassen Sie uns den Artikel zusammenfassen. Wenn jeder zweite Service-Ausfallzeiten erhebliche Verluste bringt - tun Sie nicht ohne Ansammlung der ständigen Verfügbarkeit.

Wenn jedoch die Umstände jedoch 5 Minuten warten, während sich die virtuellen Maschinen auf dem Backup-Knoten entfalten, können Sie sich auf den QW aussehen. Es gibt Einsparungen bei den Kosten von Lizenzen und Ausrüstungen.

Darüber hinaus können wir nicht daran erinnern, dass das einzige Netzwerk der Erhöhung der Fehlertoleranz Redundanz ist. Vergessen Sie nicht, Linien- und Datenübertragungsgeräte, Internetzugangskanäle, Stromversorgung, Netzreservierungen, Normalversorgung, Netzteilzugangskanäle, Stromversorgung, NICHT zu vergessen. Alles, was reserviert werden kann - Reserve. Solche Maßnahmen schließen einen einzigen Zeitpunkt des Ausfalls aus, ein subtiler Ort aufgrund einer Fehlfunktion, in der das gesamte System stoppt. Nachdem Sie alle oben genannten Maßnahmen erhalten haben, erhalten Sie einen fehlertoleranten Cluster, mit dem Sie wirklich schwer umgehen können. Tags hinzufügen

Definitionen

Jeder weiß, dass Microsoft Exchange DAG "Datenbankverfügbarkeitsgruppe" - "Datenbankverfügbarkeitsgruppe" ist.

Datenbank — weil Höhe des Niveausshohe Verfügbarkeit Server exchange 2010 Postfächer, wird von der Datenbank bestimmt, nicht der Server, es ist die Datenbank ist das Gerätwas sich bewegen kann zwischen mehreren Servern innerhalb datenbankverfügbarkeitsgruppen im Fehlerfall. Diese prinzip bekannt Wie Datenbankmobilität.

Gruppe - Weil der Verfügbarkeitsbereich ermittelt wird postfächer-Server beim gruppenzugriffsgruppe das United B. failover-Cluster. Und als Gruppe zusammenarbeiten.

Verfügbarkeit - Dieser Begriff scheint zu sein am wenigsten offensichtlich. Und das verwirrendste. Seltsamerweise ist dieser Begriff direkt mathematische Definition Und spielt wichtig rolle beim Verständnis design-Prinzipien Austausch im Allgemeinen.

Wikipedia bestimmt. "Verfügbarkeit" als Bezeichnung eine der folgenden Aktionen:
Der Umfang, in dem das System, das Subsystem oder die Geräte in der angegebenen Arbeitsbedingung liegen, ist der Fehlerfall zumindest unbekannt, d. H. Zufällige Zeit. Einfach gesagt , verfügbarkeit ist. anteil an der Zeit, wann System in einem Zustand gelegen funktion. Mathematisch das Es wird in 1 minus Unzugänglichkeit ausgedrückt.
Beziehung (A) der Gesamtzeit funktion während des angegebenen Intervall zu (b) die Größe des Intervalls.

In Bezug auf wahrscheinlichkeitstheorien, diese Definition Bedeutet das gleiche: die Wahrscheinlichkeit, dass Dieses System oder eine Komponente "in der Arbeitsbedingung" in jedem willkürlicher Moment Zeit.

Mathematisch das kann gemessen werden Durch Zählen der Zeitspanne, in der das System verfügbar ist ("Arbeitszeit") für einige Große statistische repräsentative Periode (In der Regel Jahre) und teilen es auf die Gesamtlänge der Periode. Mit weitgehend akzeptierter Zeit durchschnittliche Zeit zwischen den Fehlern (MTBF - mittlere Zeit zwischen Fehlern) und durchschnittliche Servicezeit. (MTTR - mittlere Zeit zur Reparatur) - Eingeführt systemerreichbarkeit/ Arbeiten zwischen Fehlern, Systemausfallzeiten für irgendwelche gegeben. Fehler - Verfügbarkeit kann als ausgedrückt werdenfraktion:

Gegenteil Mathematische Eigenschaften werden sein wahrscheinlichkeit der Ablehnung:

Verfügbarkeit oft als ausgedrückt ausgedrückt "Anzahl der neun", in Übereinstimmung mit der folgenden Tabelle:

Verfügbarkeitsstufe	Bedeutung der Zugänglichkeit.	Wahrscheinlichkeit der Ablehnung	Zulässige Leerlaufzeit pro Jahr
Zwei neun.	99%	1%	5256 Minuten \u003d 3,65 Tage
Drei neun.	99.9%	0.1%	525,6 Minuten \u003d 8,76 Stunden
Vier Nasen	99.99%	0.01%	52.56 Minuten
Fünf neun.	99.999%	0.001%	5,26 Minuten

Natürlich der Verfügbarkeitswert wird anders sein es hängt davon ab Berücksichtigen wir geplant(geplante) und ungeplante (ungeplante) Ausfallzeiten oder nur ungeplante Ausfallzeiten. Service Level-Vereinbarung (SLA)welche express geschäftsanforderungen Die Verfügbarkeit muss bestimmte Informationen enthalten. Aber in allen Fällen Verfügbarkeit dieses oder dessen systeme oder Komponente. hängt von vielen Faktoren ab, ICH. extrem wichtig bestimmen und verstehen Diese Abhängigkeiten I. wie beeinflussen sie? Verfügbarkeit.

Die Wirkung der Suchtabhängigkeiten

Datenbankverfügbarkeit. mailboxen austauschen. hängt von der Anwesenheit von vielen anderen ab dienstleistungen und Komponenten - z.B , subsystemspeicher, aufdie die Datenbank beherbergt, server auf welchen Diese Datenbank funktioniert, verbindung zum Netzwerk von diesem Server usw. All diese wichtige Komponenten, ICH. versagen von Anten davon bedeutet das Servicefehler, auch wenn datenbank selbst ist ein völlig funktionsfähig. Das bedeutet das Damit die Datenbank als Dienstleistung verfügbar ist, ist auch jede Sucht muss verfügbar sein. Wenn wir richtig sind wir identifizieren und insel Abhängigkeitskomponenten, wir können mathematisch berechnen, wie sie den resultierenden Niveau bestimmen datenbankverfügbarkeit. Exchange-Mailbox.

Für ein gegebenes postfachdatenbanken, die folgenden Komponenten kann als angesehen werden, wie kritische Abhängigkeiten:
festplatten-Subsystem. Datenbank- / Speichersystem - zum Beispiel A1;
postfachserver (als Hardware, so und Softwarekomponenten) - A2;
mit everver-Kundenzugang. (Hardware I. software Komponenten) - Erinnern Sie sich daran, dass in Exchange 2010 alles kunden sind mit K verbunden. postfachdatenbank nur durch Clientzugriffsserver (Server mit Clientzugriffsrolle), und angenommen das CAS ist separat installiert Mailbox-Server-Server - A3;
netzwerkverbindung zwischen den Kunden I. Client-Zugriffsserver und zwischen dem Server kundenzugang. und server-Postfächer - A4;
Elektrizität im RechenzentrumWo sich Server befinden und Speichersysteme. - A5.

Diese Liste man könnte fortfahren ... zum Beispiel Active Directory und DNS auch repräsentieren Kritische Abhängigkeit von Austausch. Außerdem in. ergänzung zum Reinigen technologisch. Abhängigkeit von Verfügbarkeit. beeinflussen solche Faktoren wie menschlicher Fehler, falsche Ausführung von Standard-Service-Vorgängen, keine Koordination Technischer Support des Teams. All dies kann dazu führen behinderung. Wir werden es nicht versuchen beliebig kompilieren erschöpfende Liste Abhängigkeiten, A. stattdessen konzentrieren Sie sich auf Wie beeinflussen sie das Gesamt? verfügbarkeit von Dienstleistungen..

Weil diese Komponenten selbst separat selbst sind unabhängig voneinanderdie Anwesenheit von jedem von ihnen repräsentiert unabhängig Ereignis und die resultierende Datenbankverfügbarkeitsstufe mailboxen austauschen. repräsentiert eine Kombination all diese Ereignisse (mit anderen Worten, damit postfachdatenbankes war verfügbar für Kunden all das komponenten müssen Verfügbar). Von wahrscheinlichkeitstheorienWahrscheinlichkeit der Kombination. unabhängige Events es ist ein Produkt. Getrennte Wahrscheinlichkeiten für jedes Ereignis:

Wenn Sie beispielsweise drei Münzen werfen, wahrscheinlichkeit, herauszufallen "Eagle" für alle drei Münzen (1/2) * (1/2) * (1/2) \u003d 1/8.

Es ist wichtig zu verstehen, dass der Wert der Zugänglichkeit nicht kann mehr als 1 sein (oder 100%) und als Ergebnis verfügbarkeit des Dienstes. ist ein Produkt von erschwinglichen individuellen Komponenten, der Wert der Verfügbarkeit dessen kann nicht mehr seinDie niedrigste Anzahl der Verfügbarkeitsabhängigkeit.

Dies kann dargestellt werden Auf dem dargestellten Beispiel in der folgenden Tabelle (Zahlen sind Beispiele):

Kritische Sucht	Wahrscheinlichkeit der Ablehnung	Verfügbarkeitsstufe
Mailbox-Server- und Speichersystem	5%	95%
Client-Zugriffsserver	1%	99%
Netzwerk	0.5%	99.5%
Essen	0.1%	99.9%
	6.51383%	95% x 99% x 99,5% x 99,9% \u003d 93.48617%

Aus diesem Beispiel, kann sehen, wie kritisch wichtige Abhängigkeiten beeinflussen die Verfügbarkeit des Dienstes. Sogar für postfachdatenbankendas nie schlägt fehl (nicht wird beschädigt sein, nie empfangen Nic virusinfektionen usw.), Zugänglichkeit bleibt noch übrig unter 93,5%!

Fazit: Große Menge Serviceabhängigkeiten reduzieren die Zugänglichkeit.

Alles, was wir tun reduziernummer oder Expositionsabhängigkeiten. positiver Effekt insgesamt. verfügbarkeit des Dienstes.. Beispielsweise , wir könnten verbessern Lage durch Vereinfachung von I. Eigentum serververwaltung und Optimierung. betriebsverfahren. Von der technischen Seite, wir wir können es versuchen reduzieren Sie die Menge von Serviceabhängigkeiten, indem Sie unser Design machen einfacher - zum Beispiel, die komplexe Speichersysteme auf Basis von SAN-, Faserschalter, Array-Controllern und sogar RAID-Controller entfernen und mit einem einfachen DAS mit einem Minimum ersetzen bewegliche Teile.
Die Reduzierung von Serviceabhängigkeiten an sich kann nicht sein genug um Zugänglichkeit bringen auf das gewünschte Niveau. Ein weiterer sehr viel effektive Methode Erhöhung der Zugänglichkeit I. auswirkungen auf ein Minimum Kritische Dienstabhängigkeiten liegt in der Attraktion. verschiedene Methoden Reservierungen wie Verwendung zwei Stromquellen, Netzwerkkarten kombinieren, server anschließen Zu mehreren. netzwerkschalterVerwendung von RAID für betriebssystem , die Hardwareabgleichung für Server bereitstellen clientzugriff I. mehrere kopien postfachdatenbanken. Aber wie genau ein Anstieg der Redundanz ermöglicht es Ihnen, eine hohe Verfügbarkeit zu erreichen? Lass uns detaillierter Erwägen lastausgleich I. mehrere Kopien der Datenbank so wichtig Beispiele.

Wie beeinflusst die Verfügbarkeit Redundanz?

Konzeptionell alle Reservierungsmethoden bedeuten eine Sache: Ja mehr als eine Kopie Komponente, die verfügbar ist und kann verwendet werden entweder gleichzeitig (wie mit lastausgleiche) oder als Ersatz (wie im Fall von mehrere Kopien der Datenbank). Angenommen Wir haben N. instanzen davon Komponente (n Server im CAS- oder N-Array kopien Datenbanken in dag). Auch wenn einer von ihnen versagt zu Andere noch kann verwendet werden zum hohe Verfügbarkeit. Die einzige Situation Wenn wir tatsächliche Serviceleistungen konfrontieren, wenn alle Instanzen aufhören, zugänglich zu sein.

Wie früher definiert, wahrscheinlichkeit der Ablehnung für jeden in diesem Fall P \u003d 1 - A. Alle Exemplare statistisch unabhängig gegenseitig , was bedeutet das das? Performance oder Misserfolg.jeder von ihnen beeinträchtigt nicht die Zugänglichkeit in anderen Fällen. Zum Beispiel, Fehler kopierdatenbank Betrifft nicht wahrscheinlichkeit der Ablehnung Für eine andere Kopie. diese Datenbank (Eine logische Nuance ist möglich, wenn eine beschädigte Kopie Änderungen an anderen Kopien verbreitet, aber lassen Sie uns ignoriere das Faktor - B. schließlichSie können immer eine tote Kopie der Datenbank oder eine Wiederherstellungsoption verwenden. traditionelle Sicherung).

Wieder mit demselben theorem wahrscheinlichkeitstheorien, wahrscheinlichkeit der Ablehnung Set n unabhängige Komponenten es ist ein Produkt. Probleme für jede Komponente. Da alle Komponenten hier identisch sind (verschiedene Instanzen desselben Objekts):

Offensichtlich als P.< 1, P n Weniger P.Was bedeutet das das? wahrscheinlichkeit der Ablehnung nimmt ab, und dementsprechend steigt die Zugänglichkeit an:

Einige betrachten echtes Beispiel für das Leben zur Klarheit . Sagen wir was wir installieren Mehrere kopien postfachdatenbanken; Jede Kopie befindet sich auf einer SATA-Festplatte. Statistiken zufolge beträgt der Prozentsatz der SATA-Ausfälle für ein Jahr ~ 5%, was uns 5% ergibt wahrscheinlichkeit der Ablehnung: P \u003d 0,05 (was bedeutet das Vorhandensein von 95%: a \u003d 0,95). Wie man die Zugänglichkeit wechselt wie es hinzugefügt wird kopierdatenbank? Lass uns ansehen nächste Tabelle:

Anzahl der Kopien	Wahrscheinlichkeit der Ablehnung	Verfügbarkeitsstufe
1	P 1 \u003d p \u003d 5%	A 1 \u003d 1 - P 1 \u003d 95%
2	P 2 \u003d P 2 \u003d 0,25%	A 2 \u003d 1 - P 2 \u003d 99,75%
3	P 3 \u003d P 3 \u003d 0,0125%	A 3 \u003d 1 - P 3 \u003d 99,9875%
4	P 4 \u003d P 4 \u003d 0,000625%	A 4 \u003d 1 - P 4 \u003d 99,9994%

Ist beeindruckend? Prinzipiell jeweils zusätzliche Instanz Datenbanken auf SATA-Festplatte stellt ein koeffizient Multiplikation. 5% oder 1/20, sowahrscheinlichkeit Fehler wird mit jeder Kopie 20-mal niedriger (und entsprechend., Verfügbarkeitssteigerung). Wir können das sogar auf sehen das unzuverlässigste. SATA-Festplatten, die nur 4 umgesetzt werden kopien Datenbanken Bringt uns datenbankverfügbarkeit. In fünf neun.
Das schon sehr gut, aber kann ich tun noch besser? Können wir erhöhung der Zugänglichkeit immer noch ohne zu machen architektonische Veränderungen (Zum Beispiel beim Hinzufügen eines anderen kopierdatenbank)?

In der Tat können wir. Wenn wir die individuelle Zugänglichkeit verbessern jede Komponente Abhängigkeit es will faktor erhöhen gesamtzugänglichkeit Service, I. wird zu viel führen stärkerer Effekt als von hinzufügen Überkomponente. Zum Beispiel eines der möglichen möglichkeiten, das zu tun, wird benutzt Nearline SAS-Laufwerke anstelle von SATA-Festplatten. Nearline SAS-Discs verfügen über ein jährliches Versagensebene ~ 2,75% anstelle von ~ 5% für SATA. Dies wird reduzieren wahrscheinlichkeit der Ablehnung für die Speicherkomponente und erhöht daher das Gesamt verfügbarkeit des Dienstes.. Ziemlich verglichen Effekt ot. ergänzungen mehrerer Jahre kopierdatenbank:
5% Koeffizient AFR \u003d 1/20 \u003d Multiplikation jeder neuen Kopie schädt Schaden Datenbanken 20-mal seltener.
2.75% AFR \u003d 1/36 koeffizient Multiplikation. \u003d jede neue Kopie schädt Schaden Datenbanken 36-mal seltener.

Das bedeutender Einfluss aufverfügbarkeit der Datenbank das Erläutert auch die Anweisungen, um das Konzept des eigenen Schutzes des Exchange-Data-Exchange-Native-Datenschutzes zu verwenden, der erklärt, dass mehrere Kopien der Datenbank möglicherweise sein können ersatz für traditionell Backups, wenn erweitert ausreichende Zahl (drei oder mehr).

Dieselbe Logik ist anwendbar zu mehrere einsetzen clientzugriffsserver Im CAS-Massiv mehrere netzwerkschalter usw. Angenommen, wir 4 Kopien der Datenbank und 4 eingesetzten 4 clientzugriffsserverUnd lassen Sie uns zum Bestandteil der von uns analysierten Barrierefreiheit zurückkehren:

Kritische Sucht	Wahrscheinlichkeit der Ablehnung	Verfügbarkeitsstufe
Postfachserver und Speicher (4 Kopien)	5% ^ 4 = 0.000625%	99.999375%
Clientzugriffsserver (4 Server ausgeschlossen)	1% ^ 4 = 0.000001%	99.999999%
Netzwerk	0.5%	99.5%
Essen	0.1%	99.9%
Allgemeiner Wert (abhängig von all diesen Komponenten)	0.6%	99.399878%

wir kann was sehen Nur wir haben 4 gestartet client-Zugriffsserver und 4 kopien Datenbanken, wahrscheinlichkeit der Ablehnung Der Gesamtdienst ist um mehr als zehnmal verringert (von 6,5% bis 0,6%). und entsprechend, verfügbarkeit von Dienstleistungen. stieg von 93,5% auf einen viel anständigeren Wert von 99,4%!

Fazit: Redundanz für Abhängigkeiten hinzufügen verbessert die Zugänglichkeit..

Miteinander verbinden

Interessant aufgetreten. Die Frage der vorherigen Schlussfolgerungen. wir analysiert Zwei verschiedene beeinflussende Faktoren Zum Gemeinsam verfügbarkeit von Dienstleistungen. zwei verschiedene Arten und fand zwei klare Ausgänge:
Zusatz mehr systemisch. Abhängigkeit reduziert die Zugänglichkeit.
Das Hinzufügen von Redundanz in Systemabhängigkeiten erhöht die Zugänglichkeit
Was passiert wenn Verbinden Sie sich, um beide Faktor zu lösen? Welche Trends sind stärker?
Betrachten Sie das folgende Szenario:
Wir verwenden zwei Mailboxer in der DAG-Gruppe mit zwei Kopien. postfachdatenbanken (eine Kopie auf jedem Server), und wir verwenden zwei Server kundenzugang. In Array mit Lastausgleich.. (Für die Einfachheit werden wir nur berücksichtigen Verfügbarkeit postfachdatenbanken zum clientverbindungenOhne die Rolle zu berücksichtigen transport-Server-Hub und unified Messaging-System.) . Annehmen, dass jedermann der Server hat seine eigenen Individuell wahrscheinlichkeit der Ablehnung P, ob die Anwesenheit eines solchen Systems besser oder schlechter ist als von einem entfalteten Offline-Exchange-Server mit den beiden Postfachserverrollen und beiden kundenzugang.?

Im ersten Szenario, Postfachserver sind unabhängige I. Sie sind nicht nur verfügbar, wenn beide Server fehlschlagen. Die Wahrscheinlichkeit des Scheiterns Set von zwei Jahren postfachserver wird sein P.× P. = P. 2 Dementsprechend wird seine Verfügbarkeit sein Ein mbx. = 1 – P 2.. Nach derselben Logik, CAS-Service es ist nicht verfügbar Nur wenn beide Server kundenzugang. außer Betrieb daher Wahrscheinlichkeit Versagen für einen Satz von zwei clientzugriffsserver Es wird wieder sein P.× P. = P. 2 und entsprechend, Seine Zugänglichkeit wird sein Ein CAS. = 1 – P 2..
In diesem Fall, wie wir bereits verstanden haben, zwei Postfachservern oder zwei Server kundenzugang. sind Beispiele Überschuss systemkomponenten.
Wir setzen dieses Szenario fort. Damit das gesamte System verfügbar ist, setzt sowohl Server-Sets (Satz von Postfachservern und Set clientzugriffsserver) muss verfügbar sein Gleichzeitig. Nicht zur gleichen Zeit versagenaber zur gleichen Zeit verfügbar weil jetzt sie repräsentieren systemisch abhängigkeiten, und nicht Überschüssige Komponenten. Das heisst, was im Allgemeinen serviceverfügbarkeit es ist ein Produkt. Verfügbarkeitjedes Set:

Na sicher, zweite Option viel einfacher wie es existiert. nur ein Server und Erwägen seine Zugänglichkeiteinfach EIN. = 1 – P..
So jetzt. wir berechnete Bedeutungen verfügbarkeit für beide Szenarien. Z. die Abschwache davon über, (1-P. 2 ) 2 oder 1-P.?

Wenn er baue grafik beide Funktionen, wir werden sehen nächstes Verhalten:

Wir sehen, dass für einen kleinen Wert P das Vorhandensein eines umfassenden Systems von 4 Servern höher ist als von der Anwesenheit eines Servers. Es gibt nichts überraschend, das hat wir erwartet, richtig? Bei P ~ 0,618 - sind jedoch zwei Teile gekreuzt und bei großen Werten von p ein System Server hat tatsächlich eine höhere Verfügbarkeit. Natürlich würde es wahrscheinlich erwarten, dass der Wert von P sehr nahe an Null sein sollte wahres Leben. Wenn wir jedoch planen, Ihre eigene Lösung von sehr unzuverlässigen Komponenten zu erstellen, ist es wahrscheinlich, dass die Lösung in Form eines Servers besser ist.

Der Einfluss von Ablehnungspunkten

Leider sind die oben beschriebenen Bereitstellungsszenarien im wirklichen Leben selten. Wie wirkt sich beispielsweise auf die Änderung der Verfügbarkeit aus, wobei der Bereitstellung eines Servers mit mehreren Rollen eingesetzt wird? Wir haben bemerkt, dass in dem obigen Beispiel die Kombination von Serverrollen effektiv die Anzahl der Serviceabhängigkeiten reduziert, daher ist es wahrscheinlich, dass alles in Ordnung ist? Und was passiert, wenn wir zwei Kopien der Datenbank aus einer Datenbank auf demselben SAN- oder DAS-Array legen? Was ist, wenn alle Postfachserver mit einem einzigen Netzwerkschalter verbunden sind? Was ist, wenn wir alle oben genannten und viel mehr haben?

Alle diese Situationen stehen uns mit dem Konzept eines Weigerungspunkts gegenüber. In den obigen Beispielen von Servergeräten oder einem SAN-Array oder einem Netzwerkschalter gibt es Misserfolgstellen. Der Fehlerpunkt bricht die Unabhängigkeit oder die Redundanz der Komponenten, die er kombiniert - zum Beispiel, der Ausfall der Komponenten von Servergeräten in einem Server mit einer Kombination von Rollen bedeutet, dass alle Rollen auf diesem Server nicht verfügbar sind. Dementsprechend bedeutet der Festplattenfehler oder das SAN-Array, dass alle Kopien der auf dieser Festplatte oder Ihrem Array platzierten Datenbanken nicht zugänglich sind.

Aber das Vorhandensein eines Weigerungspunkts ist nicht unbedingt schlecht. Ein wichtiger Unterschied besteht darin, dass die Komponenten, die den Punkt der Ablehnung bilden, sich von den Abhängigkeiten des Systems oder überschüssigen Systemkomponenten unterscheiden. Betrachten Sie zwei der obigen Beispiele, um diesen Unterschied zu verstehen.

Serverszenario mit mehreren

Vergleichen wir das Vorhandensein von zwei verschiedenen Systemen:
1. Rolstery des Mailbox-Servers und des Clientzugriffsservers, der sich auf demselben Server befindet, der eine Wahrscheinlichkeit von Hardwarefehlern P hat;
2. In denselben Rollen werden auf zwei separaten Servern veröffentlicht, von denen jeder die gleiche Wahrscheinlichkeit von Geräteausfall aufweist.

Im ersten Fall ist die Hardware eines Servers ein Fehlerpunkt. Dies bedeutet, dass alle geposteten Rollen entweder verfügbar oder nicht verfügbar sind. Es ist im Allgemeinen einfach, die Verfügbarkeit eines solchen Systems A \u003d 1 - P.

Im zweiten Fall ist der Dienst im Allgemeinen nur verfügbar, wenn beide Server unabhängig verfügbar sind (weil jede Rolle eine kritische Abhängigkeit ist). Daher ist ihre Anwesenheit aufgrund der Erdresstheorie der Wahrscheinlichkeit ein × A \u003d A2.

Wieder wie ein<1, это означает, что A2 < А, так во втором случае доступность будет ниже.

Anscheinend können wir bei Bedarf weitere Rollen des Exchange-Servers (Hub-Transport und ein einzelnes Messaging-System hinzufügen) in demselben Szenario, ohne diese Logik zu brechen.

Schlussfolgerung: Platzieren der Exchange Server-Rollen auf dem Server mit einem Multi-Rad erhöht die gesamte Verfügbarkeit von Diensten.

Szenario der gemeinsamen Lagerung

Lassen Sie uns nun ein anderes Fehler-Punkt-Szenario (zwei Kopien der Exchange-Datenbank auf einem Array) in Betracht ziehen, und vergleichen Sie die Verfügbarkeit der Datenbank in den folgenden zwei Fällen:

1. Kopien von Datenbanken auf derselben Lagerung (SAN oder DAS), die die Wahrscheinlichkeit von P hat;
2. Bei den gleichen Kopien von Datenbanken, die auf zwei separaten Speichersystemen platziert sind, von denen jede die gleiche Ausfallwahrscheinlichkeit hat.

Im ersten Fall ist der allgemeine Lagerung ein Ablehnungspunkt. Wie im vorherigen Szenario bedeutet dies, dass beide Kopien der Datenbank verfügbar sind oder gleichzeitig nicht verfügbar sind, sodass der allgemeine Verfügbarkeit wieder ein \u003d 1 - P.

Im zweiten Fall ist der Dienst im Allgemeinen verfügbar, wenn mindestens ein System verfügbar ist und nur nicht verfügbar ist, wenn beide Systeme fehlschlagen. Speichersysteme sind unabhängig. Daher die Wahrscheinlichkeit des Misserfolgs für gemeinsamer Service. P × P \u003d P2 Und dementsprechend ist die Gesamtverfügbarkeit von Diensten A \u003d 1 - P2.

Wieder wenn p< 1, то это означает, что Р2 <Р, и, следовательно, 1 – P2 > 1 - P. Dies bedeutet, dass das Niveau der Verfügbarkeit im zweiten Fall viel höher ist.

Fazit: Die Platzierung von Kopien einer Datenbank auf demselben Speichersystem reduzieren die Gesamtverfügbarkeit von Diensten.

Was ist der Unterschied zwischen diesen beiden Szenarien, warum die Einführung von Fehlerpunkten die Verfügbarkeit im ersten Fall erhöht und die Verfügbarkeit in einem anderen reduziert?

Dies liegt daran, dass der Punkt der Ablehnung im ersten Fall den Abhängigkeitsdienst kombiniert, um ihre Anzahl effektiv zu reduzieren, und erhöht daher den Verfügbarkeitsniveau, während der Ablehnungspunkt im zweiten Fall übermäßige Komponenten kombiniert, um die Redundanz effektiv zu reduzieren, und somit verschlechtert sich die Verfügbarkeit.

Alle diese Konzepte und Schlussfolgerungen können in dem folgenden Formular dargestellt werden:

Ergebnisse

Exchange 2010-Architektur. bietet kraftvoll chancen zum Hinzufügen redundanz (z.B, mehrere einsetzen kopierdatenbank oder mehrere Clientzugriffsserver in Array CAS.) und reduziert anzahl der systemischen abhängigkeiten (von der Vereinigung. exchange Server Rollen oder mit der Hilfe einfach lagerarchitektur ohne Übermäßige Zahl kritische Komponenten). Einfache Regeln und Formeln.dargestellt von B. dieser Beitrag ermöglichen berechnung einfluss auf die Kosten verfügbarkeit aus der Bereitstellung zusätzlich kopien Datenbanken oder aus einer Kombination exchange Server-Rollen. T. einfach kann sein berechnung beeinflussen Misserfolgstellen. Wahres Leben selten passend für B. einfach basisch szenarien, und brauchenviel komplexer berechnungen, um zu bekommen angemessen schätzungen Verfügbarkeitsstufe echte Systeme; es kann erleichtert werden undnur messen Verfügbarkeitsstufe statistisch und prüfen, ob es den Anforderungen erfüllt ist Slain. Dennoch, verständnis von Faktoren zugänglichkeit beeinträchtigen zusammen mit Komplexität technische Lösung sollte helfen bauen entscheidung richtige I. leisten deutlicher Anstieg verbreitet verfügbarkeitsstufe Dienstleistungen sogar für die anspruchsvollsten Geschäftsanforderungen.

In letzter Zeit bin ich in letzter Zeit in letzter Zeit immer mehr gestärkt, wandern Sie in meinem Kopf und eher heretischem Gedanken: Ein klassischer Verfügbarkeitsanzeiger ist ungeeignet, um die Verfügbarkeit von IT-Diensten in der realen Welt zu messen und zu bewerten. In einigen Fällen kann es leicht abgelehnt werden. Diese Fälle beziehen sich in erster Linie, um die Verfügbarkeit des Typs "" (eigentlich geht es um die IT-Zugänglichkeit von Geschäftsprozessen). Ich werde versuchen zu begründen, und ich freue mich, Einwände zu hören.

Ich denke, alle Leser der Portal-Formel vertraut:

Verfügbarkeit \u003d (AST - DT) / AST,

wo AST. - konsequente Zeit der Dienstleistung, Dt. - die Anzahl der Ausfallzeiten für den Zeitraum.

Und auch wahrscheinlich vertraute Schwierigkeit der Verwendung:

Die erste Komplexität ist mit der Diskussion des Indikators verbunden. Die Verfügbarkeit ist als 99,9% definiert. Scheint nicht schlecht. Aber 0,1% pro Jahr sind fast 9 uhr. Und ein Monat ist fast 45 Minuten. Und eine Woche - etwas mehr als 10 Minuten. Also, was bedeutet 99,9% den Kunden? Und Dienstleister?

Die nächste Nuance ist jedoch viel wesentlicher: Der Indikator ist ziemlich ungenau, spiegelt sich ein negativer Auswirkungen auf das Geschäft wider. Was ist, wenn alles ohne kleine 9 Stunden pro Jahr ist? Oder der Dienst wurde für zwei Minuten für die Verbraucher nicht verfügbar, aber 15-mal an einem Tag? Wie wird dies in Prozent ausgedrückt? Daher stellt ITIL beispielsweise Indikatoren wie MTRS, MTBF, MTBSI ein.

Ich schlage jedoch vor, zu Beginn der Koordinaten zurückzukehren und die Frage zu stellen, warum führen wir in der Regel die Verfügbarkeit ein? Warum macht das Geschäft Anforderungen an die Verfügbarkeit von Dienstleistungen? Warum sollte der Diensteanbieter eine hohe Verfügbarkeit und Bericht über seine tatsächlichen Werte sicherstellen? Die Antwort ist einfach: Das Geschäft trägt den Verlust aufgrund von Ausfallzeiten der IT-Dienste. Das Ideal für das Geschäft ist also ein Indikator für die Verfügbarkeit, wahrscheinlich wäre ein metrischer "Verluste aufgrund von Ausfallzeiten IT-Services"?

Es würde einem solchen Metrik- und Dienstleistungsanbieter stark helfen. Immerhin ist dies eine vorgefertigte Antwort auf die Frage der Geschäftsrisiken, die mit beeinträchtigen IT-Zugänglichkeit verbunden sind. Und deshalb erscheint der Dienstanbieter die Gelegenheit:

senden Sie mehr transparenter die Verfügbarkeit von Geschäftsprozessen zur IT-Infrastruktur;
vernünftigere Entscheidungen über Maßnahmen treffen, um die Zuverlässigkeit und die Fehlertoleranz von IT-Systemen zu verbessern;
vernünftigere Bewertung des Erfolgs von Maßnahmen auf den Ergebnissen ihrer Implementierung.

Natürlich ist die Berechnung einer solchen Metrik jedoch schwierig, manchmal ist es unmöglich. Daher müssen wir andere Indikatoren definieren und nicht vergessen, dass sie in der Aggregate Informationen über den Geschäftseinfluss (Ist oder Potenzial) tragen müssen.

Was ist der Geschäftsverlust je nach Ausfallzeiten?

Je kleiner während des Berichtszeitraums der Service war in der Verfügbarkeit, desto größer ist der Verlust. Wir führen einen Indikator für "Gesamtausfallzeit" ein.
Je länger ein einziger einfacher, desto mehr Verlust. Oft sind die Verluste in der Zeit nicht konstant, die Größe und hängen von der Dauer des Interrupts exponentiell ab. Zum ersten Mal besteht der Schaden aus unvollständigen Transaktionen, Verlust der Personalproduktivität und Wiederherstellungskosten, sondern von einem bestimmten Zeitpunkt ein langfristiges einfaches bedrohliches Geschäft mit Geldbußen, Sanktionen, Rufschäden und so weiter. Wir führen den Indikator "Maximal einmalig einfach" ein.
Eine Reihe von Geschäftsprozessen ist im Gegenteil "sensibel", nicht zu einigen langen Ausgaben, sondern zu häufigen Interrupts. Dies ist ein besonders wichtiger Faktor für Prozesse, im Rahmen des Rahmens, von denen langfristige Berechnungen auftreten, was im Falle einer Unterbrechung zum Neustart erforderlich ist. Somit muss es sogar weniger Unterbrechungen für den Zeitraum bereitgestellt werden. Wir führen einen Indikator "Anzahl der Verstöße" ein.

Eine alternative (oder zusätzliche) Metrik, die denselben Aspekt widerspiegelt, jedoch mit einem Schwerpunkt auf der Periode der ruhigen Benutzer, kann es möglicherweise einen Indikator "Minimum (oder durchschnittliche) Arbeitsdauer ohne Verstöße geben."

Die im Gesamtaggregat vorgelegten Indikatoren scheinen die Art, wie das Geschäft aufgrund von Ausfall-IT-Diensten Verluste führt. Daher bleibt es nur in bekannter Weise, um Rationierung und Aggregation durchzuführen. Ja, der resultierende Indikator wird auch in Prozent ausgedrückt, aber es ist bereits völlig unterschiedliche Prozentsätze.

Gleichzeitig ist es für jeden IT-Dienst nicht erforderlich, alle drei (oder vier) Metriken zu verwenden. Je nachdem, ob das Geschäft auf häufige Verstöße dieses IT-Dienstes sensibel ist oder im Gegenteil, langfristige Einmalstörungen dafür entscheidend sind, können einige Indikatoren mit einem geringeren Gewicht in der Berechnung weggelassen oder enthalten sein.

Von den vorgelegten Metriken aus können Sie leicht in die berühmte MTRS, MTBF, MTBSI und natürlich die klassische Verfügbarkeitsanzeige gehen. In meiner Meinung nach wird der vorgeschlagene Set den Kunden- und Dienstleister etwas mehr über den geschäftlichen Einfluss von IT-Zugangsverletzungen sagen. Oder nicht?

Brauche verzweifelt Einwände. Warum, vom klassischen Indikator für die Verfügbarkeit eines in Prozent ausgedrückten Dienstes, in keinem Fall nicht abgelehnt werden kann? Gibt es einen solchen Indikator in Ihren Berichten? Was und wer sagt er?

Die Service-Level-Vereinbarung ist ein Dokument, das die vom Kunden erwartete Dienstleistungsniveau beschreibt, die vom Anbieter auf der Grundlage der Indikatoren, die auf diesen Dienst anwendbar sind, erwartet und die Verantwortung des Anbieters festlegen, wenn die vereinbarten Indikatoren nicht erreicht werden.

In grobem Sprechen, wenn Sie das Internet zu Hause deaktivieren, dann am Ende, in einem Film, in einem Film oder in Zabak, bestenfalls in der Hoffnung auf Neuberechnung.

Wenn Sie einen Zusammenhang im Büro haben, haben Sie Verkaufshaltestellen (Kunden können nicht durchkommen und ohne auf eine Antwort per E-Mail auf andere Anbieter zu gehen), die Rechnungslegung nicht Zahlungen enthalten (hier folgen Sie bereits Ihren Partnern) und Wenn Sie sagen, das Trader Bureau, kann der Betrag an Schäden Tausende von Dollars erreichen (Sie können nicht in der Lage sein, Anteile in der Zeit zu kaufen oder zu verkaufen).

Es kann einen lyrischen Rückzug von Kanalreservierungen usw. sein, aber wir haben ein Beispiel vor unseren Augen - das Gebäude des Moskauer Stadtkomplexes, in dem vor ein paar Jahren ein unerwarteter Weg und der Haupt- und Backup-Kanal erwies sich als von einem Anbieter. Und das Problem, wie Sie wissen, kommt nicht alleine. Daher stellte sich zweimal für 7-8 Stunden (während der Arbeitszeit) ohne die Beziehung des Unternehmens aus dem Fortune-500-Rating aus.
Daher versuchen besonders sorgfältige juristische Dienstleistungen von Unternehmen, deren Unternehmen besonders empfindlich auf die Qualität der Kommunikation ist, versuchen, den Betrag des Schadens des Unternehmens nicht nur die Kosten für nicht konsumierte Dienstleistungen zu berechnen, sondern auch zum Nutzen des Kunden als Ergebnis von Ausfallzeiten.

Punkte

Hier sind einige Indikatoren, in einer bestimmten Komposition in Bedienerdokumenten:

Asr (Antwort-Anfalls-Verhältnis) - Parameter, der die Qualität der Telefonverbindung in einer bestimmten Richtung definiert. ASR wird als Prozentsatz der Anzahl der Anzahl infolge von Anrufen der Telefonverbindungen auf die Gesamtzahl der Herausforderungen in der angegebenen Richtung berechnet.
PDD (Nachwahlverzögerung) - Der Parameter, der den Zeitraum (in Sekunden) definiert, der seit dem Anruf, bis die Telefonverbindung eingestellt ist, definiert.
Verfügbarkeit von Dienstleistungen. - Das Verhältnis der Zeitumbruch in der Bereitstellung von Dienstleistungen bis zur Gesamtzeit, in der der Dienst angeboten werden soll.

Koeffizient-Verlust von Informationspaketen - Das Verhältnis von ordnungsgemäß empfangenen Datenpaketen auf die Gesamtzahl der Pakete, die für einen bestimmten Zeitraum über das Netzwerk übertragen wurden.
Temporäre Verzögerungen bei der Übertragung von Informationspaketen - Das Zeitintervall, das erforderlich ist, um Informationen zwischen zwei Netzwerkgeräten zu übertragen.
Rechenschaftspflicht der Informationsübertragung - Das Verhältnis der Anzahl fehlerhaft übertragener Datenpakete auf die Gesamtzahl der übertragenen Datenpakete.
Arbeitsperioden, die Zeit der Alarme von Abonnenten und die Wiederherstellungszeit der Dienste.
Mit anderen Worten, die Verfügbarkeit von Diensten 99,99% weist darauf hin, dass der Bediener nicht mehr als 4,3 Minuten Kommunikation pro Monat garantiert, 99,9% - dass der Service nicht 43,2 Minuten betragen kann, und 99% - dass die Pause mehr als 7 Stunden dauern kann . In einigen Praktizierenden wird die Netzverfügbarkeit unterschieden und ein kleinerer Wert des Parameters angenommen - keine Zeit. Verschiedene Arten von Dienstleistungen (Verkehrsklassen) bieten auch unterschiedliche Werte von Indikatoren. Beispielsweise ist eine Verzögerungsrate für die Sprache am wichtigsten - es sollte minimal sein. Und die Geschwindigkeit dafür ist niedrig, und einige der Pakete können ohne Qualitätsverlust verlieren (etwa 1% je nach Codec). Um Daten auf den ersten Platz zu übertragen, kommt die Geschwindigkeit heraus, und Paketverluste sollten nach Null streben.

Weltstandards

In der westlichen Praxis ist es üblich, einen offiziellen Bericht über Netzwerkparameter im vergangenen Jahr zu geben. Beispielsweise für den Internet-Kanal für den Internet-Kanal können mehrere misstante Marken.

Signalübertragungsverzögerung (Latenzzeit, MS)

	Sprintnetz.		Verizon.		Kabel und Wireless.		Ntt.
	Tatsache	Standard	Tatsache	Standard	Tatsache	Standard	Tatsache	Standard
Europa	18.9	45	15.178	30	17.6	35.0	24.00	35
USA	36.91	55	42.851	45	45.9	65.0	45.83	60
Asien	83.78	105	100.640	125	48.3	90.0	47.34	95
Europa Asien.	207.63	270	-	-	174.1	310.0	260.23	300
Europa-USA.	74.53	95	78.784	90	78.7	90.0	71.57	90

Paketverlust (Paketverlust,%)

	Sprintnetz.		Verizon.		Kabel und Wireless.		Ntt.
	Tatsache	Standard	Tatsache	Standard	Tatsache	Standard	Tatsache	Standard
Europa	0	0.3%	0.025%	0.5%	0	0.2%	0	0.3%
USA	0.01%	0.3%	0.019%	0.5%	0.1%	0.2%	0	0.3%
Asien	0	0.3%	0.004%	1%	0	0.2%	0	0.3%
Europa Asien.	0	0.3%	-	-	0	0.2%	0	0.3%
Europa-USA.	0	0.3%	0	0.5%	0.1%	0.2%	0	0.3%

Jitter (Variation der Verzögerung, Jitter, MS)

	Sprintnetz.		Verizon.		Kabel und Wireless.		Ntt.
	Tatsache	Standard	Tatsache	Standard	Tatsache	Standard	Tatsache	Standard
Europa	0.0017	2	0.026	1	-	-	0	0.5
USA	0.0007	2	0.058	1	-	-	0	0.5
Asien	0.0201	2	-	-	-	-	0	0.5
Europa Asien.	0.0001	2	-	-	-	-	0	0.5
Europa-USA.	0.0001	2	-	-	-	-	0	0.5

Die Höhe der Entschädigung hängt von den monatlichen Zahlungen des Kunden ab und variiert vom Anbieter an den Anbieter. In dem Fall, in dem die Netzwerkverfügbarkeitsanzeige den in SLA angegebenen Schwellenwert überschreitet, kompensiert Verizon den Abonnenten der täglichen Zahlung für jede Stunde der Nichtverfügbarkeit des Dienstes. Wenn SLA in einem beliebigen Monat in der Signalübertragungsverzögerungsanzeige nicht erfüllt ist, ist die Entschädigung in der Höhe der täglichen Abonnementgebühren angewiesen.

Sprint ist starrer geeignet, und wenn SLA nicht respektiert wird (zumindest in Bezug auf), wird der Kunde für den gesamten Monat an die Abonnementgebühr zurückgegeben, in der das Problem aufgezeichnet wurde.

Im Falle der Nichtverfügbarkeit des NTT-Dienstes etabliert der Betreiber einen Rahmen für die Identifizierung und Lösung eines Problems in 15 Minuten - darauf, wonach der Kunde von 1/30 bis 7/30 von einer monatlichen Zahlung auftritt. Wenn SLA nicht mit der Signalverzögerungsrate übereinstimmt, kann der Client sich auf die täglichen Zahlungen von einmaligen zählen.

Unsere Realitäten

Im russischen Geschäft ist es vorzugsweise zu SLA hauptsächlich internationalen Marken. Gleichzeitig wurde für Metropolitan-Kunden auch der Phrase selbst vertraut, und selbst die durchschnittlichen Unternehmen sind manchmal an diesem Dokument interessiert. Hier möchte ich feststellen, dass der Service-Level-Vereinbarung nicht ersetzt und die Verantwortungspunkte des Standardbetreibers in der Dienstleistungsvereinbarung sowie die von den Rechtsvorschriften und Untertitelnetzaten festgelegten Normen (z. B. FZ "on Communications etabliert. , Bestell-Nr. 92 "Über die Genehmigung der Normen an den elektrischen Parametern der wichtigsten digitalen Kanäle und -pfade der Haupt- und Intra-One-Hauptnetze des russischen WCC usw.), die wir alle folgen.

In der Praxis, Gars Telecom, im Falle von "Facaps", werden Streitigkeiten unter dem Verfahren zur Verarbeitung von Trabl-Tickets und Service Recovery-Time abgerechnet. Unfälle, die die Umfassungsfähigkeit des Dienstes veranlasst haben, sollten von 4 bis 72 Stunden (je nach Ursache) eliminiert werden. Bei der Überschreitung der angegebenen Parameter kompensiert jede weitere Stunde des Leerlaufs den Abonnenten, und wenn der Schwellenbetreiber erreicht ist, steigt der Kompensationsprozentsatz an.

Aus interessanten Fällen können Sie sich an den Laden der Musikinstrumente erinnern, was uns (Operator) im Herbst des Verkaufs des Klaviers anklagt (für einige Zeit das Telefon funktionierte nicht). Auch hier kann es mit einem fortschrittlichen kundenorientierten Westen verglichen werden, aber es ist besser, sich dem russischen Outback zu wenden, in dem nicht, dass die SLA im Allgemeinen ist, das Konzept der "Service Recovery" nicht existiert. Im besten Fall beträgt die Reaktionszeit 48 Stunden. Beispiele müssen nicht einmal weit entfernt - 15 km von St. Petersburg entfernt - und der örtliche Betreiber ist auf jede Verantwortung zurückzuführen. Es wäre hässlich, für alle regionalen Betreiber zu sprechen, aber leider ist es eher eine Regel als eine Ausnahme.

Welche Schlussfolgerungen müssen aus diesen Geschichten hergestellt werden?

Nach dem Kampf sind die Fäuser nicht inmastend - wenn es einige kritische Parameter für das Geschäft gibt, müssen Sie darüber nachdenken, was mit dem Betreiber in der Koordinierung der Dokumente anspezifiziert ist
Ein Indikator, über den er ständig kostet, ist die Servicewiederherstellungszeit und das Technische Support. Denn wenn nichts arbeitet - es ist schlimmer als wenn es funktioniert, aber es ist schlecht (in diesem Fall kann der Kunde den Bediener zumindest schnell und schmerzlos ändern)
Um die Reservierung aufzupassen, ist ebenfalls im Voraus wert, und der Service sollte von unabhängigen Betreibern liegen, von denen mindestens eines behoben werden muss.