Lecture: tinitiyak ang mataas na availability. Oracle maximum Accessibility Architectures (Oracle maximum availability architecture) batay dbaas (database bilang serbisyo) Oracle Oracle Document Information System Accessibility

Ang mataas na kakayahang magamit ay nagnanais na ipakita sa mga numero. Lahat ay nakasanayan na paglipat ng pagmemerkado At ang accessibility ng 99% ay tila lamang fantastically mataas. Tanging isang maliit na bahagi ng mga customer na maunawaan na ang accessibility ng 98-99% ay masama, walang angkop sa mga lugar kahit saan.

Tingnan ang mga numerong ito at maunawaan mo kung anong access ang 90% na naiiba mula sa accessibility ng 99.99%:

Availability	Idle oras bawat buwan	Downtime bawat taon
90%	3 araw	37 araw
98%	14.6 oras	7.3 araw
99%	7.3 oras	3.7 araw
99,8%	1,5 oras	18 oras
99,9%	44 minuto	8.8 oras
99,99%	4.4 minuto	53 minuto
99,999%	26 segundo	5.3 minuto

Sa pagtingin sa talahanayan sa itaas, naiintindihan mo na ang data center, na garantiya sa network accessibility sa 99% ay maaaring kayang bayaran ang 7 oras ng idle time bawat buwan. Isipin ang gayong sitwasyon: Ang buong araw sa sentro ng data ay isang bagay na nakuha, ang iyong site ay hindi magagamit, ikaw ay nawala, at hindi ka maaaring magpakita ng isang claim sa sentro ng data - kahit na sa sitwasyong ito, magbibigay ito ng ipinangako na accessibility.

Isaalang-alang ko ang access sa network 99% masama. Mas gusto ko ang mga sentro ng data na masiguro ang hindi bababa sa 99.9% ng availability ng network.

Marahil may mga proyektong Internet na maaaring mabuhay at 37 araw ng katamaran bawat taon (higit sa isang buwan!). Ngunit ang lahat ng parehong pinaka-online na pamimili, mga portal at mga site (lalo na ang mga na ang mga transaksyon na dumadaan sa site) ay hindi kayang bayaran ang naturang luho, tulad ng 18 oras sa isang taon. Ito ay palaging mahirap na ibalik ang reputasyon, at kung ito ay nawala para sa mga dahilan "sa administrator ng system ng output", ito ay hindi sa lahat.

"Limang siyam" - iyon ang mataas na availability

Ang terminong "limang nines" ay nangangahulugang ang pagkakaroon ng 99.999% at nangyayari sa panitikan sa pagmemerkado ng hindi bababa sa teknikal. Ito ay pinaniniwalaan na ang site o sistema na may antas ng availability "limang nines" ay isang mataas na availability.

Kinakailangan ang mataas na availability sa lahat

Maaari itong makita mula sa talahanayan na 99.9999% ng availability ay 5.3 minuto lamang ng idle oras bawat taon. Ngunit kahit na ang mga sentro ng data na ginagarantiya ng 100% na availability ay madalas na nagsimula sa mga trick sa marketing.
Halimbawa, ibawas ang oras regulatory service. Mula sa oras ng availability. Halimbawa, ang data center ay nangangako ng access sa 99.99%, ngunit sa sandaling ito kapag ang naka-iskedyul na trabaho ay ginaganap sa kapalit ng isang bagay na nagsusulat " regulasyon Sa loob ng 2 oras, "at hindi isinasaalang-alang ito para sa hindi magagamit. Kaya ang output - basahin ang kasunduan sa antas ng serbisyo (SLA) maingat.

Kung nais mong magbigay ng pinakamataas na availability sa iyong site sa isang solong server, piliin ang data center na may mahusay na garantisadong SLA (kasunduan sa antas ng serbisyo) access.

Tandaan! Ang SLA ay dapat na garantisadong upang palitan ang may sira na bakal. At, sa isip, ang oras ng pagtugon sa problema.

Bilang karagdagan, dapat subaybayan ng iyong admin ang gawain ng serbisyo at mabilis na tumugon sa hindi magagamit.

Kaunti tungkol sa kung ano ang mataas na availability

Maaaring maging network at serbisyo ang availability.

Access sa network - Ito ay kapag ang iyong server ay magagamit sa network.
Pagkakaroon ng serbisyo - Ito ay kapag ang iyong server ay maaaring maghatid ng mga customer.

Ang pagkakaroon ng serbisyo ay hindi maaaring maging mas mahusay kaysa sa availability ng network kung hindi ka gumagamit ng mga alternatibong koneksyon (kasama ang iyong availability ng network).

Ang pagkakaroon ng serbisyo ay depende sa:

availability ng network ng iyong server
ang bilis ng reaksyon ng iyong admin sa problema
ang bilis ng suporta para sa suporta ng data center sa problema
mga kapalit na rate ng may sira na bakal sa sentro ng data

Hindi gumagana ang mga fold mula sa:

mga isyu sa access sa network
mga problema sa "bakal"
ang mga problema sa pag-load sa server ("slows", ay hindi makayanan)
mga error ng software ("shoals" programmers)

At ang buwanang (maliban sa mga kaso ng bakal breakdown) at kahit na mas maraming taunang availability ng 99.8% ay maaaring ibigay sa isang mahusay na DC sa isang server na walang karagdagang kasalanan tolerance panukala. Ang pagkakaroon ng 99.9% ay nangangailangan ng ilang kapalaran.

Kung kailangan mo ng garantisadong availability sa itaas 99.8%, ito ay kinakailangan upang harapin ang kasalanan tolerance. At ang server ay hindi dapat maging isa. Ngunit ito ang paksa ng isang hiwalay na pag-uusap.

May mga species ng negosyo, kung saan ang mga break sa probisyon ng serbisyo ay hindi pinapayagan. Halimbawa, kung ang isang cellular operator ay may isang sistema ng pagsingil mula sa likod ng breakdown ng server, mananatili ang mga tagasuskribi nang walang komunikasyon. Mula sa kamalayan ng posibleng mga kahihinatnan ng kaganapang ito ay may makatwirang pagnanais na umunlad.

Sasabihin namin sa iyo kung ano ang mga paraan upang maprotektahan laban sa mga pagkabigo ng server at kung aling mga arkitektura ang ginagamit kapag nagpapatupad ng VMManager Cloud: produkto na idinisenyo upang lumikha ng mataas na kumpol ng availability.

Paunang salita

Sa larangan ng proteksyon laban sa mga pagkabigo sa mga kumpol, ang terminolohiya sa Internet ay naiiba mula sa site patungo sa site. Upang maiwasan ang pagkalito, tinutukoy namin ang mga tuntunin at kahulugan na gagamitin sa artikulong ito.

Pagkabigo tolerance (kasalanan tolerance, ft) - ang kakayahan ng sistema upang higit pang magtrabaho pagkatapos ng kabiguan ng sinumang elemento.
Cluster - isang pangkat ng mga server (computing unit), pinagsamang mga channel ng komunikasyon.
Fault Tolerant Cluster, FTC - Cluster, isang server failure kung saan ay hindi humantong sa kumpletong inoperability ng buong kumpol. Ang mga gawain ng nabigo machine ay ipinamamahagi sa pagitan ng isa o ilang natitirang nodes sa awtomatikong mode.
Ang patuloy na availability (tuloy-tuloy na availability, CA) - Maaaring gamitin ng user ang serbisyo anumang oras, walang pagkagambala. Gaano karaming oras ang lumipas dahil hindi mahalaga ang pagkabigo ng node.
Mataas na availability (mataas na availability, ha) - Sa kaso ng kabiguan, ang gumagamit ay hindi makakatanggap ng isang serbisyo para sa ilang oras, ngunit ang pagbawi ng system ay awtomatikong magaganap; Ang dowth time ay minimized.
KND - Patuloy na Accessibility Cluster, CA-Cluster.
QW - mataas na availability cluster, ha-cluster.

Hayaan na kinakailangan upang i-deploy ang isang kumpol sa 10 node, kung saan ang mga virtual machine ay nagsimula sa bawat node. May isang gawain upang protektahan ang mga virtual machine mula sa pagkabigo ng kagamitan. Upang madagdagan ang density ng computing ng mga rack, ito ay nagpasya na gumamit ng dalawang server ng processor.

Sa unang sulyap, ang pinaka-kaakit-akit na bersyon para sa negosyo ay ang isa kapag ang serbisyo ng gumagamit ay hindi nagambala, iyon ay, isang kumpol ng patuloy na availability. Nang walang isang cud, hindi ito gagawin ng hindi bababa sa mga gawain ng nabanggit na pagsingil ng mga tagasuskribi at may automation ng tuloy-tuloy proseso ng produksyon. Gayunpaman, kasama ang mga positibong tampok tulad ng isang diskarte, may mga "pitfalls". Tungkol sa mga ito sa susunod na seksyon ng artikulo.

Patuloy na availability / tuloy-tuloy na availability

Ang walang tigil na serbisyo sa customer ay posible lamang kung mayroong tumpak na kopya ng server (pisikal o virtual) kung saan tumatakbo ang serbisyo anumang oras. Kung lumikha ka ng isang kopya pagkatapos ng pagkabigo ng kagamitan, kakailanganin ng oras, na nangangahulugan na sa pagbibigay ng mga serbisyo. Bilang karagdagan, pagkatapos ng pagkasira, imposibleng makuha ang mga nilalaman random access memory Mula sa isang problema sa kotse, na nangangahulugan na ang impormasyon na nawala ay mawawala.
Upang ipatupad ang CA, mayroong dalawang paraan: hardware at software. Sasabihin namin ang tungkol sa bawat isa sa kanila ng kaunti pa.

Paraan ng hardware Ito ay isang "split" na server: lahat ng mga sangkap ay nadoble, at ang mga kalkulasyon ay ginaganap nang sabay-sabay at malaya. Ang synchronicity ay responsable para sa node, na kabilang sa iba pang mga bagay ay naka-check sa mga resulta mula sa halves. Sa kaso ng mga hindi pagkakapare-pareho, ang dahilan para sa dahilan at pagtatangka na itama ang isang error ay gumanap. Kung ang error ay hindi nababagay, ang faulty module ay naka-off.
Ang Habré ay kamakailan lamang sa tema ng mga server ng hardware CA. Ang tagagawa na inilarawan sa materyal ay nagsisiguro na ang taunang oras ng idle ay hindi higit sa 32 segundo. Kaya, upang makamit ang mga naturang resulta, kailangan mong bumili ng kagamitan. Ang kasosyo ng Ruso ng Stratus ay nag-ulat na ang halaga ng isang CA server na may dalawang processor para sa bawat naka-synchronize na module ay tungkol sa $ 160,000 depende sa pagsasaayos. Kabuuang sa kumpol ay kailangan ng $ 1,600,000.

Software.
Sa oras ng pagsulat ng artikulo, ang pinaka-popular na tool para sa pag-deploy ng kumpol ng patuloy na availability ay mula sa VMware. Ang patuloy na teknolohiya ng availability sa produktong ito ay tinatawag na "Fault Tolerance".

Kabaligtaran sa paraan ng hardware, ang pagpipiliang ito ay may mga limitasyon na gagamitin. Inililista namin ang pangunahing:

Sa pisikal na host ay dapat magkaroon ng isang processor:
- Intel architecture Sandy Bridge (o mas bagong). Hindi sinusuportahan ang Avoton.
- AMD bulldozer (o mas bago).
Ang mga machine na gumagamit ng fault tolerance ay dapat na pinagsama sa isang 10-gigabit na mababang network ng pagkaantala. Mahigpit na inirerekomenda ng VMware ang dedikadong network.
Hindi hihigit sa 4 virtual processors sa VM.
Hindi hihigit sa 8 virtual processors sa pisikal na host.
Hindi hihigit sa 4 virtual machine sa pisikal na host.
Imposibleng gamitin ang mga snapshot ng mga virtual machine.
Hindi magagamit ang imbakan vmotion.

May kumpletong listahan ng mga paghihigpit at hindi pagkakatugma.
Ito ay eksperimento na itinatag na ang kasalanan tolerance teknolohiya mula sa VMware makabuluhang "slows down" isang virtual machine. Sa panahon ng pag-aaral ng vmgu.ru matapos i-on ang ft, ang pagiging produktibo ng VM kapag nagtatrabaho sa database ay nahulog sa pamamagitan ng 47%.

Ang paglilisensya ng VSphere ay nakatali sa mga pisikal na processor. Ang presyo ay nagsisimula sa $ 1750 bawat lisensya + $ 550 para sa taunang subscription at teknikal na suporta. Gayundin, kinakailangan ang isang vmware vCenter server upang i-automate ang cluster control, na nagkakahalaga mula sa $ 8,000. Dahil ang 2n scheme ay ginagamit upang matiyak ang patuloy na availability, upang magpatakbo ng 10 node na may mga virtual machine, kailangan mo pa ring bumili ng 10 dobleng server at mga lisensya sa kanila. Ang kabuuang halaga ng bahagi ng cluster program ay magiging 2 * (10 + 10) * (1750 + 550) + 8000 \u003d $ 100 000.

Hindi kami nagpinta ng mga tukoy na configuration ng node: ang komposisyon ng mga bahagi sa mga server ay laging nakasalalay sa mga gawain ng kumpol. Ang mga kagamitan sa network ay hindi nangangahulugan ng kahulugan: sa lahat ng mga kaso ang set ay magkapareho. Samakatuwid, sa artikulong ito nagpasya kaming isaalang-alang lamang kung ano ang eksaktong magiging iba: ang gastos ng mga lisensya.

Ito ay nagkakahalaga ng pagbanggit tungkol sa mga produktong iyon na tumigil ang pag-unlad.

May isang remus batay sa Xen, isang libreng open source solution. Ang proyekto ay gumagamit ng teknolohiya ng Microsnapps. Sa kasamaang palad, ang dokumentasyon ay hindi na-update nang mahabang panahon; Halimbawa, ang pag-install ay inilarawan para sa Ubuntu 12.10, ang suporta na kung saan ay ipinagpapatuloy sa 2014. At nang kakatwa sapat, kahit na hindi nakita ng Google ang anumang kumpanya na naglalapat ng remus sa mga aktibidad nito.

Mga pagtatangka upang pinuhin ang Qemu upang idagdag ang kakayahang lumikha ng isang patuloy na availability ng kumpol. Sa panahon ng pagsulat na ito, mayroong dalawang gayong mga proyekto.

Ang una ay Kemari, isang open source product, na pinamamahalaan ng Yoshiaki Tamura. Ito ay nilayon upang gamitin ang mga mekanismo ng paglilipat ng buhay ng Qemu. Gayunpaman, ang katunayan na ang huling gumawa ay ginawa noong Pebrero 2011 ay nagsabi na malamang na ang pag-unlad ay pumasok sa isang patay na dulo at hindi ipagpatuloy.

Ikalawang - micro checkpointing, batay sa Michael Hines, bukas na pinagmulan. Sa kasamaang palad, isang taon sa repository walang aktibidad. Tila na ang sitwasyon ay nakagawa ng katulad sa proyekto ng Kemari.

Kaya, ang pagpapatupad ng Continuus availability batay sa KVM virtualization ay kasalukuyang hindi.

Kaya, ang pagsasanay ay nagpapakita na sa kabila ng mga pakinabang ng patuloy na mga sistema ng accessibility, maraming mga paghihirap sa pagpapatupad at pagpapatakbo ng naturang mga solusyon. Gayunpaman, may mga sitwasyon kapag kinakailangan ang kasalanan, ngunit walang mahirap na mga kinakailangan para sa pagpapatuloy ng serbisyo. Sa ganitong mga kaso, maaari kang mag-aplay ng mga mataas na kumpol ng availability, qw.

Mataas na availability / mataas na awit.

Sa konteksto ng QC, ang pagpapaubaya ng kasalanan ay natiyak sa pamamagitan ng awtomatikong pagtukoy ng kabiguan ng kagamitan at ang kasunod na pagsisimula ng serbisyo sa isang mahusay na node ng kumpol.

Ang QW ay hindi naka-synchronize ng mga proseso na tumatakbo sa mga node at ang mga lokal na disk ng mga machine ay hindi laging naka-synchronize. Bago ang mga node na ginagamit ng mga node ay dapat na nasa isang hiwalay na independiyenteng imbakan, halimbawa, sa imbakan ng data ng network. Ang dahilan ay malinaw: Sa kaganapan ng kabiguan, ang node ay mabibigo dito, na nangangahulugan na walang pagkakataon na ma-access ang impormasyon sa imbakan nito. Naturally, ang SCD ay dapat ding maging mapagparaya, kung hindi man ang QW ay hindi gumagana sa pamamagitan ng kahulugan.

Kaya, ang isang mataas na kumpol ng availability ay nahahati sa dalawang subclover:

Computing. Kabilang dito ang mga node kung saan direktang inilunsad ang mga virtual machine.
Imbakan kumpol. May mga disk na ginagamit ng mga node ng subclatter ng computing.

Sa sandaling ito, para sa pagpapatupad ng KVD na may mga virtual machine sa mga node ay may mga sumusunod na tool:

Heartbeat Bersyon 1.x kasabay ng DRBD;
Pacemaker;
VMware vSphere;
Proxmox ve;
Xenserver;
Openstack;
ovirt;
Red hat enterprise virtualization;
Windows server failover clustering sa isang bundle na may server papel na "Hyper-V";
Vmmanager cloud.

Ipakikilala namin kayo sa mga peculiarities ng ating produkto VMManager Cloud.

Vmmanager cloud.

Ang aming VMManager Cloud Solution ay gumagamit ng virtualization ng Qemu-KVM. Ginawa namin ang isang pagpipilian sa pabor ng teknolohiyang ito, dahil ito ay aktibong binuo at suportado, at nagbibigay-daan din sa iyo upang i-install ang anumang operating system sa virtual machine. Ang Corosync ay ginagamit bilang isang tool upang makilala ang mga pagkabigo sa kumpol. Kung nabigo ang isa sa mga server, pinamamahagi ng VMManager ang mga virtual machine sa natitirang mga node.

Sa isang pinasimple na form, ang algorithm ay:

Ang cluster node ay matatagpuan sa pinakamaliit na bilang ng mga virtual machine.
Natupad ang kahilingan. May sapat na libreng RAM upang ilagay ang kasalukuyang VM sa listahan.
Kung ang memorya para sa machine na ipinamamahagi ay sapat, ang VMManager ay nagbibigay ng utos upang lumikha ng isang virtual machine sa node na ito.
Kung ang memorya ay hindi sapat, ang paghahanap ay ginaganap sa mga server na nagdadala ng higit pang mga virtual machine.

Nagsagawa kami ng pagsubok sa maraming mga configuration ng bakal, na sinanay ang umiiral na mga gumagamit ng VMManager Cloud at batay sa data na nakuha ng concluded na para sa pamamahagi at pagpapatuloy ng lahat ng VM mula sa nabigo node, ito ay tumatagal ng 45 hanggang 90 segundo depende sa bilis ng kagamitan.

Ipinapakita ng pagsasanay na mas mahusay na makilala ang isa o higit pang mga node para sa mga emerhensiyang sitwasyon at hindi upang i-deploy ang VM sa kanila sa panahon ng trabaho. Ang diskarte na ito ay hindi kasama ang sitwasyon kapag ang "buhay" nodes sa kumpol ay walang mga mapagkukunan upang ilagay ang lahat ng mga virtual machine na may "patay". Sa kaso ng isang ekstrang server, ang reservation scheme ay tinatawag na "N + 1".

Sinusuportahan ng VMManager Cloud ang mga sumusunod na uri ng imbakan: file system, LVM, network LVM, ISCSI at Ceph. Sa konteksto ng QW, ang huling tatlong ay ginagamit.

Kapag ginagamit ang walang hanggang lisensya, ang gastos ng programa bahagi ng kumpol mula sa sampung "labanan" nodes at isang backup ay € 3520 o $ 3865 ngayon (mga gastos sa lisensya € 320 para sa isang node, hindi alintana ang bilang ng mga processor dito ). Kasama sa lisensya ang taon ng libreng mga update, at mula sa ikalawang taon ay ipagkakaloob sila bilang bahagi ng pakete ng pag-update na nagkakahalaga ng € 880 bawat taon para sa buong kumpol.

Isaalang-alang kung anong mga scheme ang mga gumagamit ng VMManager Cloud ang nagpatupad ng mataas na mga kumpol ng availability.

Firstbyte.

Nagsimulang magbigay si Firdbyte ng cloud hosting noong Pebrero 2016. Sa una, ang kumpol ay nagtrabaho sa ilalim ng OpenStack. Gayunpaman, ang kakulangan ng mga espesyalista sa sistemang ito (parehong sa presensya at presyo) ay nag-udyok ng paghahanap para sa isa pang solusyon. Ang mga sumusunod na kinakailangan ay iniharap sa isang bagong tool para sa pamamahala ng QWD:

Ang kakayahang magbigay ng mga virtual machine sa KVM;
Ang pagkakaroon ng pagsasama kay Ceph;
Availability ng pagsasama sa pagsingil na angkop para sa pagkakaloob ng mga magagamit na serbisyo;
Magagamit na gastos sa lisensya;
Ang pagkakaroon ng suporta para sa tagagawa.

Bilang resulta, lumapit ang VMManager Cloud para sa mga kinakailangan.

Mga natatanging katangian ng kumpol:

Ang paghahatid ng data ay batay sa teknolohiya ng Ethernet at binuo sa Cisco Equipment.
Ang Cisco ASR9001 ay responsable para sa routing; Ang kumpol ay gumagamit ng mga 50,000 IPv6 address.
Link bilis sa pagitan ng computing nods at 10 GB / s switch.
Sa pagitan ng mga switch at nods ng warehouse, ang rate ng data exchange ng 20 GB / s, ang pagsasama ng dalawang channel ng 10 GB / S ay ginagamit.
Sa pagitan ng mga rack na may mga node ng imbakan mayroong isang hiwalay na 20-gigabit na link na ginagamit para sa pagtitiklop.
Sa mga node ng imbakan, ang SAS drive ay naka-install kasabay ng SSD drive.
Uri ng imbakan - Ceph.

SA pangkalahatan Mukhang ganito ang system:

Ang configuration na ito ay angkop para sa mga hosting site na may mataas na trapiko, upang mapaunlakan ang mga server ng paglalaro at mga database na may isang load mula sa daluyan hanggang mataas.

Firstvds.

Ang FirstVDs ay nagbibigay ng isang serbisyo ng fault-tolerant hosting, ang paglunsad ng produkto ay naganap noong Setyembre 2015.

Ang paggamit ng VMManager Cloud Company ay nagmula sa mga sumusunod na pagsasaalang-alang:

Malawak na karanasan sa mga produkto ng ispsystem.
Ang pagkakaroon ng pagsasama sa BillManager bilang default.
Mahusay na kalidad ng mga produkto ng tech support.
Ceph Support.

Ang kumpol ay may mga sumusunod na tampok:

Ang paghahatid ng data ay batay sa mga network ng InfiniBand sa bilis na 56 GB / s;
Infiniband-network na binuo sa mellanox equipment;
Sa mga node ng imbakan na naka-install ang mga carrier ng SSD;
Uri ng imbakan - Ceph.

Mukhang ganito ang pangkalahatang pamamaraan:

Sa kaso ng isang pangkalahatang kabiguan ng infiniband-network, ang koneksyon sa pagitan ng imbakan ng VM at Computing Servers ay ginaganap sa pamamagitan ng isang network ng Ethernet na naka-deploy sa juniper equipment. "Pumili" ay awtomatikong nangyayari.

Salamat mataas na bilis Ang pakikipag-ugnayan sa repository tulad ng isang kumpol ay angkop para sa paglalagay ng mga ultra-mataas na mga site ng pagdalo, video hosting na may streaming na pagpaparami ng nilalaman, pati na rin para sa gumaganap na mga operasyon na may malaking volume ng data.

Epilogue.

Ibigay ang buod ng artikulo. Kung ang bawat pangalawang serbisyo downtime ay nagdudulot ng makabuluhang pagkalugi - huwag gawin nang walang kumpol ng patuloy na availability.

Gayunpaman, kung ang mga pangyayari ay nagbibigay-daan sa iyo upang maghintay ng 5 minuto habang ang mga virtual machine ay lumitaw sa backup node, maaari kang tumingin patungo sa QW. Ito ay magbibigay ng mga pagtitipid sa gastos ng mga lisensya at kagamitan.

Bilang karagdagan, hindi namin maaaring malaman na ang tanging paraan ng pagtaas ng kasalanan tolerance ay kalabisan. Sa pamamagitan ng pagbibigay ng reservation ng server, huwag kalimutang magreserba ng mga linya at kagamitan sa paglipat ng data, mga channel ng access sa Internet, supply ng kuryente. Lahat na maaaring reserbado - reserba. Ang nasabing mga panukala ay nagbubukod ng isang solong punto ng kabiguan, isang banayad na lugar dahil sa isang madepektong paggawa kung saan hihinto ang buong sistema. Ang pagkakaroon ng natanggap ang lahat ng mga hakbang sa itaas, makakakuha ka ng isang fault tolerant cluster, na talagang mahirap harapin. Magdagdag ng mga tag

Mga kahulugan

Alam ng lahat na ang Microsoft Exchange Dag ay "database availability group" - "database availability group".

Database — dahil sa antasmataas na kakayahang magamit Server exchange 2010 mailbox., ay tinutukoy ng database, hindi ang server, ito ang database ay ang yunitna maaaring ilipat sa pagitan ng maramihang mga server sa loob ng database availability groups sa kaso ng kabiguan. Ito kilala ang prinsipyo Kung paano ang database mobility.

Grupo - Dahil ang lugar ng availability ay tinutukoy mga server ng mailbox sa grupo ng accessibility group na United B. failover Cluster. At magtulungan bilang isang grupo.

Availability - Ang terminong ito ay tila ang hindi bababa sa halata At pinaka nakalilito. Kakatwa sapat, ang terminong ito ay direktang. mathematical Definition. At gumaganap ng mahalaga papel sa pag-unawa mga prinsipyo ng disenyo Palitan sa pangkalahatan.

Tinutukoy ng Wikipedia. "Availability" bilang pagtatalaga isa sa mga sumusunod na pagkilos:
Ang lawak kung saan ang sistema, subsystem, o kagamitan ay nasa tinukoy na kondisyon ng pagtatrabaho, ang kaso ng kabiguan ay hindi gaanong kilala, i.e. Random na oras. Ilagay lang, availability ay ibahagi ng oras kung kailan sistema na matatagpuan sa isang estado gumagana. Mathematically na Ito ay ipinahayag sa 1 minus hindi naa-access.
Ugnayan (a) ng kabuuang oras gumagana sa panahon ng tinukoy Agwat sa (b) ang magnitude ng agwat.

Sa mga tuntunin probability Theories., ang kahulugan na ito Ay nangangahulugang pareho: ang posibilidad na Ang sistemang ito o bahagi na "sa kondisyon ng trabaho" sa anumang arbitrary moment. oras.

Mathematically na maaaring masukat Sa pamamagitan ng pagbilang ng dami ng oras kapag ang sistema ay magagamit ("oras ng trabaho") para sa ilang Big Statistical. panahon ng kinatawan (Karaniwang taon), at paghati ito para sa kabuuang haba ng panahon. Gamit ang malawak na tinanggap na oras average na oras sa pagitan ng pagkabigo (MTBF - ibig sabihin ng oras sa pagitan ng mga pagkabigo) at average na oras ng serbisyo (MTTR - ibig sabihin ng oras upang ayusin) - Ipinakilala access sa system./ oras ng trabaho sa pagitan ng mga pagkabigo, downtime ng system. para sa anumang ibinigay kabiguan - availability maaaring ipahayag bilang.maliit na bahagi:

Kabaligtaran Ang mga katangian ng matematika ay magiging probability of Refusal.:

Availability madalas na ipinahayag bilang. "Bilang ng siyam", alinsunod sa sumusunod na talahanayan:

Antas ng availability	Kahulugan ng access	Probability of Refusal.	Permissed idle time bawat taon
Dalawang siyam	99%	1%	5256 minuto \u003d 3.65 araw
Tatlong siyam	99.9%	0.1%	525.6 minuto \u003d 8.76 oras
Apat na nines.	99.99%	0.01%	52.56 minuto
Limang siyam	99.999%	0.001%	5.26 minuto

Siyempre, ang halaga ng availability ay naiiba depende sa Isinasaalang-alang natin naka-iskedyul(nakaplanong) at hindi naka-iskedyul (hindi planned) downtime o lamang unplanned downtime.. Kasunduan sa antas ng serbisyo (SLA)na nagpapahayag mga pangangailangan sa negosyo Ang availability ay dapat maglaman ng tiyak na impormasyon. Ngunit sa lahat ng kaso Availability ng ito o iyon mga sistema o bahagi depende sa maraming mga kadahilanan, I. napakahalaga matukoy at maintindihan Ang mga dependency na ito I. paano sila nakakaapekto availability.

Ang epekto ng mga dependency ng addiction.

Availability ng database exchange mailbox. depende sa pagkakaroon ng marami pang iba mga serbisyo at mga bahagi - halimbawa, subsystem storage, On.na nagho-host ng database, server kung saan Gumagana ang database na ito, pagkonekta sa network ng server na ito, atbp. Lahat ng ito mahalagang bahagi, I. kabiguan ng sinuman na kung saan ay nangangahulugan na ang paglilingkod kabiguan, kahit na database mismo ay isang ganap na maisagawa. Ibig sabihin nito ay Upang ang database ay magagamit bilang isang serbisyo, ang bawat addiction ay din ay dapat na magagamit. Kung tama kami tinutukoy namin at isla Dependency components, maaari naming mathematically kalkulahin kung paano nila matukoy ang resultang antas availability ng database Exchange mailbox.

Para sa isang naibigay mga database ng mailbox., ang mga sumusunod na bahagi maaaring isaalang-alang kung paano mga kritikal na dependency:
disk subsystem database / storage system - halimbawa A1;
mailbox Server. (bilang hardware, So. at mga bahagi ng software) - A2;
mula sa. everver Client Access. (Hardware I. software. Mga Bahagi) - Tandaan na sa Exchange 2010 lahat ng bagay ang mga customer ay konektado sa K. mailbox database. tanging sa pamamagitan lamang Client access server (server na may client access role), at ipagpalagay natin na ang cas ay naka-install nang hiwalay mula sa. Mga server ng mailbox server - A3;
koneksyon sa network sa pagitan ng mga kliyente I. Client Access Server, at sa pagitan ng server access ng kliyente at mga mailbox ng server - A4;
Elektrisidad sa sentro ng datakung saan matatagpuan ang mga server. at mga sistema ng imbakan - A5.

Listang ito maaaring magpatuloy ang isa ... Halimbawa, Active Directory at DNS. kumakatawan din Kritikal na pagtitiwala para sa palitan. Bukod, sa. suplemento upang linisin teknolohikal dependency sa availability impluwensya tulad ng mga kadahilanan pagkakamali ng tao, hindi tamang pagpapatupad ng mga karaniwang operasyon ng serbisyo, walang koordinasyon Team Technical Support. Ang lahat ng ito ay maaaring humantong sa. kapansanan. Hindi namin susubukan sumulat ng libro malawak na listahan dependencies, A. sa halip, tumuon sa. Paano sila nakakaapekto sa pangkalahatang pagkakaroon ng mga serbisyo.

Dahil ang mga sangkap na ito ay hiwalay malaya sa bawat isa, ang pagkakaroon ng bawat isa sa kanila kumakatawan sa independiyenteng. Kaganapan, at ang resultang antas ng availability database exchange mailbox. ay kumakatawan sa isang kumbinasyon lahat ng mga pangyayaring ito (sa ibang salita, nang sa gayon mailbox database.ito ay magagamit para sa Mga customer ang lahat ng ito ang mga bahagi ay dapat Magagamit). Ng probability Theories.Probability of Combination. mga independiyenteng kaganapan ito ay produkto Hiwalay na mga probabilidad para sa bawat kaganapan:

Halimbawa, kung magtapon ka ng tatlong barya, probability of Falling Out. "Eagle" para sa lahat ng tatlong barya (1/2) * (1/2) * (1/2) \u003d 1/8.

Mahalagang maunawaan na ang halaga ng accessibility ay hindi maaaring maging higit sa 1. (o 100%), at bilang isang resulta pagkakaroon ng serbisyo ay isang produkto ng abot-kayang mga indibidwal na bahagi, ang halaga ng pagkakaroon ng kung saan hindi maaaring maging higit paAng pinakamababang halaga ng dependency availability.

Ito ay maaaring isalarawan Sa halimbawa na ipinakita sa sumusunod na talahanayan (Mga numero ay mga halimbawa):

Kritikal na addiction	Probability of Refusal.	Antas ng availability
Mailbox server at storage system.	5%	95%
Client Access Server.	1%	99%
Net.	0.5%	99.5%
Pagkain	0.1%	99.9%
	6.51383%	95% x 99% x 99.5% x 99.9% \u003d 93.48617%

Mula sa halimbawang ito, maaaring makita kung paano critically. mahahalagang dependency makakaapekto sa pagkakaroon ng serbisyo. Kahit na para sa mga database ng mailbox.na hindi kailanman nabigo (hindi ay nasira, hindi kailanman natatanggap NIC. mga impeksyon sa viral atbp.), Accessibility. nananatili pa rin sa ibaba 93.5%!

Konklusyon: Malaking bilang ng Binabawasan ng mga dependency ng serbisyo ang access.

Lahat ng ginagawa namin pagbabawas ng numero o mga dependency ng pagkakalantad positibong epekto sa pangkalahatang pagkakaroon ng serbisyo. Halimbawa , maaari naming mapabuti Sitwasyon sa pamamagitan ng pagpapasimple I. Ari-arian pamamahala ng server at pag-optimize mga pamamaraan ng pagpapatakbo. Mula sa teknikal na panig, Kami pwede nating subukan bawasan ang halaga ng. Mga dependency ng serbisyo sa pamamagitan ng paggawa ng aming disenyo mas madali - halimbawa, inaalis ang mga kumplikadong mga sistema ng imbakan batay sa SAN, switch ng hibla, mga controllers ng array, at kahit na mga controllers ng RAID at pinapalitan ito ng isang simpleng DAS na may minimum paglipat ng mga bahagi.
Ang pagbawas ng mga dependency ng serbisyo mismo ay hindi maaaring maging sapat para dalhin ang access sa nais na antas. Isa pang napaka. epektibong Paraan Palakihin ang Accessibility I. epekto sa isang minimum Mga kritikal na dependency ng serbisyo namamalagi sa atraksyon iba't ibang mga pamamaraan pagpapareserba tulad ng paggamit dalawang mapagkukunan ng kapangyarihan, pagsasama ng mga network card, pagkonekta ng mga server Sa iba network switch.Paggamit ng RAID para sa. operating System. , Pag-deploy ng hardware balancing para sa mga server access ng kliyente I. maramihang mga kopya mga database ng mailbox.. Ngunit kung paano eksaktong pagtaas sa kalabisan nagpapahintulot sa iyo na makamit ang mataas na availability? Mas detalyado tayo Isaalang-alang load balancing I. maramihang mga kopya ng database bilang mahalaga mga halimbawa.

Paano nakakaapekto ang availability redundancy

Ang lahat ng mga pamamaraan ng reservation ay nangangahulugan ng isang bagay: oo higit sa isang kopya bahagi na magagamit at maaaring magamit alinman sa parehong oras (tulad ng sa mag-load ng balancers.) o bilang isang kapalit (tulad ng sa kaso ng. maramihang mga kopya ng database). Ipagpalagay natin Mayroon kaming N. mga pagkakataon nito bahagi (n server sa cas, o n array mga database ng kopya. sa DAG). Kahit na ang isa sa kanila nabigo sa. Iba pa maaaring magamit para sa mataas na kakayahang magamit. Ang tanging sitwasyon Kapag nahaharap kami sa aktwal na mga pagkabigo sa serbisyo, kapag ang lahat ng mga pagkakataon ay hihinto sa pagiging naa-access.

Tulad ng tinukoy na mas maaga, probability of Refusal. para sa sinuman halimbawa na ito P \u003d 1 - A. lahat ng mga specimens. istatistika independiyenteng. mula sa bawat isa ano ang ibig sabihin nito Pagganap o kabiguanang alinman sa mga ito ay hindi nakakaapekto sa pagiging naa-access sa ibang mga kaso. Halimbawa, kabiguan mga kopya ng database Ay hindi nakakaapekto probability of Refusal. Para sa isa pang kopya ang database na ito (Ang isang lohikal na pananalig ay posible kapag ang isang nasira na kopya ay magpapakalat ng mga pagbabago sa iba pang mga kopya, ngunit hayaan huwag pansinin ito Factor - B. sa huliMaaari mong palaging gumamit ng isang patay na kopya ng database o isang pagpipilian sa pagbawi. tradisyonal na backup).

Muli gamit ang parehong teorama probability Theories., probability of Refusal. Magtakda ng mga independiyenteng bahagi ito ay produkto Probables. para sa bawat bahagi. Dahil ang lahat ng mga sangkap ay magkapareho dito (iba't ibang mga pagkakataon ng parehong bagay):

Malinaw naman, bilang. P.< 1, P N. mas mababa P.Ano ang ibig sabihin nito probability of Refusal. Bumababa, at, nang naaayon, ang pagtaas ng access ay:

Isaalang-alang ang ilan tunay na halimbawa ng buhay para sa kaliwanagan . Sabihin nating kung ano ang aming na-install Maramihang mga kopya mga database ng mailbox.; Ang bawat kopya ay nakalagay sa isang SATA disk. Ayon sa mga istatistika, ang porsyento ng mga pagkabigo ng SATA ay ~ 5% para sa isang taon, na nagbibigay sa amin ng 5% probability of Refusal.: P \u003d 0.05 (na nangangahulugang ang pagkakaroon ng 95%: A \u003d 0.95). Paano baguhin ang access tulad ng idinagdag mga kopya ng database? Tignan natin susunod na Table.:

Bilang ng kopya	Probability of Refusal.	Antas ng availability
1	P 1 \u003d p \u003d 5%	Isang 1 \u003d 1 - p 1 \u003d 95%
2	P 2 \u003d P 2 \u003d 0.25%	Isang 2 \u003d 1 - p 2 \u003d 99.75%
3	P 3 \u003d p 3 \u003d 0.0125%	Isang 3 \u003d 1 - p 3 \u003d 99.9875%
4	P 4 \u003d p 4 \u003d 0.000625%	Isang 4 \u003d 1 - p 4 \u003d 99.9994%

Ay kahanga-hanga? Sa prinsipyo, bawat isa karagdagang pagkakataon Ang mga database sa SATA Disk ay nagpapakilala coefficient multiplication. 5% o 1/20, kaya posibilidad Ang pagkabigo ay nagiging 20 beses na mas mababa, sa bawat kopya (at naaayon, Pagtaas ng availability). Maaari naming makita na kahit na sa. ang pinaka hindi kapani-paniwala SATA disks, pagpapatupad lamang 4. mga database ng kopya. Nagdadala sa amin availability ng database Sa limang siyam.
ito napakaganda, ngunit. maaari ko bang gawin mas mabuti? Maaari naming. dagdagan ang access hindi pa rin ginagawa mga pagbabago sa arkitektura (Halimbawa, kapag nagdadagdag ng isa pa mga kopya ng database)?

Sa katunayan, magagawa natin. Kung mapapabuti namin ang indibidwal na access anumang bahagi dependency ito pagtaas ng kadahilanan pangkalahatang access Serbisyo, I. ay hahantong sa marami mas malakas na epekto kaysa mula sa pagdaragdag labis na bahagi. Halimbawa, ang isa sa posible mga paraan upang gawin iyon, ay ginagamit Malapit sa mga drive ng SAS sa halip ng mga disk ng SATA. Ang malapit sa Sas Discs ay may taunang antas ng kabiguan ~ 2.75% sa halip na ~ 5% para sa SATA. Ito ay bawasan probability of Refusal. para sa bahagi ng imbakan at, samakatuwid, ay dagdagan ang pangkalahatang pagkakaroon ng serbisyo. Medyo kumpara Epekto ng OT. mga pagdaragdag ng ilang mga kopya ng database:
5% koepisyent AFR \u003d 1/20 \u003d Pagmami ng bawat bagong kopya gumagawa ng pinsala Ang mga database ng 20 beses ay mas madalas.
2.75% AFR \u003d 1/36. coefficient multiplication. \u003d bawat bagong kopya gumagawa ng pinsala Ang mga database 36 beses ay mas madalas.

ito makabuluhang impluwensya sa.pagkakaroon ng database na Ipinaliliwanag din ang mga tagubilin upang gamitin ang konsepto ng sariling proteksyon ng data ng palitan - Exchange Native Data Protection, na nagpapaliwanag na ang ilang mga kopya ng database ay maaaring kapalit para sa tradisyonal. Mga backup kung pinalawak sapat na bilang (tatlo o higit pa).

Ang parehong lohika ay naaangkop to. i-deploy ang ilan client Access Servers. Sa cas massif, ilang network switch. atbp. Ipagpalagay namin 4 na kopya ng database at 4 na deployed 4. client Access Servers.at bumalik tayo sa bahagi ng talahanayan ng accessibility na sinuri natin nang mas maaga:

Kritikal na addiction	Probability of Refusal.	Antas ng availability
Mailbox server at imbakan (4 na kopya)	5% ^ 4 = 0.000625%	99.999375%
Client Access Server (4 Servers Excluded)	1% ^ 4 = 0.000001%	99.999999%
Net.	0.5%	99.5%
Pagkain	0.1%	99.9%
Pangkalahatang halaga (depende sa lahat ng mga sangkap na ito)	0.6%	99.399878%

Kami maaaring makita kung ano Lamang namin inilunsad 4. client Access Servers at 4 mga database ng kopya., probability of Refusal. Ang kabuuang serbisyo ay bumaba ng higit sa 10 beses (mula 6.5% hanggang 0.6%) at naaayon, pagkakaroon ng mga serbisyo nadagdagan mula 93.5% sa isang mas disenteng halaga ng 99.4%!

Konklusyon: Pagdaragdag ng kalabisan para sa mga dependency pinahuhusay ang access.

Kumonekta nang sama-sama

Kagiliw-giliw na nangyayari Ang tanong ng mga nakaraang konklusyon. Kami pinag-aralan Dalawang magkaiba impluwensya ng mga kadahilanan Sa karaniwan pagkakaroon ng mga serbisyo dalawang magkaibang paraan at natagpuan ang dalawang malinaw na output:
Karagdagan higit pang mga systemic. Depende ay binabawasan ang access
Ang pagdaragdag ng kalabisan sa mga dependency ng system ay nagdaragdag ng access
Ano ang mangyayari kung Kumonekta sa paglutas ng parehong kadahilanan? Anong mga trend ang mas malakas?
Isaalang-alang ang sumusunod na sitwasyon:
Ginagamit namin ang dalawang mailboxer sa grupo ng DAG na may dalawang kopya. mga database ng mailbox. (isang kopya sa bawat server), at ginagamit namin ang dalawang server access ng kliyente Sa array. na may load balancing. (Para sa pagiging simple namin isaalang-alang lamang Availability mga database ng mailbox. para sa mga koneksyon sa kliyentenang hindi isinasaalang-alang ang papel transport Server-Hub. at pinag-isang sistema ng pagmemensahe) . Ipagpalagay na LAHAT NG LAHAT ang server ay may sarili nito Indibidwal probability of Refusal. P, kung ang pagkakaroon ng tulad ng isang sistema ay magiging mas mahusay o mas masahol pa kaysa sa mula sa isang unfolded offline exchange server na may parehong mga papel ng mailbox server at access ng kliyente?

Sa unang sitwasyon, Mga server ng mailbox ay independiyenteng I. Hindi sila magagamit lamang kung ang mga server ay nabigo. Ang posibilidad ng kabiguan Set ng dalawa mga server ng mailbox magiging P.× P. = P. 2. Alinsunod dito, ang availability nito ay magiging Isang MBX. = 1 – P 2.. Kasunod ng parehong logic, serbisyo ng CAS. ito ay hindi magagamit lamang kung ang parehong mga server access ng kliyente Out of Order. samakatuwid, posibilidad kabiguan para sa isang hanay ng dalawa client Access Servers. Ito ay muli P.× P. = P. 2 at naaayon, Ang pagiging naa-access nito ay magiging Isang cas. = 1 – P 2..
Sa kasong ito, tulad ng naintindihan namin, dalawang mailbox server o dalawang server access ng kliyente ay mga halimbawa labis mga bahagi ng system.
Ipagpatuloy namin ang sitwasyong ito. Para sa buong sistema na magagamit, parehong mga hanay ng server (hanay ng mga server ng mailbox at itakda client Access Servers.) ay dapat na magagamit Kasabay nito. Hindi mabigo sa parehong orasngunit magagamit sa parehong oras dahil ngayon sila ay kumakatawan systemic. mga dependency, ngunit hindi labis na mga bahagi. Ibig sabihin, ano sa pangkalahatan availability ng serbisyo ito ay produkto Availabilitybawat set.:

Sigurado, ikalawang opsyon mas madali tulad ng umiiral isang server lamang at isaalang-alang naa-access nitolamang A. = 1 – P..
At ngayon kami kinakalkula ang kahulugan availability para sa parehong mga sitwasyon. Z. ang downion ng kung saan sa itaas, (1-P. 2 ) 2 o. 1-P.?

Kung bumuo graphics. parehong mga function, makikita natin susunod na pag-uugali:

Nakita namin na para sa isang maliit na halaga P, ang pagkakaroon ng isang komprehensibong sistema ng 4 server ay mas mataas kaysa sa pagkakaroon ng isang server. Walang kamangha-mangha, ito ang inaasahan namin, tama ba? Gayunpaman, sa P ~ 0.618 - dalawang bahagi ay tumawid, at sa malalaking halaga ng p isang sistema Ang mga server ay talagang may mas mataas na availability. Siyempre, malamang na inaasahan na ang halaga ng P ay dapat na malapit sa zero totoong buhay. Gayunpaman, kung plano naming lumikha ng iyong sariling solusyon mula sa napaka hindi mapagkakatiwalaang mga bahagi, malamang na ang solusyon sa anyo ng isang server ay magiging mas mahusay.

Ang impluwensiya ng mga punto ng pagtanggi

Sa kasamaang palad, ang mga sitwasyong deployment na inilarawan sa itaas ay bihira sa totoong buhay. Halimbawa, paano makakaapekto sa pagbabago sa availability, napapailalim sa pag-deploy ng isang server na may maramihang mga tungkulin? Napansin namin na sa halimbawa sa itaas, ang kumbinasyon ng mga tungkulin ng server ay epektibong binabawasan ang bilang ng mga dependency ng serbisyo, kaya malamang na ang lahat ay pagmultahin? At ano ang mangyayari kung maglagay kami ng dalawang kopya ng database mula sa isang database sa parehong SAN o DAS array? Paano kung ang lahat ng mga server ng mailbox ay nakakonekta sa isang solong switcher ng network? Paano kung mayroon tayong lahat at higit pa?

Ang lahat ng mga sitwasyong ito ay nakaharap sa amin ng konsepto ng isang punto ng pagtanggi. Sa itaas na mga halimbawa ng mga kagamitan sa server o isang SAN array o isang switch ng network, may mga punto ng kabiguan. Ang punto ng kabiguan ay pumipigil sa kalayaan o kalabisan ng mga sangkap na pinagsasama nito - halimbawa, ang kabiguan ng mga bahagi ng mga kagamitan sa server sa isang server na may kumbinasyon ng mga tungkulin ay nangangahulugan na ang lahat ng mga tungkulin sa server na ito ay hindi magagamit; Alinsunod dito, ang disk failure o SAN array ay nangangahulugan na ang lahat ng mga kopya ng mga database na inilagay sa disk o array na ito ay hindi maa-access.

Ngunit ang pagkakaroon ng isang punto ng pagtanggi ay hindi palaging masama. Ang isang mahalagang pagkakaiba ay ang mga sangkap na bumubuo sa punto ng pagtanggi ay naiiba mula sa mga dependences ng sistema o labis na mga sangkap ng system. Isaalang-alang ang dalawa sa mga halimbawa sa itaas upang maunawaan ang pagkakaiba na ito.

Server scenario na may multirts.

Ihambing natin ang pagkakaroon ng dalawang magkakaibang sistema:
1. Rolstery ng server ng mailbox at server ng access ng client, na matatagpuan sa parehong server na may posibilidad ng pagkabigo ng hardware p;
2. Sa parehong mga tungkulin ay nai-post sa dalawang magkahiwalay na mga server, ang bawat isa ay may parehong posibilidad ng kabiguan ng kagamitan.

Sa unang kaso, ang hardware ng isang server ay isang punto ng kabiguan. Nangangahulugan ito na ang lahat ng nai-post na mga tungkulin ay magagamit o hindi magagamit. Ito ay simple, sa pangkalahatan, ang pagkakaroon ng naturang sistema A \u003d 1 - P.

Sa pangalawang kaso, sa pangkalahatan, ang serbisyo ay magagamit lamang kapag ang parehong mga server ay magagamit nang nakapag-iisa (dahil ang bawat papel ay isang kritikal na pagtitiwala). Samakatuwid, batay sa teorya ng mga probabilidad, ang presensya nito ay magiging isang × A \u003d A2.

Muli, tulad ng A.<1, это означает, что A2 < А, так во втором случае доступность будет ниже.

Tila, maaari naming magdagdag ng iba pang mga tungkulin ng Exchange Server (Hub transportasyon, at isang solong sistema ng pagmemensahe kung kinakailangan) sa parehong sitwasyon, nang walang paglabag sa lohika na ito.

Konklusyon: Ang paglalagay ng mga tungkulin ng server ng Exchange sa server na may multi-wheel ay nagdaragdag sa pangkalahatang availability ng mga serbisyo.

Sitwasyon ng karaniwang imbakan

Ngayon isaalang-alang ang isa pang senaryo ng pagkabigo point (dalawang kopya ng database ng palitan sa isang array), at ihambing ang pagkakaroon ng database sa sumusunod na dalawang kaso:

1. Mga kopya ng mga database na inilagay sa parehong imbakan (SAN o DAS), na may posibilidad ng p;
2. Sa parehong mga kopya ng mga database na inilagay sa dalawang magkahiwalay na mga sistema ng imbakan, ang bawat isa ay may parehong posibilidad ng kabiguan.

Sa unang kaso, ang pangkalahatang imbakan ay isang pagtanggi na punto. Tulad ng sa nakaraang sitwasyon, nangangahulugan ito na ang parehong mga kopya ng database ay magagamit o hindi magagamit sa parehong oras, kaya ang pangkalahatang antas ng availability muli A \u003d 1 - P.

Sa ikalawang kaso, sa pangkalahatan, ang serbisyo ay magagamit kung hindi bababa sa isang sistema ang magagamit at hindi magagamit kung ang parehong mga sistema ay nabigo. Ang mga sistema ng imbakan ay malaya. Samakatuwid, ang posibilidad ng kabiguan para sa. karaniwang serbisyo P × p \u003d p2 at, naaayon, ang pangkalahatang availability ng mga serbisyo ay a \u003d 1 - p2.

Muli, kung P.< 1, то это означает, что Р2 <Р, и, следовательно, 1 – P2 > 1 - P. Nangangahulugan ito na ang antas ng availability sa pangalawang kaso ay mas mataas.

Konklusyon: Ang paglalagay ng mga kopya ng isang database sa parehong sistema ng imbakan ay binabawasan ang pangkalahatang availability ng mga serbisyo.

Kaya kung ano ang pagkakaiba sa pagitan ng dalawang sitwasyong ito, kung bakit ang pagpapakilala ng mga punto ng kabiguan ay nagdaragdag ng availability sa unang kaso at binabawasan ang availability sa iba?

Ito ay dahil ang punto ng pagtanggi sa unang kaso ay pinagsasama ang dependency service, epektibong pagbabawas ng kanilang numero at, samakatuwid, pinatataas ang antas ng availability, habang ang pagtanggi point sa pangalawang kaso ay pinagsasama ang labis na mga bahagi, epektibong pagbabawas ng kalabisan at samakatuwid availability deteriorates.

Ang lahat ng mga konsepto at konklusyon ay maaaring iharap sa sumusunod na form:

Mga konklusyon

Exchange 2010 architecture. nagbibigay ng malakas mga Kakayahan para sa pagdaragdag redundancy (hal., i-deploy ang ilan mga kopya ng database o. maramihang mga server ng access ng client sa array. Cas.) at nabawasan bilang ng systemic. mga dependency (sa pamamagitan ng pagsasamahan exchange Server Roles. o. via. plain. imbakan architecture. wala labis na Numero mga kritikal na bahagi). Simpleng mga panuntunan at mga formulakinakatawan ng B. ang artikulong ito payagan kalkulahin impluwensya sa halaga availability mula sa pag-deploy karagdagang mga database ng kopya. o. mula sa isang kumbinasyon exchange Server Roles. T. maaari lamang kalkulahin impluwensya Mga punto ng kabiguan. Totoong buhay bihira tama ang sukat sa B. simpleng basic. mga sitwasyon, at kailanganmas kumplikado mga kalkulasyon, Para makuha makatwirang. mga pagtatantya Antas ng availability real Systems.; maaari itong maging facilitated atsukatin lamang Antas ng availability istatistika at check., kung nakakatugon ito sa mga kinakailangan SLA.. Gayunpaman, pag-unawa sa mga kadahilanan nakakaapekto sa access magkasama mula sa. kumplikado teknikal na solusyon dapat tumulong bumuo desisyon tama ako. makiisa makabuluhang pagtaas karaniwan antas ng availability Mga serbisyo kahit para sa pinaka-hinihingi na mga kinakailangan sa negosyo.

Kamakailan lamang, lumalaki ako sa isang mahabang panahon na naglalakbay sa aking ulo at sa halip na pag-iisip: Ang isang klasikong tagapagpahiwatig ng availability ay hindi angkop para sa pagsukat at pag-evaluate ng availability ng mga serbisyo ng IT sa tunay na mundo. At sa ilang mga kaso, maaari itong madaling tumanggi. Ang mga kasong ito ay pangunahing nauugnay upang masukat ang availability ng uri "" (talagang ito ay tungkol sa IT accessibility ng mga proseso ng negosyo). Susubukan kong bigyang-katwiran at natutuwa akong marinig ang mga pagtutol.

Sa tingin ko lahat ng mga mambabasa ng portal formula pamilyar:

Availability \u003d (AST - DT) / AST.,

saan Ast. - Pare-parehong oras ng probisyon ng serbisyo, Dt. - Ang halaga ng downtime para sa panahon.

At marahil ay pamilyar na kahirapan sa paggamit nito:

Ang unang kumplikado ay nauugnay sa talakayan ng tagapagpahiwatig. Ang availability ay tinukoy bilang 99.9%. Tila hindi masama. Ngunit 0.1% bawat taon ay halos 9:00. At isang buwan ay halos 45 minuto. At isang linggo - higit sa 10 minuto. Kaya kung ano ang ibig sabihin ng 99.9% ang customer? At service provider?

Gayunpaman, ang susunod na nuance ay mas matibay: ang tagapagpahiwatig ay hindi tumpak na sumasalamin sa negatibong epekto sa negosyo. Paano kung ang lahat ay walang maliit na 9 oras bawat taon ang nangyari? O ang serbisyo ay hindi magagamit sa mga mamimili sa loob ng dalawang minuto, ngunit 15 beses sa isang araw? Paano ito ipapahayag sa porsiyento? .. Samakatuwid, halimbawa, ang ITIL ay nagpapakilala ng mga tagapagpahiwatig tulad ng MTRS, MTBF, MTBSI.

Gayunpaman, ipinapanukala ko na bumalik sa simula ng mga coordinate at tanungin ang tanong, bakit sa pangkalahatan ay ipakilala natin ang availability? Bakit ang mga kinakailangan sa negosyo para sa pagkakaroon ng mga serbisyo? Bakit dapat matiyak ng tagabigay ng serbisyo ang mataas na availability at mag-ulat sa mga aktwal na halaga nito? Ang sagot ay simple: ang negosyo ay nagdadala ng pagkawala dahil sa downtime ng mga serbisyo ng IT. Kaya, ang perpektong para sa negosyo ay isang tagapagpahiwatig ng availability, marahil ay isang panukat na "pagkalugi dahil sa downtime IT Services"?

Mahigpit na matutulungan ang gayong sukatan at service provider. Pagkatapos ng lahat, ito ay isang handa na sagot sa tanong ng mga panganib sa negosyo na nauugnay sa kapansanan sa IT accessibility. At, samakatuwid, ang service provider ay lumilitaw ang pagkakataon:

mas malinaw na i-broadcast ang availability ng mga proseso ng negosyo sa imprastraktura ng IT;
mas makatwirang gumawa ng mga desisyon sa mga panukala na naglalayong mapabuti ang pagiging maaasahan at pagpapahintulot sa mga sistema ng IT;
mas makatwirang suriin ang tagumpay ng mga panukala sa mga resulta ng kanilang pagpapatupad.

Ngunit, siyempre, ang pagkalkula ng naturang panukat ay mahirap, kung minsan imposible. Kaya, dapat nating tukuyin ang iba pang mga tagapagpahiwatig, hindi nalilimutan na sa pinagsama-samang dapat silang magdala ng impormasyon tungkol sa impluwensya ng negosyo (aktwal o potensyal).

Ano ang pagkawala ng negosyo depende sa downtime?

Ang mas maliit sa panahon ng pag-uulat ng serbisyo ay nasa oras, mas malaki ang pagkawala. Ipinapakilala namin ang isang tagapagpahiwatig ng "kabuuang downtime".
Ang mas mahabang simple, mas maraming pagkawala. Kadalasan, ang mga pagkalugi ay hindi pare-pareho sa oras ng magnitude at depende sa tagal ng pag-abala exponentially. Sa unang pagkakataon, ang pinsala ay binubuo ng di-sakdal na mga transaksyon, pagkawala ng mga tauhan ng produktibo at pagpapanumbalik ng mga gastos, ngunit mula sa isang sandali ng isang pang-matagalang simpleng nagbabantang negosyo na may mga multa, mga parusa, pinsala sa reputasyon, at iba pa. Ipinapakilala namin ang indicator na "maximum na isang beses na simple".
Ang isang bilang ng mga proseso ng negosyo, sa kabaligtaran, ay "sensitibo" hindi sa solong mahabang paggastos, ngunit sa madalas na interrupts. Ito ay isang partikular na mahalagang kadahilanan para sa mga proseso, sa loob ng balangkas na kung saan ang pangmatagalang kalkulasyon ay nangyari, na kung saan ang pag-interrupting ay kinakailangan upang i-restart. Kaya, ito ay dapat na ibinigay bilang mas kaunting mga pagkagambala para sa panahon. Ipinapakilala namin ang isang tagapagpahiwatig na "bilang ng mga paglabag".

Isang alternatibo (o karagdagang) panukat na sumasalamin sa parehong aspeto, ngunit may diin sa panahon ng mga gumagamit ng kalmado, maaaring mayroong isang tagapagpahiwatig na "minimum (o average) na tagal ng trabaho nang walang mga paglabag."

Ang mga tagapagpahiwatig na ipinakita sa aggregate ay tila sumasalamin sa likas na katangian ng pagkawala ng negosyo dahil sa downtime IT Services. Samakatuwid, ito ay nananatiling lamang sa isang kilalang paraan upang magsagawa ng pagrasyon at pagsasama-sama. Oo, ang nagresultang tagapagpahiwatig ay ipapahayag din bilang isang porsyento, ngunit ito ay ganap na magkakaibang mga porsyento.

Kasabay nito, hindi kinakailangan para sa bawat serbisyo ng IT upang gamitin ang lahat ng tatlong (o apat na) sukatan. Depende sa kung ang negosyo ay sensitibo sa mga madalas na paglabag sa paglilingkod na ito o, sa kabaligtaran, ang pang-matagalang isang beses na karamdaman ay kritikal para dito, ang ilang mga tagapagpahiwatig ay maaaring tanggalin o kasama sa pagkalkula na may mas maliit na timbang.

Mula sa ipinakita na mga sukatan, maaari mong madaling pumunta sa sikat na MTRs, MTBF, MTBSI at, siyempre, ang klasikong tagapagpahiwatig ng availability. Ngunit, sa palagay ko, sasabihin ng iminungkahing set ang customer at service provider na higit pa tungkol sa impluwensya ng negosyo ng mga paglabag sa pag-access nito. O hindi?

Desperately kailangan pagtutol. Bakit, mula sa klasikong tagapagpahiwatig ng pagkakaroon ng isang serbisyo na ipinahayag sa porsiyento, sa walang kaso ay hindi maaaring tumanggi? Mayroon bang isang tagapagpahiwatig sa iyong mga ulat? Ano at sino ang sinasabi niya?

Ang Kasunduan sa Antas ng Serbisyo ay isang dokumento na naglalarawan sa antas ng mga serbisyo na inaasahan ng customer mula sa supplier batay sa mga tagapagpahiwatig na naaangkop sa serbisyong ito at pagtatatag ng responsibilidad ng provider kung ang mga napagkasunduang tagapagpahiwatig ay hindi nakamit.

Halos nagsasalita, kung hindi mo pinagana ang internet sa bahay, pagkatapos ay sa dulo mo plun at pumunta para sa isang lakad, sa isang pelikula o zabak, sa pinakamahusay na, umaasa para sa muling pagkalkula.

Kung mayroon kang isang koneksyon sa opisina, hihinto ang mga benta (hindi maaaring makuha ng mga customer at, nang hindi naghihintay ng sagot sa pamamagitan ng koreo, pumunta sa iba pang mga supplier), ang accounting ay hindi maaaring humawak ng mga pagbabayad (narito na ang iyong mga kasosyo), at Kung ikaw, sabihin, ang Trader Bureau, ang halaga ng mga pinsala ay maaaring maabot ang libu-libong dolyar (hindi ka makakabili o magbenta ng pagbabahagi sa oras).

Maaaring may isang lyric retreat ng channel reservations, atbp, ngunit mayroon kaming isang halimbawa sa harap ng aming mga mata - ang gusali ng Moscow City complex, kung saan ilang taon na ang nakalipas isang hindi inaasahang paraan at ang pangunahing, at ang backup channel naka-out na mula sa isang provider. At ang problema, tulad ng alam mo, ay hindi nag-iisa. Bilang isang resulta, dalawang beses sa loob ng 7-8 oras (sa oras ng pagtatrabaho) ay naging walang kaugnayan sa kumpanya mula sa Fortune 500 Rating.
Samakatuwid, ang mga espesyal na masusing legal na serbisyo ng mga kumpanya, na ang negosyo ay partikular na sensitibo sa kalidad ng komunikasyon, subukan upang kalkulahin ang halaga ng pinsala ng kumpanya hindi lamang ang gastos ng mga hindi natupok na mga serbisyo, kundi pati na rin sa benepisyo ng kliyente bilang isang resulta ng downtime.

Punto

Narito ang ilang mga tagapagpahiwatig, sa isang partikular na komposisyon sa mga dokumento ng operator:

ASR (Sagot Seizure Ratio) - Parameter na tumutukoy sa kalidad ng koneksyon sa telepono sa isang ibinigay na direksyon. Ang ASR ay kinakalkula bilang porsyento ng ratio ng numero bilang resulta ng mga tawag para sa mga koneksyon sa telepono sa kabuuang bilang ng mga hamon sa tinukoy na direksyon.
PDD (post dial delay) - Ang parameter na tumutukoy sa tagal ng panahon (sa mga segundo), na lumipas mula noong tawag hanggang sa itakda ang koneksyon ng telepono.
Ratio ng availability ng serbisyo - Ang ratio ng oras break sa probisyon ng mga serbisyo sa kabuuang oras kapag ang serbisyo ay dapat na ibinigay.

Coefficient pagkawala ng pack ng impormasyon - Ang ratio ng maayos na natanggap na mga packet ng data sa kabuuang bilang ng mga packet na inilipat sa network para sa isang tiyak na tagal ng panahon.
Pansamantalang pagkaantala sa pagpapadala ng mga pakete ng impormasyon - Ang agwat ng oras na kinakailangan upang magpadala ng impormasyon tulad sa pagitan ng dalawang mga aparato sa network.
Pananagutan ng paglilipat ng impormasyon - Ang ratio ng bilang ng mga maling ipinadala na mga packet ng data sa kabuuang bilang ng mga packet ng data na ipinadala.
Mga panahon ng trabaho, ang oras ng mga alerto ng mga tagasuskribi at ang oras ng pagpapanumbalik ng mga serbisyo.
Sa madaling salita, ang pagkakaroon ng mga serbisyo 99.99% ay nagpapahiwatig na ang operator ay garantiya ng hindi hihigit sa 4.3 minuto ng komunikasyon bawat buwan, 99.9% - na ang serbisyo ay maaaring hindi 43.2 minuto, at 99% - na ang break ay maaaring tumagal ng higit sa 7 oras . Sa ilang mga practitioner, ang availability ng network ay nakikilala at isang mas maliit na halaga ng parameter ay ipinapalagay - walang oras. Iba't ibang uri ng mga serbisyo (mga klase ng trapiko) ay nagbibigay din ng iba't ibang mga halaga ng mga tagapagpahiwatig. Halimbawa, ang isang pagkaantala rate ay pinakamahalaga para sa boses - dapat itong maging minimal. At ang bilis para sa ito ay kailangan mababa, kasama ang ilan sa mga pakete ay maaaring mawala nang walang pagkawala ng kalidad (tungkol sa 1% depende sa codec). Upang maglipat ng data sa unang lugar, ang bilis ay lumabas, at ang mga pagkalugi ng packet ay dapat magsikap para sa zero.

Mga pamantayan ng mundo

Sa pagsasanay sa Kanluran, kaugalian na magbigay ng isang opisyal na ulat sa mga parameter ng network sa nakaraang taon. Halimbawa, ang mga tagapagpahiwatig para sa internet channel para sa maraming mga misstant na tatak.

Pagkaantala ng paghahatid ng signal (latency, MS)

	Sprintnet.		Verizon.		Cable & wireless.		Ntt.
	Katotohanan	Standard.	Katotohanan	Standard.	Katotohanan	Standard.	Katotohanan	Standard.
Europa	18.9	45	15.178	30	17.6	35.0	24.00	35
USA.	36.91	55	42.851	45	45.9	65.0	45.83	60
Asya	83.78	105	100.640	125	48.3	90.0	47.34	95
Europa Asia.	207.63	270	-	-	174.1	310.0	260.23	300
Europa-USA.	74.53	95	78.784	90	78.7	90.0	71.57	90

Packet loss (packet loss,%)

	Sprintnet.		Verizon.		Cable & wireless.		Ntt.
	Katotohanan	Standard.	Katotohanan	Standard.	Katotohanan	Standard.	Katotohanan	Standard.
Europa	0	0.3%	0.025%	0.5%	0	0.2%	0	0.3%
USA.	0.01%	0.3%	0.019%	0.5%	0.1%	0.2%	0	0.3%
Asya	0	0.3%	0.004%	1%	0	0.2%	0	0.3%
Europa Asia.	0	0.3%	-	-	0	0.2%	0	0.3%
Europa-USA.	0	0.3%	0	0.5%	0.1%	0.2%	0	0.3%

Jitter (Pagkakaiba ng Pagkaantala, Jitter, MS)

	Sprintnet.		Verizon.		Cable & wireless.		Ntt.
	Katotohanan	Standard.	Katotohanan	Standard.	Katotohanan	Standard.	Katotohanan	Standard.
Europa	0.0017	2	0.026	1	-	-	0	0.5
USA.	0.0007	2	0.058	1	-	-	0	0.5
Asya	0.0201	2	-	-	-	-	0	0.5
Europa Asia.	0.0001	2	-	-	-	-	0	0.5
Europa-USA.	0.0001	2	-	-	-	-	0	0.5

Ang halaga ng kabayaran ay depende sa buwanang pagbabayad ng kliyente at nag-iiba mula sa provider sa provider. Sa kaso kapag ang tagapagpahiwatig ng availability ng network ay lumampas sa threshold na tinukoy sa SLA, ang Verizon ay nagbabayad para sa subscriber ng araw-araw na pagbabayad para sa bawat oras ng hindi pagkakamit ng serbisyo. Kung sa anumang buwan SLA ay hindi natupad sa tagapagpahiwatig ng pagkaantala ng paghahatid ng signal, pagkatapos ay ang kabayaran ay umaasa sa dami ng mga pang-araw-araw na bayad sa subscription.

Ang Sprint ay angkop na mas matigas, at kung ang SLA ay hindi iginagalang (hindi bababa sa may kaugnayan sa), ang customer ay ibinalik sa bayad sa subscription para sa buong buwan, kung saan ang problema ay naitala.

Sa kaganapan ng hindi pagkakaloob ng serbisyo ng NTT, ang operator ay nagtatatag para sa sarili ng isang balangkas para sa pagtukoy at paglutas ng problema sa loob ng 15 minuto - pagkatapos na ang kliyente ay lumalabas mula 1/30 hanggang 7/30 mula sa isang buwanang pagbabayad. Kung hindi tumutugma ang SLA ang rate ng pagkaantala ng signal, maaaring mabilang ang kliyente sa araw-araw na pagbabayad ng isang beses.

Ang aming mga katotohanan

Sa negosyo ng Russia, mas mabuti ang mga internasyonal na tatak ng SLA. Kasabay nito, para sa mga metropolitan na customer, ang napaka pariralang mismo ay naging pamilyar din, at kahit na ang mga karaniwang kumpanya ay interesado sa dokumentong ito. Narito nais kong tandaan na ang kasunduan sa antas ng serbisyo ay hindi palitan at hindi kanselahin ang mga punto ng responsibilidad ng standard operator sa kasunduan sa probisyon ng serbisyo, pati na rin ang mga pamantayan na itinatag ng batas at subtitle na gawain (halimbawa, Fz "sa mga komunikasyon" , Order No. 92 "sa pag-apruba ng mga pamantayan sa mga de-koryenteng parameter ng mga pangunahing digital na channel at mga landas ng pangunahing at intra -isang pangunahing mga network ng Russian WCC, atbp.), Na sinusundan namin lahat.

Sa pagsasagawa, ang gars telecom, sa kaganapan ng anumang "facaps", ang mga pagtatalo ay nananatili sa ilalim ng pamamaraan para sa pagpoproseso ng mga trabl-ticket at oras ng pagbawi ng serbisyo. Ang mga aksidente na humantong sa inoperability ng serbisyo ay dapat na alisin mula 4 hanggang 72 oras (depende sa dahilan). Sa kaso ng paglampas sa tinukoy na mga parameter, ang bawat karagdagang oras ng idle ay nagbabayad para sa subscriber, at kapag naabot ang operator ng threshold, ang pagtaas ng porsyento ng kabayaran.

Mula sa mga kagiliw-giliw na mga kaso, maaari mong matandaan ang tindahan ng mga instrumentong pangmusika, na inakusahan sa amin (operator) sa pagbagsak ng mga benta ng piano (para sa ilang oras ang telepono ay hindi gumagana). Dito, muli, maaari itong ihambing sa isang advanced na kliyente na nakatuon sa kanluran, ngunit mas mahusay na i-on ang russian outback, kung saan hindi na ang SLA ay pangkalahatan ang konsepto ng "serbisyo sa pagbawi" ay hindi umiiral. Sa pinakamahusay, ang oras ng reaksyon ay 48 oras. Ang mga halimbawa ay hindi na kailangang pumunta sa malayo - 15 km mula sa St. Petersburg - at ang lokal na operator ay dahil sa anumang responsibilidad. Ito ay pangit na magsalita para sa lahat ng mga panrehiyong operator, ngunit, sa kasamaang palad, ito ay isang panuntunan kaysa sa isang pagbubukod.

Anong mga konklusyon ang kailangang gawin mula sa mga kwento na ito

Pagkatapos ng paglaban, ang mga fists ay hindi masted - kung mayroong ilang mga kritikal na parameter para sa negosyo, kailangan mong mag-isip tungkol sa kung ano at pagtukoy sa mga ito sa operator sa yugto ng koordinasyon ng mga dokumento
Ang isang tagapagpahiwatig kung saan ang mga gastos sa trabaho ay patuloy na ang oras ng pagbawi ng serbisyo at ang antas ng teknikal na suporta. Dahil kapag walang gumagana sa lahat - ito ay mas masahol pa kaysa sa kapag ito gumagana, ngunit ito ay masama (sa kasong ito, ang client ay maaaring, hindi bababa sa, mabilis at painlessly baguhin ang operator)
Upang alagaan ang reservation ay nagkakahalaga rin nang maaga, at ang serbisyo ay dapat na mula sa mga independiyenteng operator, hindi bababa sa isa na dapat na maayos.