Kaj je visoka razpoložljivost? SLA za IaaS: resnična jamstva za visoko razpoložljivost virtualne IT infrastrukture kot storitve.

Storitve IT infrastruktura kot storitev (IaaS) postajajo vse bolj priljubljene podjetniške stranke, in se že uporabljajoin za kritične aplikacije. Čas je, da to ugotovimokaj zagotavljajo ponudniki teh storitev in kakšno odgovornost nosijo v primerih, ko se virtualna IT infrastruktura upočasni ali postane popolnoma nedosegljiva.

Po intervjuju vodilnih ponudnikov infrastrukturnih storitev IaaS poslovnega razreda smo analizirali njihovo ponudbo. Hkrati "raven podjetja" pomeni naslednje: platforma v oblaku je nameščena v podatkovnem centru, ki izpolnjuje zahteve stopnje III (prisotnost potrdila Uptime Institute nizahtevano) in zagotavlja visoko stopnjo odpornosti z mehanizmi visoke razpoložljivosti (HA) in premestitvijo virtualnih strojev v primeru nesreče.

RAZPOLOŽLJIVOST IN ODZIVNI ČAS

Glavni parametri storitve IaaS, ki so običajno navedeni v SLA, so stopnja njene razpoložljivosti, odzivni čas na različne incidente in trajanje njihovega reševanja, pa tudi shema in parametri nadomestila v primeru izpada.

Če se odločite za uporabo virtualne IT infrastrukture, lahko varno računate na razpoložljivost 99,5 % in več. Vsaj nihče od ponudnikov, ki smo jih anketirali, ni navedel nižje številke. Poleg tega so predstavniki številnih podjetij poudarili, da je vrednost, navedena v njihovih odgovorih (glej tabelo 1), tipična in da se na željo kupca stopnja razpoložljivosti lahko poveča z različnimi tehničnimi sredstvi.

Platforme IaaS poslovnega razreda običajno gostujejo v podatkovnih centrih (notranjih ali zunanjih), ki izpolnjujejo stopnjo tolerance napak Tier III, za katero je znano, da ima 99,98 % razpoložljivost. Vrednosti razpoložljivosti virtualnih infrastruktur IaaS, ki jih navedejo ponudniki, ne presegajo ustrezne značilnosti fizičnega mesta, kar je povsem naravno.

Izjema je 99,99-odstotna razpoložljivost, ki jo zagotavlja Dataline v načinu metroja. Ta možnost je odporna na katastrofe oblak pokriva dva podatkovna centra podjetja - za več informacij o grozdu metroja si oglejte gradivo "Oblak, odporen na nesreče po" ne-oblačni "ceni", objavljeno v oktobrski številki "Journal of Network Solutions / LAN" "za leto 2013 ().

Načeloma lahko dobavitelj v pogodbi o ravni storitev navede poljubno visoko razpoložljivost, vsaj 100-odstotno, vendar potem tvega, da bo izgubil več kot zaslužek, saj bo vsak razumni kupec zahteval strogo odškodninsko shemo za neizpolnjevanje dogovorjenih pogojev, ki bo vključeno v pogodba. Čeprav še ni razvita standardna shema - vsak dobavitelj ponuja nekaj svojega, zato mora kupec oceniti predlagano nadomestilo ob upoštevanju morebitnih finančnih izgub v primeru izpada IT storitev.

Mnoga podjetja ponujajo določeno povračilo mesečnega plačila (v odstotkih) za vsako dodatno (več kot določeno v SLA) uro nerazpoložljivosti storitve. Na primer, pri stopnji razpoložljivosti, ki je določena v SLA 99,95 % (čas mirovanja ne več kot 1 uro na mesec), je Inoventica pripravljena povrniti 2 % mesečnega plačila za vsako dodatno uro izklopa iz storitve. Cloud4Y v standardni različici kompenzira 1% za 1 uro izpada (v izračunih, Skupni stroški storitve v celoti koledarskega meseca pred tem), vendar ne več kot 50 % stroškov storitve.

Številni ponudniki so zagotovili podrobne izračune, kako se višina nadomestila razlikuje glede na stopnjo razpoložljivosti (glej tabelo 2). V primeru znatnega znižanja te ravni se ponudi zelo znatna odškodnina. Na primer, če je vrednost manjša od 95%, "Onlanta" (GC "Lanit") dovoljuje znižanje ravni plačila za storitev do 40%. In podjetje "IT-Grad", če stopnja razpoložljivosti pade pod 96,71%, obljublja nadomestilo v višini 50%. Jasno je, da ponudniki menijo, da je tako poslabšanje kakovosti storitev malo verjetno.

"Uvedli smo dva neodvisna načela kompenzacije: za kršitev ciljnih indikatorjev parametrov storitev in ciljnih indikatorjev za obdelavo zahtev," pravi Vitaly Mzokov, vodja storitev v oblaku in infrastrukturnih rešitev v Servionici (skupina podjetij I-Teco). - Kršitev ciljnih kazalnikov parametrov storitev se kompenzira po progresivni lestvici. Glede na dejansko raven razpoložljivosti se izračuna kazalnik nadomestila, izražen kot odstotek zneska računa za uporabo storitve. Nadomestilo za kršitev ciljnih kazalnikov za obdelavo zahtevkov se izračuna na podlagi čakalne dobe naročnika z natančnostjo do minute."

V skladu s prakso, ki jo je sprejela Servionica, so vrste zahtev strank, pa tudi splošni cilji za maksimalni odzivni čas na zahteve in najdaljši čas za rešitev problema, opisani v pravilniku o interakciji storitev. In v sami SLA so ti kazalniki določeni za določeno storitev.

»Po pogodbi lahko stranka pri nas prejme več storitev. Zato pravilnik opisuje splošni kazalniki s pripisom: "Cilji, določeni v SLA za določeno storitev, se prekrivajo s kazalniki, določenimi v predpisih." To se naredi tako, da je po potrebi mogoče določiti (razširiti ali zmanjšati) reakcijski čas in čas rešitve, - pojasnjuje Vitalij Mzokov. - Na kakršne koli zahteve smo dolžni odgovoriti v 15 minutah. Najdaljši čas reševanja, odvisno od vrste in prioritete zahteve, se giblje od 1 ure (za incidente s prioriteto št. 1) do 48 ur (za zahteve, za katere je potrebna popolna študija zahteve po informacijah stranke – npr. posredovanje informacij o tarifah in drugih storitvah, raznih pojasnil in navodil).

Odzivni čas na aplikacijo je običajno odvisen od njene prioritete. Na primer, ravni prioritete prakse Linxdatacenter so:

  • Kritično - storitev je popolnoma nedosegljiva, za obnovitev je treba sprejeti nujne ukrepe, reakcijski čas je 15 minut, čas okrevanja ni več kot 4 ure;
  • Visoka - storitev je delno nedosegljiva, reakcijski čas je do 1 ure, povečana prioriteta;
  • Normalno - pojasnilo o parametrih storitve, aktualna nenujna vprašanja, reakcijski čas do 1 ure, 24 ur za pripravo odgovora.

Tabela 3 prikazuje še en primer – kategorizacijo poizvedb, ki jih uporablja Cloud4Y; reakcijski čas - ne več kot 30 minut.

V T-Systems se trudijo delati hitro. Po besedah ​​Vsevoloda Egupova, direktorja prodaje oddelka IKT družbe T-Systems RUS, se strokovnjaki tega podjetja "v 80% primerov odzovejo v 30 sekundah" (!). A kot večina naših anketirancev je opozoril, da je reakcijski čas odvisen od kritičnosti situacije.

ORODJA ZA SPREMLJANJE

V SLA ni dovolj navesti privlačno raven dostopnosti in toge odškodninske sheme, stranki je treba zagotoviti tudi priročno in učinkovito orodje nadzor. In tu se pristopi prodajalcev bistveno razlikujejo.

S sklicevanjem na prakso podjetja Servionika Vitalij Mzokov ugotavlja, da so stranke bolj zainteresirane za pregledno in natančno poročanje operaterja kot za obvladovanje nekaterih posebnih orodij za samonadzor. Servionica praviloma zagotavlja mesečna poročila o dogovorjenem naboru parametrov, na željo naročnika pa lahko pogodba predvideva pogostejše poročanje.

Mnoga podjetja privzeto dajejo poročila o zdravstvenem stanju storitev enkrat mesečno, lahko pa tudi pogosteje - na željo strank. Primer poročila, ki ga ponuja Onlanta, je prikazan na sliki 1. Po besedah ​​Mikhaila Lyapina, vodje poslovanja v oblaku, je Onlanta edino podjetje v Rusiji, ki strankam zagotavlja poročilo o razpoložljivosti v oblaku s to stopnjo podrobnosti. Po njegovih besedah ​​se večina ponudnikov storitev spravi s statistiko o stopnji razpoložljivosti virtualnih strojev.

Številna podjetja strankam ponujajo spletno samopostrežno konzolo. Po besedah ​​Ruslana Zaedinova, namestnika generalnega direktorja, vodje podatkovnega centra in računalništva v oblaku pri Kroku, ima vsak potrošnik storitve IaaS dostop do takšne konzole z vgrajeno zmožnostjo spletnega spremljanja delovanja določenih komponent. Na primer, pri virtualnih strojih lahko IT strokovnjaki stranke spremljajo, koliko je procesor naložen, kako deluje V/I, koliko pomnilnika je zasedenega itd. Ti podatki so na voljo v realnem času, pa tudi - na zahtevo - v obliki statistike za katero koli obdobje.

ALI MOREM JAMČITI ZA DELOVANJE

Očitno je, da je s povečanjem obremenitve na platformi IaaS ponudnika možna degradacija ravni zmogljivosti virtualnega stroja. Ponudniki storitev se zavezujejo, da se to ne zgodi. Vsa podjetja se strinjajo s tem. Vendar nekateri vključujejo meritve uspešnosti v SLA, drugi pa menijo, da je tak ukrep nepotreben.

O tem pravi Vitaly Slizen, član upravnega odbora Inoventice: »Degradacije [produktivnosti] ne opažamo niti ob povečanju obremenitve, saj pravočasno širimo in posodabljamo zmogljivosti podatkovnih centrov. Ločeno v SLA se ti parametri (VM in zmogljivost shranjevanja) ne odražajo, saj je njihovo upoštevanje naša primarna odgovornost, ne glede na zahteve strank." Strokovnjaki Inoventice nenehno spremljajo vse glavne parametre zakupljenih infrastrukturnih objektov, kar jim omogoča hitro prejemanje informacij o morebitne težave in jih pravočasno napovedati.

Igor Drozdov, direktor tehnična podpora Prodajni Linxdatacenter: »Naše podjetje zagotavlja zagotovljene računalniške vire za uporabo. V oblaku so rezervirani in rastejo z naraščanjem števila odjemalcev, zato ostaja zmogljivost virtualnih strojev in sistemov za shranjevanje na konstantno visoki ravni. Poleg tega zagotavljamo pravočasne nadgradnje strežnika in spremljanje delovanja z namenskimi izdelki VMware.

Orange Business Services je tudi eden od ponudnikov storitev, ki ne urejajo parametrov uspešnosti v standardnem SLA. Hkrati pa po besedah ​​Dmitrija Dorodnih, vodje razvoja poenotenih komunikacij in IT izdelkov pri Orange Business Services v Rusiji in CIS, »če stranka zahteva, da so za njegove virtualne stroje zagotovljeni določeni računalniški viri, uporabimo standardna sredstva sodobne platforme za virtualizacijo, ki omogočajo premikanje navideznih strojev na druge strežnike v primeru spora z viri."

Vsevolod Egupov meni, da dodajanje značilnosti delovanja SLA "ni smiselno, saj degradacija vpliva na raven razpoložljivosti storitev, ki jo ureja sporazum." Pri T-Systems delovanje virtualnih strojev in sistemov za shranjevanje nadzira oddelek za upravljanje zmogljivosti, njegovi strokovnjaki pa so odgovorni za preprečevanje njihove degradacije.

Obstaja tudi kar nekaj podjetij, ki menijo, da je dodajanje lastnosti uspešnosti v SLA priporočljivo. Najožja točka V virtualiziranem IT okolju mnogi strokovnjaki menijo, da je zmogljivost shranjevanja zmogljivost pomnilnika, zato je večina prodajalcev pomnilnika zelo pozorna na značilnosti shranjevanja, kot so vhodne/izhodne operacije na sekundo (IOPS).in čas dostopa do diska (latenca).

Dataline zagotavlja meritve zmogljivosti za shranjevanje in virtualne stroje v vsaki SLA (glejte tabelo 4). Hkrati pa je po besedah ​​Dmitrija Tišina, vodje oddelka za razvoj storitev tega podjetja, "odvisno od zahtev, ki jih naročnik postavi na sistemsko pokrajino, metrike mogoče spremeniti." Vrednosti IOPS meri sistem za spremljanje NetApp DFM, čas dostopa do diska pa je redna sredstva Programska oprema za virtualizacijo (vCenter). V primeru težave z virtualnim strojem so opozorjeni dežurna izmena in inženirji ekipe za virtualizacijo. Poleg tega Dataline omogoča spremljanje različnih parametrov na ravni operacijskega sistema in storitev, ki se izvajajo v njem. Če naročnik uporablja storitve upravljanja operacijskega sistema in storitev podjetja, se takšno spremljanje izvaja privzeto.

Da bi preprečili poslabšanje zmogljivosti navideznega stroja, strokovnjaki Dataline uporabljajo niz ukrepov. Torej, za gručo se uporablja mehanizem Distributed Resource Scheduler (DRS), ki spremlja obremenitev fizičnih strežnikov glede na glavne parametre - če je dosežena določena obremenitev strežnika, se nekateri virtualni stroji samodejno premaknejo na drugega . Redundanca strežnikov se ohranja v gruči, tako da obremenitev celotne gruče ni večja od 70%. V okviru sklenjenih servisnih pogodb z dobavitelji opreme je možno povečati virske zmogljivosti grozdov po načrtu.

Safedata ureja tudi značilnosti delovanja, kot sta IOPS in MIPS v SLA. »Učinkovitosti ne moremo zmanjšati pod vrednosti, določene v SLA,« pravi Anton Antonov, vodja prodaje pri Safedati. "Če opazimo poslabšanje storitve z naraščajočo obremenitvijo fizičnih strežnikov, se začnejo delovati dodatni rezervni gostitelji EXSi."

Značilnosti delovanja diskovnega sistema za shranjevanje, urejenega v SLA Cloud4Y, so prikazane v tabeli 5. Po besedah ​​Evgenija Bessonova, vodje oddelka za trženje Cloud4Y, v primeru kršitve zajamčenih kazalnikov zmogljivosti CPU, HDD, RAM, predvidena je odškodnina, ki se po dogovoru posebej ali plača po standardnih pogojih: 1% mesečnega stroška za 1 uro.

"Zagotavljamo zmogljivost virtualnih strojev na spodnji meji, ne da bi jo omejili od zgoraj," pravi Ruslan Zaedinov. "Če ima strežnik, kjer se nahaja virtualni stroj, brezplačne računalniške vire, ki presegajo zajamčene, bodo ti na voljo stranki." Kar zadeva sisteme za shranjevanje, trenutno vsi odjemalci Croc uporabljajo skupen komunikacijski kanal s sistemi za shranjevanje. Dolgo časa to ni bila težava, zdaj pa, da bi zadovoljili naraščajoče potrebe strank, podjetje seli shranjevanje v oblaku s pogonov Fibre Channel in SATA na bliskovne pogone z neposrednim dostopom do njih iz virtualnih strojev prek Infinibanda. omrežje. Vzporedno se izvaja programska oprema, ki zagotavlja zagotovljeno prepustnost sistema za shranjevanje podatkov v oblaku. Ustrezne spremembe SLA bodo izvedene to jesen.

Po dogovoru s stranko Servionica v SLA posameznega projekta popravi kazalnike uspešnosti posameznih komponent oblačne platforme. Poleg tega sporazum določa način merjenja teh kazalnikov in pogostost meritev. "Vsak operater lahko napiše" zajamčenih 100.500 OP na 1 GB prostora na disku ", vendar vsi ne morejo dokazati, da je to merilo izpolnjeno. Smo za najbolj transparenten odnos med operaterjem platforme v oblaku in njegovim potrošnikom, «poudarja Vitalij Mzokov. Zmogljivost virtualnih strojev in sistemov za shranjevanje je v SLA Servionica določena z IOPS in zamudo.

Kot je povedal Maxim Zakharenko, generalni direktor ponudnika storitev "Oblakoteka" so v pogodbah, ki jih sklepajo, kazalniki konične uspešnosti urejeni tako, da obremenitev vhodno-izhodne in omrežne pasovne širine ne presega 80 %. Nadzor se izvaja s pomočjo sistema Microsoft SCOM. Opaža, da za različni sistemi pomembni so različni kazalniki: za spletna mesta - odzivni čas, za umestitev IT infrastruktur - kazalniki vrha CPU, pomnilnika, virtualnega omrežja itd. Podjetje v svoje uporabniške podatke SLA vključuje tudi zagotovljene varnostne parametre, načine in pogoje zagotavljanja ter shranjevanja (" Iskrena ločitev").

KRIŽNI SLA

Ne glede na to, kako visoka je zanesljivost same platforme IaaS, ki se nahaja v podatkovnem centru, odpornem na napake, lahko dostopni kanali do te platforme postanejo ozko grlo za stranko. Dobra novica je, da imajo številni ponudniki, ki smo jih intervjuvali, SLA-je od konca do konca, ki zajemajo tako storitev IaaS kot tudi dostopne kanale. Poleg tega je po njihovem pri pravilna organizacija in redundantnost kanalov, stopnja komunikacijske razpoložljivosti ni nižja kot pri platformi SLA, zato se ta pomembna lastnost ne zmanjša v SLA-jih od konca do konca.

Vendar, kot ugotavlja Vsevolod Egupov, je zmanjšanje ali ohranjanje ravni razpoložljivosti odvisno od načina organiziranosti komunikacijskih kanalov – če je kanal rezerviran, se razpoložljivost ne poslabša. V nasprotnem primeru se raven razpoložljivosti v SLA od konca do konca zmanjša na raven razpoložljivosti kanala. T-Systems RUS ima lastno mrežo podatkovnih centrov po vsem svetu. Servisiranje ruskih strank se večinoma izvaja iz podatkovnih centrov v Nemčiji in Avstriji. Podjetje ima podpisano pogodbo o ravni storitev z Rostelecomom, Beelineom in sodeluje z drugimi telekomunikacijskimi operaterji.

Tisti ponudniki storitev IaaS, ki so tudi nosilci, izkoriščajo to prednost. Tako kot mednarodni telekomunikacijski operater Orange Business Services izvaja sklenitev SLA od konca do konca, ki zajema IaaS in telekomunikacijske storitve. Raven razpoložljivosti v takem SLA je 99,95 %. Toda, kot pojasnjuje Dmitrij Dorodnykh, je ta lastnost odvisna od geografske lokacije stranke - na primer, v osrednji regiji je ta raven višja kot za Uralom in v Sibiriji. Zadnja milja ima lahko lastne parametre SLA. Sheme in mehanizmi za nadzor SLA na komunikacijskih kanalih so že desetletja izdelani, tako da vprašanje spremljanja za Orange Business Services ni problem.

Kot ugotavlja Vitaly Slizen, ima Inoventica lastne hrbtenične komunikacijske kanale in geografsko razporejeno mrežo podatkovnih centrov, kar omogoča implementacijo geoclusterov. To vam omogoča, da ohranite zmogljivost podatkov in storitev tudi v primeru fizičnega uničenja enega od podatkovnih centrov. Po njegovih besedah ​​je Inoventica »edino podjetje na ruski trg zagotavljanje celotne verige storitev "Podatkovni center - Kanal - Storitev - Odjemalec (AWS)" v skladu s SLA, ki je minimum zapovratna zamuda manj kot 10 ms in skoraj nič izgube paketov." Trenutno je celovita rešitev Inoventica na voljo strankam v petih zveznih okrožjih Ruske federacije.

Ponudniki storitev IaaS, ki niso operaterji, aktivno sodelujejo s prevozniki. Tako je Servionika oblikovala SLA za delo s telekomunikacijskimi operaterji, ki oskrbujejo njen podatkovni center (ki je več kot 10 velikih telekomunikacijskih ponudnikov). Podjetje prevaja pogoje teh SLA v pogodbe s strankami, ki uporabljajo komunikacijske storitve. In nadzor nad spoštovanjem SLA zagotavljajo tehnične službe podatkovnega centra TrustInfo. "V naših pogodbah navajamo enake parametre SLA kot operaterji, torej prevzemamo odgovornost za kakovost njihovega dela in nemoteno zagotavljanje komunikacijskih kanalov," ugotavlja Vitaly Mzokov.

Da bi strankam zagotovili komunikacijske kanale, Dataline uporablja storitve telekomunikacijskih operaterjev po shemi podizvajalcev. S to shemo podjetje nadzoruje kakovost v okviru pogodbe z operaterjem, naročnik pa od nje prejme celovito storitev in se ukvarja le z enim izvajalcem. Stopnja dostopnosti je celovita storitev se ne zmanjša. Dataline ima v Moskvi lastno omrežje za prenos podatkov, kjer so zagotovljene naslednje značilnosti: delež izgubljenih paketov ni večji od 0,2%, povprečna zamuda omrežja ni večja od 5 ms.

Po besedah ​​Ruslana Zaedinova Krok uporablja široke kanale, katerih pasovna širina je povsem dovolj za vse stranke v oblaku. Tehnično veljavne garancije zagotavlja medkanalna redundanca med različnimi podatkovnimi centri Krok z uporabo lastnega optičnega obroča. Za tiste organizacije, za katere je fiksna pasovna širina komunikacijskega kanala kritična, podjetje izvaja individualno povezavo z oblakom prek ločenih kanalov z zagotovljeno pretočnost ali celo "temna" optika. Takšna povezava je najpogosteje opremljena s posameznimi orodji za šifriranje, vključno s certificiranimi.

Torej storitve IaaS v Rusiji ponuja precej veliko podjetij in po povsem razumljivih in dokumentiranih (v SLA) pravilih. Industrija se še ni dogovorila, ali bi morale biti značilnosti delovanja virtualnih IT infrastruktur urejene v SLA, vendar se zdi, da so kazalniki zajamčene razpoložljivosti povsem sprejemljivi tudi za najzahtevnejše poslovne stranke. Poleg tega ponudniki razumejo potrebo strank po SLA-ju od konca do konca in si prizadevajo za njihovo izboljšanje.

Aleksander Barskov- Vodilni urednik revije "Journal of Network Solutions / LAN". Kontaktirate ga lahko na:

, avtor Stewart Rens(Stuart Rance).

Dostopnost informacijskih storitev je zelo pomembna. Ko storitve, ki jih stranka potrebuje, niso na voljo, bodo nezadovoljne. Zakaj bi morala stranka plačati storitev, ki v resnici ne obstaja, ko jo potrebuje? Zato je v KPI pogosto vključena dosledna metrika razpoložljivosti storitev.

Osebje IT se zelo potrudi, da zagotovi, da je zastavljeni cilj dosežen, in pokažejo številke v poročilih strankam, da to dokažejo. Običajno IT podjetja za to uporabljajo odstotke, na primer 99,999%. Žal to pogosto pomeni, da se osredotočajo le na odstotek in izgubijo iz vida svoj resnični cilj, da so vrednost za stranko.

Problem z odstotno razpoložljivostjo

Eden najpreprostejših načinov za izračun razpoložljivosti temelji na dveh delih. Strinjate se s časovnimi intervali, v katerih naj bo storitev na voljo obdobje poročanja... To je dogovorjeni servisni čas (AST). V tem obdobju merite izpad (DT). Odštejte čas izpada od dogovorjene razpoložljivosti storitve in ga pretvorite v odstotek.

Če je AST 100 ur in je izpad 2 uri, bi bila razpoložljivost taka:

Težava je v tem, da čeprav je ta izračun precej preprost, kot tudi zbiranje podatkov zanj, pravzaprav ni povsem jasno, kateri kazalnik natančno odraža številko, ki ste jo prejeli kot rezultat izračuna. O tem bom govoril malo kasneje.

Še huje, z vidika stranke lahko sporočite, da ste dosegli dogovorjene cilje, medtem ko so popolnoma nezadovoljni.

Smiselno poročilo o razpoložljivosti bi moralo temeljiti na dimenzijah, ki opisujejo stvari, ki zanimajo stranko, kot je zmožnost pošiljanja in prejemanja. e-poštnih sporočil ali dvigniti gotovino na bankomatih in se zdi, da skupni odstotek ne zmore.

Določanje ciljev dostopnosti

Če želite izmeriti, dokumentirati in poročati o razpoložljivosti na način, ki je koristen za vašo organizacijo in vaše stranke, morate narediti dve stvari. Najprej opredelite kontekst in okrepite pomen »dostopnosti« za vas in vaše stranke. Če želite to narediti, se morate pogovoriti z njimi.

Drugič, dobro morate premisliti o številnih praktičnih vprašanjih: kaj boste merili, kako boste zbirali podatke, kako jih boste dokumentirali in kako boste poročali o svojih ugotovitvah.

Komunikacija s strankami

Preden ukrepate, morate razumeti, kaj je za vaše stranke pomembno in kakšen vpliv ima nanje izguba razpoložljivosti. To vam omogoča, da postavite realistične cilje, ki upoštevajo tehnološke, proračunske in kadrovske omejitve.

Toda kaj točno bi morali povedati svojim strankam? Vpliv izpada je lahko odlično izhodišče za pogovor. Spodaj je pet vprašanj, ki si jih morate zastaviti:

  1. Katere poslovne funkcije so kritične in prednostne pri zaščiti pred izpadom?
  2. Kako izpadi vplivajo na poslovanje?
  3. Kako pogostost izpadov vpliva na poslovanje?
  4. Kakšen je vpliv izpada na organizacijsko uspešnost?
  5. Kako stranke organizacije dojemajo te prisilne izpade?

Poslovne kritične funkcije

Večina IT storitev podpira več poslovnih procesov, od katerih so nekateri kritični, drugi pa manj pomembni. Bankomat lahko na primer podpira izdajanje gotovine in tiskanje čekov. Možnost izdajanja gotovine je ključnega pomena, medtem ko nezmožnost tiskanja čeka veliko manj vpliva.

S strankami se morate pogovoriti in ugotoviti pomen različnih funkcij za podjetje. Ustvarite lahko preglednico, ki poudarja poslovne posledice izpada vsake od teh funkcij. Primer:

Tabela 1 – Pomen storitev v odstotkih

Opomba: Številke ne smejo sešteti do 100 %

Iz te tabele lahko vidite, da ta storitev sploh ni pomembna, če ni načina za pošiljanje in prejemanje e-pošte, njena vrednost pa se zmanjša na polovico običajne ravni, če javnih map ni mogoče brati. To IT pove, naj se osredotoči na kakovost poštnih storitev.

Trajanje in pogostost izpadov

Ugotoviti morate, kako pogostost in trajanje izpadov vplivata na poslovanje stranke.

Omenil sem že, da odstotek razpoložljivosti morda ne bo zadostoval. Ko ima storitev, ki naj bi bila na voljo 100 ur, 98-odstotno razpoložljivost, to pomeni, da sta bili dve uri izpada. Toda to lahko pomeni en dvourni incident ali več krajših incidentov. Relativni vpliv posameznega trajnega incidenta ali niza kratkih incidentov se bo razlikoval glede na naravo poslovanja in poslovnih procesov.

Vsak kratek izpad bo na primer resno vplival na obračunavanje, ki traja dva dni in ga je treba znova zagnati po vsakem izpadu, vendar je lahko en prisilni izpad, ki traja dlje časa, veliko manj pomemben. Po drugi strani pa enominutni izpad morda nikakor ne vpliva na delovanje spletne trgovine, lahko pa po dveh urah povzroči občutno izgubo kupcev. Ko boste razumeli verjeten poslovni učinek izpada, lahko ustvarite veliko učinkovitejšo infrastrukturo, aplikacije in procese, ki resnično pomagajo vašim strankam.

Tukaj je primer, kako je mogoče izmeriti in dokumentirati razpoložljivost, da odraža dejstvo, da se vpliv izpadov spreminja:

Tabela 2 – Trajanje potovanja in največja frekvenca

Če uporabljate takšno preglednico, ko se s strankami pogovarjate o stopnjah in dolžinah izpadov, bodo te številke verjetno veliko bolj uporabne kot odstotek razpoložljivosti in zagotovo bodo. večja vrednost za vaše stranke.

Izpadi in produktivnost

Omenil sem, da odstotek razpoložljivosti ni zelo uporaben za komunikacijo s strankami o pogostosti in trajanju izpadov. Po drugi strani pa, ko razpravljate o vplivu izpadov na zmogljivost, so lahko odstotki zelo koristni.

Večina incidentov ne povzroči popolne izgube storitve za vse uporabnike. Nekateri uporabniki morda ne bodo prizadeti, drugi pa so popolnoma onemogočeni. Morda obstaja samo en uporabnik z okvarjenim osebnim računalnikom, ki ne more dostopati do nobene od storitev. To lahko celo razvrstite kot 100-odstotno izgubo storitve, vendar bi bil to povsem nedosegljiv cilj za IT in ne more biti pošteno merilo razpoložljivosti.

Po drugi strani pa lahko rečete, da je storitev na voljo, medtem ko lahko nekdo še vedno dostopa do nje. Vendar pa ni potrebno veliko domišljije, da ugotovite, kako se bodo stranke počutile, če bo storitev navedena kot cenovno dostopna, ko je veliko ljudi preprosto ne more uporabljati.

Eden od načinov za določitev učinka je izračun odstotka izgubljenih minut uporabnikov. Storiti to:

  • Izračunajte potencialne minute uporabnika. tole skupaj uporabnikov, ki delajo na enoto časa. Na primer, če imate 10 zaposlenih, ki delajo 8 ur, je PotentialUserMinutes 10 x 8 x 60 = 4800
  • Izračunajte UserOutageMinutes. To je skupno število uporabnikov, ki niso mogli delati, pomnoženo s časom, ko niso mogli delati. Na primer, če je incident preprečil 5 zaposlenim, da bi delali 10 minut, potem je UserOutageMinutes 50.
  • Izračunajte odstotek razpoložljivosti po zelo podobni formuli kot prej

V danem primeru smo dobili naslednjo razpoložljivost:

To isto tehniko lahko uporabite za izračun vpliva izgubljene razpoložljivosti IP telefonije v klicnem centru v smislu PotentialAgentPhoneMinutes in LostAgentPhoneMinutes; za aplikacije, ki vključujejo transakcije ali proizvodnjo, lahko uporabite podoben pristop za kvantificiranje poslovnega vpliva incidenta. Primerjate število transakcij, ki bi jih pričakovali brez izpadov, s številom dejanskih transakcij ali pričakovano količino proizvodnje v primerjavi z dejansko proizvodnjo.

Merjenje razpoložljivosti in poročanje

Ko se dogovorite in dokumentirate cilje dostopnosti, morate razmisliti o praktičnih vidikih, kako lahko merite dostopnost in poročate o njej. Na primer:

  • Kaj boste merili?
  • Kako boste zbirali podatke?
  • Kako boste dokumentirali in poročali o svojih ugotovitvah?

Kaj se meriJaz sembiti

Zelo pomembno je meriti in poročati o razpoložljivosti pod enakimi pogoji, ki opredeljujejo cilje, dogovorjene s strankami, in ki temeljijo na skupnem razumevanju, kaj v resnici je dostopnost strank. Cilji morajo biti zanj smiselni in zagotoviti, da so prizadevanja IT osredotočena na zagotavljanje podpore njegovemu podjetju.

Običajno so ti cilji del pogodbe o ravni storitev (SLA) med IT in stranko, vendar morate biti previdni, da številke iz SLA ne postanejo vaš cilj. Vaš pravi cilj je zagotoviti storitve, ki izpolnjujejo pričakovanja vaših strank.

Kako zbirati podatke

Obstaja veliko različnih načinov za zbiranje podatkov o razpoložljivosti IT storitev. Nekateri od njih so preprosti, vendar ne zelo natančni, nekateri so precej dragi. Uporabite lahko samo en pristop ali jih kombinirate več, da ustvarite lastna poročila.

Zbiranje podatkov v tehnični podpori

Eden od načinov zbiranja podatkov o razpoložljivosti je podpora. Običajno servisno osebje določi vpliv in trajanje vsakega incidenta na podjetje, saj je del upravljanja incidentov. Te podatke je mogoče uporabiti za določitev trajanja incidentov in števila prizadetih uporabnikov.

Ta pristop je običajno precej poceni. Vendar pa lahko povzroči spore glede točnosti podatkov o razpoložljivosti.

Merjenje infrastrukture in razpoložljivosti aplikacij

Ta pristop vključuje orodja za vse komponente, potrebne za zagotavljanje storitve, in izračun razpoložljivosti na podlagi razumevanja, kako vsaka komponenta prispeva.

Lahko je zelo učinkovit, vendar lahko zamudi majhne napake. Na primer, manjša okvara baze podatkov lahko nekaterim uporabnikom prepreči izvajanje določenih vrst transakcij. Ta metoda lahko tudi zamudi vpliv skupnih komponent, na primer ena od mojih strank je imela navadno e-pošto, ki ni delovala zaradi nezanesljivih strežnikov DHCP na njihovem sedežu, vendar IT storitev tega ni registrirala kot izpad e-pošte.

Navidezne stranke

Nekatera podjetja uporabljajo navidezne stranke za pošiljanje znanih transakcij iz določenih točk v omrežju, da preverijo razpoložljivost.

Pravzaprav je to merilo dostopnosti od konca do konca. Glede na velikost in zapletenost omrežja je ta pristop lahko drag za izvajanje in poroča samo o razpoložljivosti določenih navideznih strank. To pomeni, da lahko manjše napake zgrešite, na primer, če je incident povzročil okvaro določenega spletnega brskalnika, medtem ko lažna stranka uporablja drug brskalnik.

Orodja, ki podpirajo to zbiranje podatkov, pogosto poročajo tudi o zmogljivosti in razpoložljivosti storitev, kar je lahko koristen dodatek.

Izpopolnjevanje aplikacij

Nekatera podjetja svojim aplikacijam dodajo kodo po meri za spremljanje dostopnosti od konca do konca. To bo pomagalo dejansko izmeriti dostopnost storitev od konca do konca, pod pogojem, da je bil to cilj v času razvoja aplikacije. Običajno ta revizija vključuje kodo tako v odjemalski aplikaciji kot na strani strežnika.

Če je dobro implementiran, lahko ne samo zbira podatke o razpoložljivosti, ampak lahko tudi pomaga natančno določiti, kje je prišlo do napake, kar lahko pomaga povečati razpoložljivost z zmanjšanjem časa reševanja incidentov.

Kako dokumentirati in poročati o svojih ugotovitvah

Ko zberete podatke o razpoložljivosti, morate razmisliti o tem, kako sporočiti rezultate svojim strankam.

Načrtujte izpad

Eden od vidikov merjenja razpoložljivosti in poročanja, ki je pogosto spregledan, je izpad. Če pri oblikovanju poročil o razpoložljivosti ne upoštevate načrtovanih izpadov, tvegate, da boste vključili meritve, ki niso resnične.

Obstaja več načinov za zagotovitev, da načrtovani izpadi ne bodo napihnili statistike. Eden od njih je, da imate načrtovan izpad za določen čas, ki ni vključen v izračun razpoložljivosti. Drugi je načrtovanje načrtovanih izpadov. Nekatere organizacije na primer morda ne bodo upoštevale prihodnjih izpadov za mesec vnaprej.

Ne glede na to, za kaj se odločite, je pomembno, da vaša pogodba o ravni storitev jasno opredeljuje, kako bodo upoštevani načrtovani izpadi.

Dogovor o obdobju poročanja

Prej sem govoril o omejitvah, ki jih skriva odstotek razpoložljivosti. Kljub temu se uporablja in se še naprej široko uporablja. Zato je pomembno razumeti, da morate določiti časovno obdobje, v katerem se izvajajo izračuni in zagotavljajo poročila, saj je to lahko ključno za številke, ki bodo v vaših poročilih.

Na primer, razmislite o IT podjetju, ki se je strinjalo s storitvijo 24 × 7 in 99-odstotno razpoložljivostjo. Recimo, da je osem ur odmora:

  • če poročamo o razpoložljivosti na tedenski ravni, je AST (Dogovorjeni servisni čas) 24 x 7 ur = 168 ur
  • mesečno AST (24 x 365) / 12 = 730 ur
  • četrtletno AST (24 x 365) / 4 = 2190 ur

Če te številke vnesemo v enačbo dostopnosti, dobimo:

  • Tedenska razpoložljivost = 100 % x (168-8) / 168 = 95,2 %.
  • Mesečna razpoložljivost = 100 % x (730 - 8) / 730 = 98,9 %
  • Četrtletna razpoložljivost = 100 % x (2190-8) / 2190 = 99,6 %

Vsaka je veljaven kazalnik razpoložljivosti storitve, le en pa kaže, da je bil cilj dosežen.

V priporu

Skoraj vsako IT podjetje, s katerim sem sodeloval, poroča o dostopnosti svojih storitev. Resnično učinkoviti IT oddelki sodelujejo s svojimi strankami pri optimizaciji lastne naložbe in zagotavljajo odlično raven razpoložljivosti. Na žalost se mnoga IT podjetja osredotočajo na številke SLA in ne izpolnjujejo potreb svojih strank, tudi če na koncu v poročilih prikazujejo dosledne številke.

To je dolg članek, spodaj so ključne točke, ki so v njem zajete:

  • Stranki vam ni treba povedati, da ste zagotovili 98-odstotno razpoložljivost, razen če razumete vpliv 2-odstotnega izpada.
  • Pogovorite se s svojimi strankami in se prepričajte, da razumete vpliv morebitnih izpadov na njih in končne stranke
  • Razmislite o načinih za zaščito kritičnih poslovnih procesov vaših strank
  • Poiščite načine za merjenje pogostosti in trajanja izpadov ter vpliva izpadov na zmogljivost, ki ustrezajo potrebam vaših strank
  • Strinjajte se, dokumentirajte in poročajte o meritvah razpoložljivosti na načine, ki so smiselni za vaše stranke, in pomoč pri načrtovanju
  • Uporabite ustrezna orodja za pravilno oceno razpoložljivosti in poročanje.

Kaj bi še lahko dodali mojim nasvetom? Prosimo, napišite v komentarje.

"Dostopnost", "tri devetke za decimalno vejico" - ti izrazi se pogosto uporabljajo pri razpravi o novih IT rešitvah. IT arhitekti naročniku predlagajo projekt nov sistem sploh glede na to, da ima zelo visoko razpoložljivost. Pogodba je sklenjena, sistem je zgrajen, podpisana potrdila o zagonu kompleksa, obratovanje se začne ... V fazi delovanja je mogoče preveriti "kakovost" ustvarjenega sistema in takrat lahko pride do razočaranja. Kaj se skriva za čarobnimi "devetkami"? Kakšne so resnične obljube v fazi načrtovanja? In kdo je odgovoren za razpoložljivost?

Dostopnost: uvod v temo

Najboljši način za razumevanje, kaj je dostopnost, je ugotoviti, zakaj je potrebna. Razpoložljivost je značilnost tega, kar podjetje želi od IT oddelka. Žal nekateri predstavniki podjetij na vprašanje o želeni razpoložljivosti IT storitev odgovarjajo nekako takole: "Želim, da vse vedno deluje." V tem primeru je naloga IT upravitelja, da napiše pogoje za storitev, vključno z določitvijo parametrov razpoložljivosti. Dostopnost je torej razsežnost IT storitve, ki jo podjetje porabi in ki jo storitev IT zagotavlja. Formula za izračun razpoložljivosti je naslednja:

Razpoložljivost = (AST - DT) / AST × 100 = Razpoložljivost storitev ali komponent (%)

kje
AST (dogovorjeni servisni čas)- dogovorjeni čas za opravljanje storitve;
DT (dejanski izpad med dogovorjenim servisnim časom)- dejanski čas, ko storitev ni bila na voljo v dogovorjenem času njenega izvajanja.

Posebnosti izračuna razpoložljivosti je lažje razumeti s konkretnim primerom. Poskusimo ugotoviti razpoložljivost IT storitve "spletna trgovina" za podjetje AAA v Moskvi, ki prodaja knjige. Hkrati je mogoče knjige in njihovo dostavo v katero koli mesto plačati, na primer s kreditno kartico. Očitno bodo naročila za pošiljanje obdelana le ob delavnikih od 9. do 18. ure.

Kaj pa bo AST – dogovorjeni čas dostave storitve? Če želite odgovoriti na to vprašanje, morate upoštevati, da lahko ljudje oddajo naročila nedelovni čas, in ne pozabite upoštevati dejstva, da je v Rusiji 11 časovnih pasov. Zato je treba storitev zagotavljati 24 ur na dan, 7 dni v tednu.

Zdaj se morate ukvarjati z DT - časom, ko storitev morda ni na voljo. Tukaj ne gre brez pogajanj s podjetji. Možno je, da bi bile štiri ure nerazpoložljivosti storitve enkrat na mesec ustrezna izbira za ta primer. Vendar je treba upoštevati en odtenek - časovno obdobje, v katerem se ocenjuje parameter DT, to je dejanski dogovorjeni čas zagotavljanja storitve (AST). Izbira obdobja AST je zasebna stvar pogodbenih strank: poslovne in IT storitve. Za takšno obdobje je bolje vzeti teden ali več tednov, saj mesec ali leto nista stalni vrednosti (vključujeta različno število dni). Vendar pa morate biti pozorni na psihologijo: krajša časovna obdobja lahko podjetje negativno zazna. V našem primeru enaka vrednost razpoložljivosti ustreza približno eni uri izpada na teden. Vendar podjetjem morda ne bo všeč dejstvo, da bo spletna trgovina vsak teden nedosegljiva eno uro, čeprav se lahko dogovorijo za štiri ure izpada na mesec. Po drugi strani pa je včasih nemogoče upravljati sistem IT, ne da bi ga za nekaj ur ustavili zaradi rutinskega vzdrževanja. Takšen načrtovan izpad je treba upoštevati tudi pri izbiri DT, kar lahko privede do revizije parametra AST.

Na podlagi navedenega izberemo 4 ure nedostopnosti storitve enkrat na štiri tedne. Se pravi, AST = 4 tedne, DT = 4 ure. Potem je razpoložljivost naslednja:

Razpoložljivost = (24 × 7 × 4-4) / (24 × 7 × 4) × 100 % = 99,40 %

Možno je, da se podjetje ne bo strinjalo. V tem primeru morate ugotoviti, na katero možnost se bo strinjal. V prihodnosti lahko izračunate dve možnosti za sisteme strojne in programske opreme z različno razpoložljivostjo in se pogajate s podjetjem na podlagi primerjave stroškov obeh možnosti. Na splošno so pogajanja s poslovanjem in proračun IT storitve ločena tema, ki bo morda zahtevala več kot eno knjigo za razkritje. Zato recimo, da je v našem primeru razpoložljivost izračunana in dogovorjena in lahko nadaljujemo z izdelavo sistema.

Upoštevajte, da smo določili zahtevano razpoložljivost, preden smo začeli delati na rešitvi, ki jo zagotavlja, in ne obratno – najprej smo izbrali rešitev in upoštevali njeno razpoložljivost. Tehnična naloga je primarna, zahtevana razpoložljivost pa je eden od parametrov, ki so v njej določeni. Ko se sistem začne uporabljati, mora razpoložljivost ustrezati zahtevani vrednosti. Zato svetujemo, da v pogodbi s podjetjem (SLA - Service Level Agreement) podrobno razvozlamo, kaj pomeni število razpoložljivosti (v našem primeru, kot sledi: "4 ure nerazpoložljivosti storitve enkrat (1) krat v štirih (4) tedne"), tako da so vse strani jasno razumele, kaj se v resnici skriva za številkami.

Tri dimenzije dostopnosti

Prva stvar, ki jo je treba razumeti pri izbiri rešitve, je, iz česa je sestavljena razpoložljivost IT storitve. Številne operativne frustracije izhajajo iz dejstva, da je razpoložljivost storitve, ki jo podjetje želi, neposredno povezana z razpoložljivostjo opreme. Vendar pa je razpoložljivost IT storitve kombinacija treh komponent:
1) Zanesljivost - običajno se prevaja kot zanesljivost;
2) vzdržljivost - prevedeno kot "vzdržljivost";
3) Možnost servisiranja - vzdržljivost.
Oglejmo si vsako od teh točk.

Zanesljivost

Zanesljivost je razpoložljivost infrastrukture ali kompleksa strojne in programske opreme kot celote, vključno s komunikacijami. Za spletno trgovino na primer potrebujemo spletni strežnik, aplikacijski strežnik, DBMS, diskovno shrambo in dostop do interneta. Zaradi poenostavitve predvidevamo, da programska oprema aplikacijskega strežnika vključuje spletni strežnik in bo nameščena na enem strežniku strojne opreme, DBMS na drugem, diskovni pomnilnik pa je zunanji diskovni niz.

Začnemo ustvarjati - gradimo infrastrukturni projekt. Pod vsako komponento bomo zapisali parametre njene dostopnosti. Razpoložljivost vsake komponente - v nadaljevanju bomo uporabljali izraz "zanesljivost" - je treba pridobiti pri dobavitelju komponente (oprema, programsko opremo ali storitev). Če je to iz nekega razloga nemogoče (na primer pri programskih komponentah vrednost zanesljivosti običajno ni znana), bo treba zahtevano vrednost neodvisno oceniti in dodeliti. Vsaka komponenta je ena sama točka okvare, zato sta v delovnem diagramu za izračun zanesljivosti povezana zaporedno (slika 1). Upoštevajte, da to ni shema za povezovanje infrastrukturnih komponent, ampak le shema za izračun zanesljivosti.

Torej izračunamo zanesljivost. Ker imamo serijsko povezavo komponent, se vrednosti zanesljivosti pomnožijo:

Zanesljivost = (0,985 x 0,97 x 0,975 x 0,98 x 0,99 x 0,9999 x 0,99) x 100 % = 89,47 %

To je očitno premalo v primerjavi z zahtevano vrednostjo 99,40 %. Nato bomo svojo odločitev spremenili – v sistem bomo vključili alternativnega ponudnika storitev dostopa do interneta (slika 2) in izračunali njegovo zanesljivost. Ker imamo vzporedno povezavo glede dostopa do interneta, je splošna zanesljivost določena na naslednji način:

Splošna zanesljivost =

Zanesljivost = × 100 % = 91,72 %

Mislim, da se je načelo "delovanja z zanesljivostjo" prihodnjega sistema pokazalo. Opozoriti je treba, da obravnavani primer ni vključeval komponent omrežne infrastrukture in zanesljivosti povezav (na primer med strežnikom baz podatkov in diskovnim shrambo), pa tudi komponent tehnične infrastrukture (napajanje, klimatska naprava). itd.), ki so tudi točke okvare in jih je treba vključiti v izračun. Posebno pozornost si zasluži ocena zanesljivosti komponent programske opreme. Glavni nasvet tukaj je razumna konzervativnost: uporabite komponente programske opreme, ki so bile v takšnih rešitvah uporabljene že dolgo in so se dobro izkazale.

Z uporabo tehnik, ki so bile na kratko obravnavane zgoraj, lahko izberete rešitev z zahtevano razpoložljivostjo.

Vzdrževanje in uporabnost

Prehajamo na druge komponente dostopnosti – vzdržljivost in uporabnost. Upoštevajte, da sta prevoda "maintainability" in "maintainability" neuspešna, saj iz njih ni zelo jasno, kaj pomeni. Bolje je uporabiti bolj razumljive prevode: vzdržljivost - dejavnosti notranje IT službe organizacije; servisabilnost - storitve zunanjih ponudnikov.

Če želite razjasniti situacijo, razmislite o skrajnih možnostih. Kdaj je vzdržljivost popolnoma odsotna? To se zgodi, ko podjetje oddaja lastno IT storitev. Tukaj je razpoložljivost le kombinacija zanesljivosti in zunanjih ponudnikov storitev.

Kdaj je uporabnost popolnoma odsotna? To se na primer zgodi v FSB, ki je zaradi tajnosti prisiljen izvajati vse dejavnosti za vzdrževanje sistema v delovnem stanju izključno s strani svojega IT oddelka, celo nadomestni deli se kupujejo neodvisno in niso dobavljeni po tehničnih podporna pogodba. Potem je razpoložljivost le kombinacija zanesljivosti sistema in aktivnosti interne IT službe organizacije.

Jasno je, da je treba odločitev sprejeti hkrati z razvojem shem vzdržljivosti in uporabnosti. Na splošno so zanesljivost, vzdržljivost in uporabnost tri dimenzije dostopnosti. Spremembe v enem od njih je treba nadomestiti s spremembami v drugih dveh - sicer se bo spremenil parameter razpoložljivosti IT storitev, kar lahko škodi podjetju.

Načini manipulacije s komponentami dostopnosti

Če želite razumeti, kako je mogoče manipulirati z vsemi deli dostopnosti, si oglejte še en praktični primer. Podjetje, ki ima centre za obdelavo podatkov v dveh ruskih mestih, Zelenogradu (mesto satelita Moskve) in Irkutsku, je pridobilo dva enaka sistema na ključ. Posledično je zanesljivost – zanesljivost – zanje enaka. Oba informacijska sistema sta bila podprta z enakimi pogodbami o podpori strojne in programske opreme, kar pomeni, da so bile tudi storitve zunanjega prodajalca – uporabnost – enake. Vendar pa je bila razpoložljivost sistemov različna. In podjetje se je dobavitelju začelo pritoževati zaradi slabe razpoložljivosti sistema v Irkutsku, češ da je ena od rešitev "pokvarjena" in zahteva revizijo.

Vendar pa v tem primeru revizija rešitve najverjetneje ne bo razkrila temeljnega vzroka "neuspeha" razpoložljivosti, saj bo raziskana samo ena komponenta - Zanesljivost, ki bi morala biti enaka za oba sistema, in samo dva druga. komponente je treba raziskati. Če ste pozorni nanje, se izkaže, da sta možni dve možnosti.

1. možnost: okvare strojne opreme so povzročile izgubo razpoložljivosti. Zaradi geografske lokacije podatkovnih centrov se lahko iste pogodbe o podpori strojne opreme dejansko razlikujejo. na primer, servisni center zunanji dobavitelj se nahaja v Moskvi, pogodba o tehnični podpori pa pravi, da velja samo ob delavnikih in inženir prispe na mesto namestitve opreme »s prvim razpoložljivim vlakom ali letom«. Očitno bo za inženirja, ki zapusti Moskvo, ta vrednost drugačna za Zelenograd in Irkutsk.

Možne rešitve problema razpoložljivosti v tem primeru:

  • spremenite zanesljivost IT sistema v Irkutsku, na primer postavite dodatno vozlišče v gručo;
  • spremenite parameter uporabnosti - ustvarite skladišče v Irkutsku, da dobite priložnost, da IT strokovnjaki podjetja sami spremenijo okvarjene komponente, če to ni v nasprotju s pravili proizvajalca.

Prav tako je smiselno preveriti pogoje delovanja. Primeri tipičnih kršitev teh pogojev:

  • izvajanje popravil v prostorih z vključenimi sistemi, kar vodi v njihovo zaprašenost, prah pa je zelo nevaren za strežniško opremo;
  • uporaba gospodinjskih klimatskih naprav v strežniških prostorih, čeprav ima vsaka vrsta opreme svoje zahteve glede vlažnosti in gospodinjske klimatske naprave niso zasnovane tako, da vzdržujejo določeno raven, popolnoma suh zrak pa je uničujoč za tehnologijo.

2. možnost: napake v programski opremi so povzročile zmanjšanje zahtevane ravni razpoložljivosti. V tem primeru je težava najverjetneje v IT službi v Irkutsku. Storitve tehnične podpore programske opreme se izvajajo na daljavo. Zato ni razlike v storitvah, le da so za različne časovne pasove različna obdobja storitev glede na lokalni čas, vendar to običajno nima pomembnega učinka. Verjeten razlog za "neuspeh" dostopnosti tukaj je različna stopnja strokovnosti IT oddelkov - v Irkutsku je verjetno nižja kot v Zelenogradu. Možne rešitve:

  • zaostriti vzdržljivost na zahtevano raven - izvesti usposabljanje IT osebja v Irkutsku o programskih in strojnih izdelkih, ki so del IT sistema, organizirati seminarje za prenos izkušenj IT ekipe iz Zelenograda, procese kopiranja itd.;
  • nadomestiti vzdržljivost z možnostjo servisiranja - nakup naprednih storitev tehnične podpore, storitve stikov itd.

Če se vrnemo k primeru naše spletne trgovine, kakšna je najboljša kombinacija zanesljivosti, vzdržljivosti in uporabnosti? Odgovor na to vprašanje je odvisen od posameznega primera. Na primer, lahko priporočite gostovanje, namesto da sami v celoti implementirate celotno infrastrukturo (IT in tehnično). Na splošno imamo naslednje standardne načine upravljanja razpoložljivosti. 1. Sprememba zanesljivosti:

  • sprememba IT rešitve v smeri visoke razpoložljivosti (High Availability) - uporaba grozdov, uporaba opreme s podporo za "vročo" zamenjavo, večkratno podvajanje možnih točk okvare itd.;
  • najem celotne infrastrukture ali njenega dela od zunanjih dobaviteljev (hostovanje, kolokacija).

2. Sprememba vzdržljivosti (spremembe v dejavnosti IT službe podjetja):

  • razširjanje lastnih najboljših praks pri upravljanju IT v okviru organizacije;
  • povabilo zunanjih svetovalcev za organizacijo procesov v IT oddelku;
  • usposabljanje IT osebja.

3. Sprememba uporabnosti - spreminjanje pogodb za IT storitve z zunanjimi ponudniki v smeri dviga nivoja storitve, povečanja obsega storitev, širitve področja odgovornosti zunanjih ponudnikov storitev itd. Vse tehnike manipulacije treh virov in treh komponent dostopnosti ni mogoče opisati v enem članku, vendar so bili prikazani glavni pristopi za kompenzacijo nekaterih komponent dostopnosti z drugimi. Če želite še izboljšati svoje znanje na tem področju, se morate učiti praktične izkušnje načrtovanje in delovanje informacijskih sistemov.

Spreminjanje poslovnih pogledov na zagotavljanje IT storitev vodi v potrebo po implementaciji procesa za upravljanje njihove razpoložljivosti.

V tretji različici se procesi ITIL za upravljanje razpoložljivosti in kontinuitete IT storitev obravnavajo skupaj (v nadaljevanju proces). Najpomembnejši ključni koncepti tega procesa sodelovanja so:

razpoložljivost- sposobnost IT storitve ali njenih komponent, da v določenem časovnem obdobju opravljajo svoje funkcije;

zanesljivost- sposobnost IT storitve ali njenih komponent, da izvajajo določene funkcije v določenih pogojih delovanja;

izterljivost- sposobnost IT storitve ali njenih komponent, da obnovijo svoje operativne lastnosti, ki so bile delno ali v celoti izgubljene zaradi okvare;

uporabnost- značilnost komponent IT, ki določa njihovo lokacijo in parametre, da se zagotovi racionalnost ravnanja osebja pri namestitvi, transportu, preprečevanju in popravilu (ta koncept se uporablja v zvezi z zunanjimi ponudniki IT storitev).

Podjetje ima svoje razumevanje razpoložljivosti in stroškov IT storitev, zato je cilj procesa zagotoviti zahtevano raven razpoložljivosti ob ohranjanju določene ravni stroškov. Za dosego tega cilja je proces namenjen izpolnitvi naslednjih nalog:

    Načrtovanje in razvoj IT storitev ob upoštevanju poslovnih zahtev glede stopnje razpoložljivosti;

    Optimizacija razpoložljivosti IT storitev s stroškovno učinkovitimi izboljšavami;

    Zmanjšanje števila in trajanja incidentov, ki vplivajo na razpoložljivost IT storitev.

Pri reševanju teh problemov se določijo poslovne zahteve glede razpoložljivosti storitev IT in komponent IT infrastrukture; pripravijo se zahtevana poročila; ravni razpoložljivosti storitev IT se redno pregledujejo; oblikovan je načrt razpoložljivosti, ki opredeljuje prioritete in odraža ukrepe za izboljšanje razpoložljivosti IT storitev. Z drugimi besedami, proces se skrajša na načrtovanje zagotavljanja IT storitev, merjenje ravni razpoložljivosti in sprejemanje ukrepov za njeno izboljšanje.

Načrtovanje

Pri načrtovanju se oblikujejo poslovne zahteve glede razpoložljivosti IT storitev, razvijejo kriteriji za določanje stopnje razpoložljivosti in sprejemljivega izpada IT storitev ter upoštevajo nekateri vidiki. varnost informacij... Podjetje mora določiti mejo, ki opredeljuje razpoložljivost in nerazpoložljivost storitve IT, kot je čas, v katerem je IT storitev lahko motena v primeru okvare infrastrukture IT.

Pri načrtovanju razpoložljivosti IT storitev se izvede analiza IT infrastrukture, da se identificirajo najbolj ranljive komponente, ki nimajo rezerve in lahko v primeru okvare negativno vplivajo na zagotavljanje IT. storitve. V terminologiji ITIL se te komponente imenujejo Single Point of Failure (SPOF) in so definirane z uporabo metode Component Failure Impact Analysis (CFIA). Ta metoda se uporablja za oceno in napovedovanje vpliva napak komponent IT na storitev IT. Glavni cilji CFIA so:

    Prepoznavanje točk okvare, ki vplivajo na razpoložljivost;

    Analiza vpliva okvare komponente na podjetja in uporabnike;

    Določitev razmerja komponent in osebja;

    Določanje časa obnovitve komponent;

    Prepoznavanje in dokumentiranje možnosti obnovitve.

Za analizo tveganj se uporablja metoda analize in upravljanja tveganj (CCTA Risk Analysis and Management Method, CRAMM), ki analizira možne grožnje in odvisnosti komponent IT, ocenjuje verjetnost nestandardnih situacij ali izrednih dogodkov.

Za zagotovitev zahtevane ravni razpoložljivosti je mogoče uporabiti tehniko prikrivanja negativnih učinkov zaradi načrtovanih ali nenačrtovanih izpadov komponent, podvajanja IT komponent, pa tudi uporabe sredstev za izboljšanje delovanja komponente v primeru povečanje obremenitve itd. V primerih, ko so specifične poslovne funkcije močno odvisne od razpoložljivosti IT storitev, in izgube poslovni ugled izpadi se štejejo za nesprejemljive, razpoložljivost določenih IT storitev je večja in dodeljena so dodatna sredstva.

Zasnova zagotavljanja IT storitev zagotavlja izpolnjevanje navedenih zahtev glede razpoložljivosti, vendar se to nanaša na stabilno, operativno stanje IT storitve. Možne pa so tudi okvare, zato se izvaja tudi načrtovanje obnovitve storitev IT, vključno z organizacijo interakcije s procesom upravljanja incidentov in Service Desk; načrtovanje in izvajanje nadzornih sistemov za odkrivanje okvar in zagotavljanje pravočasnega obveščanja o njih; razvoj zahtev za varnostno kopiranje in obnovitev strojne, programske opreme in podatkov; razvoj strategije varnostnega kopiranja in obnovitve; definiranje meritev obnovitve itd.

Drug vidik načrtovanja je določanje izpadov. Vse komponente IT morajo biti predmet storitvene strategije. Glede na aplikacijo IT, kritičnost in pomembnost poslovnih funkcij, ki jih podpira določena komponenta IT, se lahko pogostost in raven storitev razlikujeta. Če morate storitev zagotavljati v načinu 24x7, morate najti optimalno ravnovesje med zahtevami za servisiranje komponent IT in poslovnimi izgubami zaradi izpada storitev. Odobreni urniki storitev morajo biti dokumentirani v pogodbah o ravni storitev (SLA).

Izboljšanje razpoložljivosti IT storitev

Zakaj izboljšati dostopnost? Razlogov je lahko veliko: neusklajenost kakovosti IT storitev z zahtevami SLA; nestabilnost pri zagotavljanju storitev IT; trendi upadanja razpoložljivosti storitev IT; nesprejemljivo dolgi časi okrevanja; poslovne zahteve za večjo razpoložljivost.

Izboljšanje dostopnosti zahteva razumne dodatne finančni stroški nekatere tehnike in tehnologije se uporabljajo za prepoznavanje priložnosti za izboljšanje storitev IT, vključno z analizo drevesa napak (FTA) in analizo izpada sistemov (SOA).

Analiza drevesa napak identificira verigo dogodkov, ki vodijo do okvare komponente IT ali storitve IT. Grafično je drevo napak (glej sliko) zaporedje dogodkov, ki se začne z začetnim dogodkom, ki mu sledi en ali več funkcionalnih dogodkov in se konča s končnim stanjem. Glede na dogodke se lahko zaporedja logično razvejajo.

Analiza izpada sistema je strukturiran pristop k ugotavljanju temeljnih vzrokov za motnje pri zagotavljanju IT storitev in uporablja več virov podatkov za določitev lokacije in vzroka prekinitev. Cilji te analize:

    Ugotavljanje temeljnih vzrokov motenj pri zagotavljanju IT storitev;

    Ugotavljanje učinkovitosti podpore IT storitev;

    Priprava poročil;

    Začetek programa za izvajanje sprejetih priporočil;

    Analizirajte izboljšave razpoložljivosti na podlagi analize izpada sistema.

Uporaba analize izpada sistema bo povečala raven razpoložljivosti brez povečanja stroškov, izboljšala lastne veščine in sposobnosti osebja, da bi se izognila stroškom svetovanja o izboljšanju dostopnosti, in opredelila poseben program izboljšav.

Rezultat aktivnosti izboljšanja razpoložljivosti storitev je dolgoročni načrt za proaktivno izboljšanje dostopnosti IT storitev ob upoštevanju finančnih omejitev. Načrt dostopnosti opisuje trenutno in načrtovano raven dostopnosti ter ukrepe, ki jih je treba sprejeti za izboljšanje. Priprava načrta zahteva sodelovanje predstavnikov podjetij, vodij implementiranih ITSM procesov, predstavnikov zunanjih ponudnikov IT storitev, strokovnjakov tehnične podpore, odgovornih za testiranje in vzdrževanje. Načrt je sestavljen za največ dve leti, za naslednjih šest mesecev pa naj bi ga vseboval natančen opis dejavnosti. Načrt se pregleduje vsako četrtletje z minimalnimi prilagoditvami in vsakih šest mesecev z možnostjo večjih sprememb.

Merjenje razpoložljivosti IT storitev

Storitev IT z vidika potrošnika se lahko šteje za cenovno dostopno, če vitalne poslovne funkcije, ki jo uporabljajo, dobro delujejo. V tem primeru sta glavni kvantitativni kazalniki razpoložljivost - razmerje med časom dejanske razpoložljivosti komponente IT in časom razpoložljivosti, določenim v pogodbah o ravni storitev, in nedostopnost (v %) - obratno od razpoložljivosti. Te parametre uporabljajo IT storitve in s poslovnega vidika niso zelo okvirni, saj ne odražajo vrednosti razpoložljivosti za podjetja ali uporabnike - lahko kažejo visoko stopnjo razpoložljivosti komponent IT, medtem ko trenutna raven razpoložljivosti IT storitev bo nizka ...

Podjetje lahko razume kazalnike, kot so: pogostost izpadov IT storitev, skupno trajanje izpadov, območje vpliva prekinitve IT storitev.

Vloge in odgovornosti

Proces opredeljuje vlogo vodje procesa, ki je odgovoren za vodenje procesa in izvajanje potrebnih ukrepov. Vodja procesa je odgovoren za delovanje in razvoj procesa v skladu s predpisi in načrti. Za vlogo procesa je priporočljivo zaposliti zaposlenega s praktičnimi izkušnjami na področju vodenja procesov, poznavanjem ITSM, statističnih in analitičnih metod, ki se uporabljajo v IT, principov obvladovanja stroškov, izkušenj pri delu s kadri, poznavanjem pogajalskih metod itd. upravitelj.

Izvajanje procesa

Izvajanje katerega koli ITSM procesa je dolg in kompleksen projekt s specifičnimi cilji in roki. Izvajanje znotraj podjetja je težko: izvajanje procesa vzporedno z vsakodnevnimi operativnimi aktivnostmi vam ne omogoča, da se v celoti osredotočite na projekt; nenehno "vlečenje" sredstev za naloge izven projekta v končnem rezultatu vodi v povečanje finančnih stroškov, premik časovnega razporeda projekta za nedoločen čas, postopno izgubo pozornosti ali celo morebitno zaustavitev projekta. . Poleg tega interna implementacija zahteva znanje na določenem predmetnem področju, kar pomeni potrebo po dragem usposabljanju.

Kot vsak projekt se tudi implementacija procesa začne z oblikovanjem projektnih skupin, razvojem dokumentov za vodenje projekta, pripravo načrta projekta in še več. V fazi »predprojektantskega« dela se izvajajo marketinške aktivnosti za seznanjanje predstavnikov podjetij s tehnologijami in priporočili ITIL ter za utemeljitev potrebe podjetja po implementaciji procesa za upravljanje dostopnosti IT storitev.

Po dogovoru in prejemu pozitivnega odgovora o izvedbi procesa se določijo cilji in meje predmetnega področja procesa.

Učinek in težave

Glavni učinek implementacije procesa je, da so IT storitve zasnovane ob upoštevanju razpoložljivosti ter se upravljajo in upravljajo na dogovorjeni ravni razpoložljivosti in stroškov. Pozitivni dejavniki so tudi: ena oseba, odgovorna za dostopnost IT storitev; optimalna izraba zmogljivosti IT infrastrukture za zagotovitev zahtevane ravni razpoložljivosti IT storitev; zmanjšanje pogostosti in trajanja izpadov storitev IT sčasoma; kvalitativni prehod v dejavnosti ponudnikov IT storitev od odpravljanja napak pri zagotavljanju storitev na povečanje stopnje njihove razpoložljivosti.

Morebitne težave, ki lahko negativno vplivajo na odločanje o izvajanju in delovanju procesa, so običajno organizacijske narave:

    Obstoj situacije, ko je vsak vodja IT odgovoren za razpoložljivost IT sistemov ali komponent, ki so na njegovem področju odgovornosti, medtem ko se splošna dostopnost IT storitev ne spremlja in je lahko nezadovoljiva;

    Zavrnitev izvajanja postopka, ker se trenutna razpoložljivost IT storitev šteje za sprejemljivo;

    Predpostavke, da se bo proces upravljanja razpoložljivosti izvedel samodejno, če obstajajo drugi procesi TSM;

    Odpor proti centralizaciji upravljanja IT infrastrukture s strani IT managerjev;

    Nezadostna avtoriteta vodje procesa, ki vodi v nezmožnost pravilnega opravljanja nalog.

Evgeny Bulychev (Bulychev@i-teco.ru) - svetovalec oddelka za poslovno svetovanje I-Teco (Moskva).

Ideja za pisanje tega članka je prišla po pogovoru z eno od velikih strank – kolega je povedal zgodbo o izbiri ponudnika oblaka IaaS za svoje podjetje.

Prvi sklop meril za ocenjevanje ponudnika storitev je izgledal nekako takole: znano ime (blagovna znamka), pozitivna poslovna zgodovina na področju storitev v oblaku, ustrezna vrednost. Na podlagi rezultatov analize so bili potencialni prijavitelji izbrani med več podjetji, ki so bila po zgornjih kriterijih skoraj enaka, in je vsako poskušalo dokazati svoje prednosti, pri čemer se je sklicevalo na različne značilnosti svojih storitev v oblaku.

Vladimir Kurilov, podjetje Onlanta.

Tako je pogovor dosegel kazalnike zanesljivosti. In vrtelo se je okoli primerjave ravni razpoložljivosti podatkovnih centrov, v katerih so se nahajali oblaki. Hitro je postalo jasno, da imata samo dva kandidata podatkovna centra z 99,98-odstotno razpoložljivostjo. Izbira je bila v korist tujega ponudnika storitev v oblaku – zmagala je cena. Kolega je vse preprosto razložil - "Kakšen je smisel plačevati več za iste kazalnike zanesljivosti?"

Glede na obstoj različne možnosti, opredelimo razlago pojma »Dostopnost« v okviru tega članka. Definirajmo razpoložljivost kot čas delovanja sistema v določenem časovnem intervalu, izražen kot odstotek tega intervala. Ali v klasični obliki: "Lastnost predmeta, da izvaja zahtevano funkcijo pod določenimi pogoji za določen časovni interval." To je na splošno bližje že uveljavljenemu konceptu "pripravljenosti" sistema.

Leto delovanja, ki je sledilo tej odločitvi, je pokazalo, da ima ponudnik ob načrtovanih preklopih manjše motnje pri delu inženirskih sistemov podatkovnega centra. Hkrati je razpoložljivost podatkovnega centra ostala v okviru SLA, saj je prehod trajal nekaj sekund. Vendar, če Informacijski sistem stranka se pred takšnimi preklopi ni ustavila vnaprej, potem je baza podatkov v primeru okvar zahtevala obnovitev iz varnostne kopije, kar je za nekaj ur ustavilo delo zaposlenih. Izklop / vklop sistemov je pred preklopom nekoliko popravil situacijo, hkrati pa je prišlo do izpada zaposlenih za 25-30 minut, kar je povzročilo tudi pritožbe uporabnikov.

Minilo je eno leto in zdaj Kolega najema kapacitete v drugem oblaku, kjer je dostopnost enega od podatkovnih centrov nižja od zgoraj navedene, čas izpada pa se je občutno zmanjšal. Kako je to mogoče doseči in kaj je pomembno pri ocenjevanju zanesljivosti rešitev v oblaku in kaj ni zelo pomembno? Kakšne so možnosti prihranka, zmanjšanja tveganja preplačila "za lepe številke", ne pa za dejansko zanesljivost? Kako izpostaviti kritične parametre storitev v oblaku za zanesljivost vaše aplikacije?

Odgovore na ta vprašanja bom poskušal oblikovati naprej.

Zanesljivost aplikacije – kako se zloži v oblaku

Zanesljivost aplikacijskih storitev

Če poskušamo oblikovati definicijo zanesljivosti aplikacije, bo zvenelo takole: "Zanesljivost je lastnost aplikacije, da ohranja zmogljivost skozi čas z vso funkcionalnostjo, vključeno vanjo".

Kaj določa zmogljivost aplikacije in kako je zanesljivost aplikacije povezana z razpoložljivostjo podatkovnega centra?

Aplikacija temelji na programski platformi, ki pa je nameščena na infrastrukturni platformi z uporabo inženirske platforme, glej sl. Te štiri ravni skupaj zagotavljajo "aplikacijsko storitev".


riž. Poenostavljen primer izračuna razpoložljivosti aplikacijske storitve

Kot je razvidno iz slike, imamo opravka s sistemom zaporednih elementov, kjer okvara katerega koli elementa vodi do odpovedi sistema kot celote.

Razpoložljivost takšnega sistema (As) je opredeljena kot produkt kazalnikov razpoložljivosti vseh elementov:


A i - razpoložljivost vsake serijsko povezane komponente.
A s = 0,99995 0,99995 0,993 0998 ≈ 0,99091 ali 99,091

Kot lahko vidite, je razpoložljivost aplikacijske storitve daleč od razpoložljivosti inženirske platforme podatkovnega centra. Številke razpoložljivosti je mogoče pretvoriti v vrednosti izpada sistema. Izkazalo se je, kljub dovoljenemu letnemu izpadu inženirske platforme pri 1 uri. 45 minut, za aplikacijsko storitev bo letni izpad 86 ur 22 minut.

V skladu s tem visoka stopnja razpoložljivosti podatkovnega centra ne pomeni enako visoke zanesljivosti aplikacijskih storitev, ki delujejo v tem podatkovnem centru.

Zanesljivost omrežne aplikacije

Bi se torej pri izbiri ponudnikov storitev prav osredotočilo na skupno razpoložljivost aplikacijskih storitev? Žal tukaj stvari niso tako enostavne.

Izkazalo se je, da lahko razvijalec programske opreme vpliva na zagotavljanje zanesljivosti (odpornosti na okvare, obremenitve) določene aplikacije. Na primer, zanesljivost aplikacije v oblaku je mogoče znatno izboljšati z uporabo specializiranih knjižnic, ki so osredotočene na obvladovanje zamud pri izvajanju zahtev. Aplikacije, napisane na standarden način, bodo imele razmeroma nižje kazalnike zanesljivosti.

Ena od možnosti za implementacijo uporabe specializiranih knjižnic s strani Microsofta je aplikacijski blok za obravnavo prehodnih napak (glejte http://msdn.microsoft.com/en-us/library/hh680934(v=pandp.50).aspx).

Zanesljivost programske platforme

Zanesljivost programske platforme, vključno z operacijski sistem, gonilniki, knjižnice spet ostajajo "na strani razvijalcev" in zaenkrat niso močno odvisni od ponudnika storitev. Če pa si je ponudnik storitev zamislil ustrezno politiko tehnične podpore, lahko to posredno vpliva na razpoložljivost.

Govorim o "higienski" varnostni opremi. Najprej o storitvi posodabljanja sistemske programske opreme. Vključena naj bo v portfelj storitev ponudnika, še bolje pa naj bo vključena v »privzeto« ceno storitve. Drugič, to je storitev protivirusne zaščite z izbiro protivirusnih programov. In tretjič, rezerva virtualni strežniki naročnika. To niso vsi, ampak najpomembnejši načini za izboljšanje razpoložljivosti vaše aplikacijske storitve.

Zanesljivost infrastrukturne platforme

Ta komponenta zanesljivosti je v celoti odvisna od ponudnika storitev in bi jo morali sami oceniti na podlagi razpoložljivosti inženirske platforme podatkovnega centra. Ta parameter zahtevajte pri svojem ponudniku, saj običajno ni naveden v trženjskem gradivu. Hkrati je treba dobiti razlago, kako je bil ta parameter izračunan.

Čeprav je treba upoštevati, da vsi ponudniki storitev ne bodo želeli predstaviti takšnih podatkov, saj iz izračuna postane jasen strukturni diagram infrastrukturne rešitve in uporabljene opreme - in to je določeno znanje in izkušnje.

Vendar:

  • Zahtevajte diagram funkcionalne strukture infrastrukturne platforme za gostovanje vaše aplikacijske storitve. Vključevati mora:
    • Omrežna infrastruktura;
    • Skladiščno omrežje;
    • Računalniška infrastruktura.
  • Prosite, da v tem diagramu navedete kraje rezervacije opreme. Ni treba navesti vrste uporabljene opreme.
  • Vprašajte za razpoložljivost (ali pripravljenost) za vsako raven.
  • Razpoložljivost štejte kot produkt razpoložljivosti elementov infrastrukturne platforme.

Zdaj imate možnost, da čim natančneje določite razpoložljivost vaše aplikacijske storitve. Glede na naše izkušnje ima 90 % skupnih podjetij v Rusiji skupno razpoložljivost največ 99 %. In to je tveganje izpada do 87 ur na leto. To so običajne stopnje razpoložljivosti, razen če imate poslovno kritične aplikacije, ki vas v eni uri izpada stanejo na milijone dolarjev. In če je enourni postanek podoben katastrofi za vaše podjetje, potem je za vas preostalih 10 % skupnih podjetij, ki zagotavljajo storitve na ravni podjetja z razpoložljivostjo aplikacijske storitve na ravni 99,99 %. Kako se to doseže v naslednjem razdelku.

Rešitve za visoko razpoložljivost aplikacijskih storitev

Posledično stranki ni vseeno, kako se spoštuje SLA za inženirske sisteme, pomembno mu je, kakšna je servisna razpoložljivost njegovih aplikacij, tj. - zajamčen čas obnovitve za aplikacijo.

Sistemi, o katerih smo razpravljali prej, so imeli zaporedno strukturo. Razpoložljivost, ki smo jo zgoraj obravnavali kot produkt posameznih elementov, je tehnična meja, ki jo zagotavljajo takšni sistemi. Pravzaprav je zaradi pojava različnih dodatnih dejavnikov razpoložljivost še manjša. Se spomnite na začetku članka zgodbe o drugem izpadu električne energije in petih urah izpada?

Ali je mogoče povečati razpoložljivost aplikacije, če so parametri razpoložljivosti določenega podatkovnega centra nastavljeni in jih ni mogoče spremeniti?

Odgovor je, da lahko.

Tu sta na primer dva pristopa, ki vam to omogočata:

  • Geografsko porazdeljena gruča visoke razpoložljivosti;
  • Obnovitev obdelave v geografsko oddaljenem varnostnem podatkovnem centru (Disaster recovery).

riž. Strukturni diagram geografsko porazdeljene gruče visoke razpoložljivosti


riž. Blok diagram za obnovitev obdelave v geografsko oddaljenem podatkovnem centru za varnostno kopiranje

Prvi pristop je z vidika razpoložljivosti idealen (obnovitev zmogljivosti se zgodi v nekaj sekundah), vendar izgublja na ceni in je precej težko izvedljiv. Drugi pristop obnovi storitev iz delovne kopije - ni tako hiter in majhen del podatkov v primeru okvare bo treba obnoviti ročno, vendar ima ta možnost nižje stroške in jo je lažje izvajati.

V obeh primerih je treba govoriti o geografski oddaljenosti podatkovnih centrov, da bi se čim bolj izognili možnosti medsebojno povezanih virov. Na primer, uporaba istih podstanic, ki zagotavljajo napajanje podatkovnih centrov. Spomnite se izpada električne energije na jugovzhodu Moskve maja 2008 zaradi požara na postaji Chaginskaya, New York 2003. Zato bi moral biti rezervni podatkovni center dlje od glavnega.

Pristop z dvema podatkovnima središčema nam omogoča, da govorimo o ustvarjanju sistema z vzporednimi elementi. Hkrati sta po eni strani glavni in rezervni podatkovni centri neodvisni sistemi, po drugi strani pa sta skupna platforma za aplikacijsko storitev - ne glede na to, v katerem podatkovnem centru se aplikacija trenutno izvaja, se lahko premika iz enega podatkovnega centra v drugega.

Temeljna razlika med vzporednim sistemom je v tem, da zanesljivost raste s povečanjem vzporednih elementov sistema. Izračun razpoložljivosti sistema, sestavljenega iz vzporednih elementov, se lahko izvede s formulo:

Kje: A s - Popolna razpoložljivost, razpoložljivost celotnega sistema,
A i - razpoložljivost vsake vzporedno povezane komponente.

Na primer, izračunajmo sistem geografsko porazdeljene gruče visoke razpoložljivosti dveh podatkovnih centrov z 99-odstotno razpoložljivostjo.

A s = 1-(1-0,99) * (1-0,99) = 0,9999 ali 99,99

To pomeni, da lahko dva ne najbolj zanesljiva podatkovna centra zagotovita razpoložljivost na ravni kritičnih sistemov.

Za določitev razpoložljivosti aplikacijske storitve pri možnosti obnovitve obdelave v geografsko oddaljenem varnostnem podatkovnem centru s 15-minutnim intervalom sinhronizacije za primer posamezne okvare, se izračuna na naslednji način: zahtevati morate čas obnovitve aplikacijsko storitev, za katero jamči skupno podjetje; nato izračunamo odstotek letnega intervala - in rezultat odštejemo od enega. Dostopnost dobimo po prvi okvari. Na primer, za sistem s 15-minutnim intervalom sinhronizacije:

Skupno število ur v letu je 365 * 24 = 8760
Zagotovljen izpad = največji čas izpada
15 minut ali 0,25 ure, kar je ≈ 0,003 letnega časa

tiste. vsaka napaka bo imela težo 0,003%. Tako ima sistem pred okvaro sistema razpoložljivost 100 %, po prvi okvari 99,997 %, po drugi okvari 99,994 %. Enako izračunajmo za sistem z urnim intervalom sinhronizacije:

Zajamčen čas okrevanja = Največji čas izpada = 1 ura, kar je ≈ 0,01 letnega časa

Vsaka napaka bo imela težo 0,01%. Tako ima sistem pred okvaro sistema razpoložljivost 100 %, po prvi okvari 99,99 %, po drugi okvari 99,98 %. Nadalje lahko privrženci teorije verjetnosti vadijo pri ocenjevanju verjetnosti pojava prvega, drugega, tretjega neuspeha. Rezultat vas bo prepričal, da je vpliv tega faktorja na dobljene rezultate zanemarljiv. To mi omogoča, da priporočim predlagano metodologijo za ocenjevanje razpoložljivosti storitev za vaše aplikacije v oblaku.

V povzetku ...

  • Začnite z oceno poslovne kritičnosti aplikacije, ki jo nameravate gostiti v oblaku. Ocenite stroške izpada aplikacije. Koliko vas bo stalo pomanjkanje aplikacijske storitve?
  • Od tu ocenite sprejemljivo vrednost izpadov na dan na leto. Izračunajte kritično razpoložljivost aplikacijske storitve.
  • Primerjajte možne stroške izpada s cenami JV, ki ponujajo razumno razpoložljivost za vaše aplikacije.
  • Pri izbiri skupnega podjetja dajte prednost nekomu, ki lahko zagotovi ne le trenutno raven razpoložljivosti, temveč tudi kot dodatno storitev/storitev izboljša razpoložljivost. Še posebej, če vaše podjetje raste in se razvija.
  • In ostanite vajeni. Vzemi, kar dajo na dotik = preizkus. Teorija brez prakse ni zelo uporabna za posel.