Ce este disponibilitatea ridicată? SLA pentru IaaS: garanții reale pentru infrastructura IT virtuală Disponibilitate ridicată ca serviciu.

Serviciile „Infrastructura IT ca serviciu”, IaaS, devin din ce în ce mai populare clienti corporativi, și sunt deja folositeși pentru sarcini critice. E timpul să-ți dai seamace garantează furnizorii acestor servicii și ce responsabilitate poartă în cazurile în care infrastructura IT virtuală încetinește activitatea sau devine complet indisponibilă.

Am intervievat principalii furnizori de servicii de infrastructură IaaS de nivel enterprise și le-am analizat ofertele. În același timp, „nivelul corporativ” înseamnă următoarele: platforma cloud este implementată într-un centru de date care îndeplinește cerințele Tier III (prezența unui certificat de la Uptime Institute nu estenecesar) și oferă un nivel ridicat de toleranță la erori prin mecanismele de înaltă disponibilitate (HA) și relocarea mașinilor virtuale în cazul unui dezastru.

DISPONIBILITATE ȘI TIMP DE RĂSPUNS

Principalii parametri ai serviciului IaaS, care sunt de obicei indicați în contractul SLA, sunt nivelul disponibilității acestuia, timpul de răspuns la diverse incidente și durata rezolvării acestora, precum și schema și parametrii de compensare în caz de nefuncționare. .

După ce ați decis să utilizați o infrastructură IT virtuală, puteți conta în siguranță pe o disponibilitate de 99,5% și mai mult. Cel puțin, niciunul dintre furnizorii pe care i-am intervievat nu a numit o cifră mai mică. Mai mult, reprezentanții multor companii au subliniat că valoarea indicată în răspunsurile lor (vezi Tabelul 1) este tipică și, la cererea clientului, nivelul de disponibilitate poate fi crescut folosind diverse mijloace tehnice.

De obicei, platformele IaaS de nivel enterprise sunt găzduite în centre de date (proprii sau externe) care îndeplinesc toleranța la erori de nivelul III, despre care se știe că oferă o disponibilitate de 99,98%. Valorile de disponibilitate ale infrastructurilor virtuale IaaS indicate de furnizori nu depășesc caracteristicile corespunzătoare ale site-ului fizic, ceea ce este destul de firesc.

Excepție este disponibilitatea de 99,99% oferită de Dataline în modul cluster metrou. Această versiune a dezastrului Cloud-ul acoperă două dintre centrele de date ale companiei - pentru mai multe informații despre clusterul de metrou, consultați materialul „Disaster-proof cloud at a „non-cloudy” price” publicat în numărul din octombrie 2013 al Journal of Networking Solutions / LAN ( ).

În principiu, furnizorul poate specifica în SLA disponibilitatea arbitrar de mare, cel puțin 100%, dar atunci riscă să piardă mai mult decât să câștige, deoarece orice cumpărător sănătos va cere ca în contract să fie inclusă o schemă de compensare strictă pentru nerespectarea prevederilor. conditii convenite. Deși nu a fost încă elaborată o schemă standard - fiecare furnizor oferă ceva diferit, așa că cumpărătorul trebuie să evalueze compensația propusă, ținând cont de eventualele pierderi financiare în cazul întreruperii serviciilor IT.

Multe companii oferă o anumită rambursare a plății lunare (sub formă de procent) pentru fiecare oră suplimentară (dincolo de SLA) de indisponibilitate a serviciului. De exemplu, cu nivelul de disponibilitate specificat în SLA de 99,95% (timp de nefuncționare nu mai mult de 1 oră pe lună), pentru fiecare oră suplimentară de deconectare de la serviciu, Inoventica este gata să ramburseze 2% din plata lunară. Cloud4Y în versiunea standard compensează 1% pentru 1 oră de oprire (calculele folosesc cost total servicii pentru complet luna calendaristică precedentă acesteia), dar nu mai mult de 50% din costul serviciului.

O serie de furnizori au furnizat calcule detaliate ale modului în care compensarea variază în funcție de nivelul de disponibilitate (a se vedea Tabelul 2). În cazul unei reduceri semnificative a acestui nivel, se oferă compensații foarte substanțiale. De exemplu, dacă valoarea este mai mică de 95%, Onlanta (Grupul de companii Lanit) permite o reducere a nivelului de plată a serviciului la 40%. Iar compania IT-Grad, dacă nivelul de disponibilitate scade sub 96,71%, promite compensații de 50%. Este clar că o astfel de deteriorare a calității serviciilor este considerată improbabilă de către furnizori.

„Am introdus două principii independente de compensare: pentru încălcarea indicatorilor țintă ai parametrilor de serviciu și indicatorii țintă pentru procesarea cererilor”, spune Vitaly Mzokov, șeful Serviciilor Cloud și Soluții de Infrastructură la Servionika (Grupul I-Teco). - Încălcarea indicatorilor țintă ai parametrilor de serviciu este compensată pe o scară progresivă. În funcție de nivelul real de disponibilitate, se calculează un indicator de compensare, exprimat ca procent din suma facturii pentru utilizarea serviciului. Compensarea pentru încălcarea țintelor de procesare a cererilor se calculează pe baza duratei de așteptare a clientului cu o precizie de până la un minut.

Conform practicii adoptate de Servionika, tipurile de solicitări ale clienților, precum și ținte generale pentru timpul maxim de răspuns la solicitări și timpul maxim de rezolvare a problemei, sunt descrise în regulamentele de interacțiune a serviciilor. Și în acordul SLA în sine, acești indicatori sunt specificați pentru un anumit serviciu.

„Conform contractului, clientul poate primi mai multe servicii de la noi. De aceea reglementările descriu indicatori generali cu nota: „Țintele definite în SLA pentru un anumit serviciu se suprapun cu indicatorii specificati în reglementări.” Acest lucru se face astfel încât, dacă este necesar, să fie posibilă clarificarea (prelungirea sau reducerea) a timpului de reacție și a timpului de soluție, - explică Vitaly Mzokov. - Suntem obligați să răspundem solicitărilor de orice fel în termen de 15 minute. Timpul maxim de rezolvare, în funcție de tipul și prioritatea cererii, variază de la 1 oră (pentru incidente cu prioritate nr. 1) până la 48 de ore (pentru solicitările care necesită o procesare completă a solicitării de informații a clientului - de exemplu, furnizarea de informații). cu privire la tarife și alte servicii, diverse clarificări și instrucțiuni).

Timpul de răspuns la o aplicație depinde de obicei de prioritatea acesteia. De exemplu, iată nivelurile de prioritate pe care Linxdatacenter le practică:

  • Critic - serviciul nu este pe deplin disponibil, este necesar să se ia măsuri urgente de restabilire, timpul de reacție este de 15 minute, timpul de recuperare nu este mai mare de 4 ore;
  • Ridicat - serviciu parțial indisponibil, timp de răspuns până la 1 oră, prioritate mare;
  • Normal - clarificarea asupra parametrilor serviciului, întrebări curente neurgente, timp de răspuns de până la 1 oră, 24 de ore sunt alocate pentru pregătirea unui răspuns.

Tabelul 3 prezintă un alt exemplu - categorizarea interogărilor utilizate de Cloud4Y; timp de reacție - nu mai mult de 30 de minute.

Încercarea promptă de a lucra în T-Systems. Potrivit lui Vsevolod Yegupov, director de vânzări al diviziei ICT a T-Systems RUS, specialiștii acestei companii „în 80% din cazuri răspund în 30 de secunde” (!). Dar, la fel ca majoritatea respondenților noștri, el a remarcat că timpul de răspuns depinde de criticitatea situației.

INSTRUMENTE DE MONITORIZARE

Nu este suficient să specificați un nivel atractiv de disponibilitate și scheme rigide de compensare în acordul SLA, este, de asemenea, necesar să se ofere clientului o soluție convenabilă și instrument eficient Control. Și aici abordările furnizorilor diferă semnificativ.

Referindu-se la practica Servionika, Vitaly Mzokov observă că clienții sunt mai interesați să primească raportări transparente și precise de la operator decât să stăpânească unele instrumente speciale de monitorizare independentă. De regulă, Servionika furnizează rapoarte lunare asupra unui set convenit de parametri, dar, la cererea clientului, contractul poate prevedea raportări mai frecvente.

Multe companii, în mod implicit, oferă rapoarte de sănătate a serviciului o dată pe lună, dar pot face mai des - la cererea clienților. Un exemplu de raport oferit de Onlanta este prezentat în Figura 1. Potrivit lui Mikhail Lyapin, șeful diviziei sale de cloud, Onlanta este singura companie din Rusia care oferă clienților un raport privind disponibilitatea resurselor cloud cu acest nivel de detaliu. Potrivit acestuia, majoritatea furnizorilor de servicii se descurcă cu statisticile privind nivelul de disponibilitate a mașinilor virtuale.

O serie de companii oferă clienților o consolă de autoservire online. Potrivit lui Ruslan Zaedinov, director general adjunct, șef al centrului de date și cloud computing la Croc, fiecare consumator de servicii IaaS are acces la o astfel de consolă cu o capacitate încorporată de a monitoriza funcționarea anumitor componente online. De exemplu, în cazul mașinilor virtuale, specialiștii IT ai clientului pot monitoriza cât de ocupat este procesorul, cum funcționează I/O, câtă memorie este folosită etc. Aceste date sunt disponibile în timp real, precum și - pe cerere – sub formă de statistici pentru orice perioadă.

PERFORMANȚA TREBUIE GARANTATE

Evident, odată cu creșterea încărcării pe platforma IaaS a furnizorului, nivelul de performanță al mașinii virtuale se poate degrada. Furnizorii de servicii fac tot posibilul pentru a preveni acest lucru. Toate companiile sunt de acord cu acest lucru. Cu toate acestea, unii includ parametri de performanță în SLA, în timp ce alții consideră o astfel de măsură inutilă.

Iată ce spune despre aceasta Vitaly Slizen, membru al consiliului de administrație al Inoventica: „Nu observăm degradare [a performanței] chiar și cu o creștere a încărcăturii, deoarece extindem și modernizăm capacitățile centrelor de date în timp util. manieră. Separat, în SLA, acești parametri (VM și performanța stocării) nu sunt reflectați, întrucât respectarea lor este responsabilitatea noastră principală, indiferent de solicitările clienților. Specialiștii Inoventica monitorizează constant toți parametrii principali ai infrastructurii închiriate, ceea ce le permite să primească rapid informații despre probleme potentialeși preziceți-le în timp util.

Igor Drozdov, manager, vorbește și despre absența degradării suport tehnic din vânzările Linxdatacenter: „Compania noastră oferă resurse de calcul garantate pentru utilizare. Acestea sunt rezervate în cloud și cresc pe măsură ce numărul clienților crește, astfel încât performanța mașinilor virtuale și a stocării rămâne la un nivel constant ridicat. În plus, efectuăm upgrade-uri de server în timp util și monitorizăm performanța folosind produse VMware specializate.”

Orange Business Services este, de asemenea, unul dintre furnizorii de servicii care nu reglementează parametrii de performanță în SLA standard. În același timp, după cum a remarcat Dmitry Dorodnykh, șeful departamentului de comunicații unificate și dezvoltare de produse IT la Orange Business Services din Rusia și CSI, „dacă un client necesită ca anumite resurse de calcul să fie garantate pentru mașinile sale virtuale, aplicăm mijloace standard platforme moderne de virtualizare care, în caz de dispută pentru resurse, vă permit să mutați mașinile virtuale pe alte servere.

Vsevolod Egupov consideră că nu are sens să includă caracteristici de performanță în SLA, deoarece degradarea afectează nivelul de disponibilitate a serviciului reglementat de acord. La T-Systems, performanța mașinilor virtuale și a sistemelor de stocare este controlată de departamentul de management al capacității, ai cărui specialiști sunt responsabili pentru prevenirea degradării acesteia.

Există, de asemenea, multe companii care cred că adăugarea de caracteristici de performanță la SLA are sens. Blocajul Într-un mediu IT virtualizat, mulți experți iau în considerare performanța stocării, motiv pentru care majoritatea furnizorilor acordă cea mai mare atenție caracteristicilor de stocare, cum ar fi operațiunile de intrare/ieșire pe secundă (IOPS)și timpul de acces la disc (latență).

Linia de date listează valorile de performanță pentru stocare și mașini virtuale în fiecare SLA (vezi Tabelul 4). În același timp, după cum notează Dmitry Tishin, șeful departamentului de dezvoltare a serviciilor al acestei companii, „în funcție de cerințele prezentate peisajului sistemului de către client, valorile pot fi modificate”. Valorile IOPS sunt măsurate de sistemul de monitorizare NetApp DFM, iar timpii de acces la disc sunt măsurați de mijloace regulate Software de virtualizare (vCenter). În cazul unei probleme cu o mașină virtuală, schimbul de serviciu și inginerii echipei de virtualizare primesc un avertisment corespunzător. În plus, Dataline asigură monitorizarea diverșilor parametri la nivelul sistemului de operare și al serviciilor care rulează în acesta. Dacă clientul folosește serviciul companiei pentru administrarea sistemului de operare și a serviciilor, o astfel de monitorizare este efectuată în mod implicit.

Pentru a preveni degradarea performanței mașinilor virtuale, specialiștii Dataline aplică un set de măsuri. Deci, pentru un cluster, se folosește mecanismul Distributed Resource Scheduler (DRS), care monitorizează încărcarea serverelor fizice în funcție de parametrii principali - dacă se ajunge la o anumită încărcare pe server, unele dintre mașinile virtuale sunt mutate automat pe alta . Clusterul menține redundanța serverului, astfel încât încărcarea întregului cluster să nu depășească 70%. În cadrul contractelor de servicii încheiate cu furnizorii de echipamente, capacitatea de resurse a clusterelor poate fi mărită conform graficului.

Safedata reglementează, de asemenea, caracteristicile de performanță precum IOPS și MIPS în SLA. „Nu putem reduce performanța sub valorile specificate în SLA”, spune Anton Antonov, șeful departamentului de vânzări Safedata. „Dacă se produce degradarea serviciului atunci când sarcina pe serverele fizice crește, sunt puse în funcțiune gazde EXSi suplimentare de rezervă.”

Caracteristicile de performanță ale sistemului de discuri de stocare reglementate în SLA Cloud4Y sunt prezentate în Tabelul 5. Potrivit lui Evgeny Bessonov, șeful Departamentului de Marketing Cloud4Y, în cazul încălcării condițiilor garantate se are in vedere o compensatie care se negociaza separat sau se plateste in conditii standard: 1% din costul lunar pentru 1 ora.

„Garantăm performanța mașinilor virtuale la limita inferioară, fără a o limita de sus”, spune Ruslan Zaedinov. „Astfel, dacă serverul pe care se află mașina virtuală are resurse de calcul gratuite care depășesc cele garantate, acestea vor fi disponibile pentru client.” În ceea ce privește sistemele de stocare, în prezent toți clienții Croc folosesc un canal comun de comunicare cu sistemele de stocare. Multă vreme acest lucru nu a cauzat probleme, dar acum, pentru a răspunde nevoilor tot mai mari ale clienților, compania migrează stocarea în cloud de pe discuri Fibre Channel și SATA pe unități flash cu acces direct la acestea de pe mașinile virtuale prin intermediul rețelei Infiniband. În paralel, software-ul este implementat pentru a asigura debitul garantat al sistemului de stocare a datelor în cloud. Modificările corespunzătoare ale SLA vor fi făcute în această toamnă.

De comun acord cu clientul, Servionika fixează indicatorii de performanță ai componentelor individuale ale platformei cloud în SLA-ul fiecărui proiect. În plus, acordul specifică metodele de măsurare a acestor indicatori și frecvența măsurătorilor. Orice operator poate scrie „garantat 100.500 OP-uri pe 1 GB de spațiu pe disc”, dar nu toată lumea este capabilă să demonstreze că acest criteriu este îndeplinit. Suntem pentru cea mai transparentă relație între operatorul platformei cloud și consumatorul acesteia”, subliniază Vitaly Mzokov. Performanța mașinilor virtuale și a sistemelor de stocare este determinată în SLA Servionika de indicatorii IOPS și de latență.

După cum a spus Maxim Zakharenko, CEO furnizorul de servicii „Oblakoteka”, în contractele pe care le încheie, indicatorii de performanță de vârf sunt reglementați în așa fel încât sarcina pe lățimea de bandă I/O și rețea să nu depășească 80%. Monitorizarea se realizează folosind sistemul Microsoft SCOM. El notează că pt sisteme diferite diverși indicatori sunt importanți: pentru site-uri Web - timp de răspuns, pentru găzduire infrastructuri IT - indicatori de vârf CPU, memorie, rețea virtuală etc. În SLA, această companie include și parametrii de backup garantați, metodele și termenii de furnizare și stocare a datelor utilizatorilor („Despărțire cinstită”).

SLA END-TO-END

Indiferent cât de mare ar fi fiabilitatea platformei IaaS în sine, situată într-un centru de date tolerant la erori, canalele de acces la această platformă pot deveni un blocaj pentru client. Vestea bună este că mulți dintre furnizorii pe care i-am intervievat practică SLA-uri end-to-end care acoperă atât serviciul IaaS în sine, cât și canalele de acces. În același timp, potrivit acestora, organizare adecvatăși redundanța canalului, nivelul de disponibilitate a comunicațiilor nu este mai mic decât cel al platformei SLA și, prin urmare, această caracteristică importantă nu este redusă în SLA-urile end-to-end.

Totuși, după cum notează Vsevolod Yegupov, reducerea sau păstrarea nivelului de disponibilitate depinde de modul în care sunt organizate canalele de comunicare - dacă canalul este rezervat, disponibilitatea nu se deteriorează. În caz contrar, nivelul de disponibilitate din SLA end-to-end este redus la nivelul de disponibilitate a canalului. T-Systems RUS are propria sa rețea de centre de date situate în întreaga lume. Clienții ruși sunt serviți în principal din centre de procesare a datelor situate în Germania și Austria. Compania a semnat un SLA cu Rostelecom, Beeline și cooperează și cu alți operatori de telecomunicații.

Acei furnizori de servicii IaaS care sunt și operatori de telecomunicații profită de acest lucru. Astfel, fiind un operator de telecomunicații internațional, Orange Business Services practică SLA-uri end-to-end care acoperă IaaS și servicii de telecom. Nivelul de disponibilitate în astfel de SLA-uri este de 99,95%. Dar, după cum explică Dmitry Dorodnykh, această caracteristică depinde de locația geografică a clientului - de exemplu, în regiunea Centrală, acest nivel este mai ridicat decât dincolo de Urali și în Siberia. Ultimul milă poate avea propriii parametri SLA. Schemele și mecanismele de control SLA pe canalele de comunicare sunt deja puse la punct de zeci de ani, așa că problema monitorizării nu este o problemă pentru Orange Business Services.

După cum notează Vitaly Slizen, Inoventica are propriile sale canale de comunicare și o rețea de centre de date distribuită geografic, ceea ce face posibilă implementarea geoclusterelor. Acest lucru vă permite să salvați datele și performanța serviciilor chiar și în cazul distrugerii fizice a unuia dintre centrele de date. Potrivit acestuia, Inoventica este „singura companie din piata ruseasca, care oferă un lanț complet de servicii „DPC – canal – serviciu – client (AWP)” în conformitate cu SLA, care este minimulîntârziere de transmisie a pachetelor (întârziere dus-întors) mai mică de 10 ms și pierderi de pachete aproape zero. În prezent, soluția complexă Inoventica este disponibilă clienților din cinci districte federale ale Federației Ruse.

Furnizorii de servicii IaaS care nu sunt transportatori cooperează activ cu aceștia. Astfel, Servionika a format un SLA pentru a lucra cu operatorii de telecomunicații care deservesc centrul său de date (mai mult de 10 furnizori mari de telecomunicații). Compania difuzează termenii acestor SLA-uri în contracte cu clienții care utilizează servicii de comunicații. Iar controlul asupra conformității cu SLA este asigurat de serviciile tehnice ale centrului de date TrustInfo. „Precizăm în contractele noastre aceiași parametri SLA ca și ai operatorilor, adică ne asumăm responsabilitatea pentru calitatea muncii lor și pentru furnizarea neîntreruptă a canalelor de comunicare”, notează Vitaly Mzokov.

Pentru a furniza canale de comunicare clienților, Dataline utilizează serviciile operatorilor de telecomunicații în cadrul unei scheme de subcontractare. Cu această schemă, compania controlează calitatea în cadrul contractului său cu operatorul, în timp ce clientul primește un serviciu cuprinzător de la acesta și se ocupă doar cu o singură parte. Nivelul de accesibilitate este serviciu complex nu scade. Dataline are propria sa rețea de transmisie a datelor la Moscova, unde sunt garantate următoarele caracteristici: procentul de pachete pierdute nu depășește 0,2%, întârzierea medie în rețea nu este mai mare de 5 ms.

Potrivit lui Ruslan Zaedinov, Croc folosește canale largi, a căror lățime de bandă este suficientă pentru toți clienții din cloud. Garanțiile eficiente din punct de vedere tehnic sunt oferite prin rezervarea încrucișată a canalelor între diferite centre de date Croc folosind propriul său inel optic. Pentru acele organizații pentru care o lățime de bandă fixă ​​a canalului de comunicare este critică, compania implementează o conexiune individuală la cloud pe canale separate, cu o conexiune garantată. debitului sau chiar pe optica „întunecată”. O astfel de conexiune este cel mai adesea echipată prin mijloace individuale criptare, inclusiv cele certificate.

Deci, serviciile IaaS sunt oferite în Rusia de un număr destul de mare de companii și conform unor reguli destul de înțelese și documentate (în SLA). Industria încă nu a convenit dacă SLA-urile ar trebui să abordeze caracteristicile de performanță ale infrastructurilor IT virtualizate, dar ratele de disponibilitate garantată arată suficient de bune chiar și pentru cei mai pretențioși clienți de întreprindere. În plus, furnizorii înțeleg nevoia clienților de SLA-uri end-to-end și lucrează pentru a le îmbunătăți.

Alexandru Barskov- Redactor principal al Journal of Network Solutions / LAN. El poate fi contactat la:

, autor Stuart Rens(Stuart Rance).

Disponibilitatea serviciilor IT este de mare importanță. Atunci când serviciile solicitate de client nu sunt disponibile, acesta va fi nemulțumit. De ce ar trebui un client să plătească pentru un serviciu care nu este efectiv disponibil atunci când are nevoie de el? Acesta este motivul pentru care măsura convenită a disponibilității serviciului este adesea inclusă în KPI-uri.

Personalul IT a depus mult efort pentru a se asigura că obiectivul declarat este atins și arată cifre în rapoartele către clienți care confirmă acest lucru. De obicei, companiile IT folosesc procente pentru aceasta, de exemplu, 99,999%. Din păcate, asta înseamnă adesea că se concentrează doar pe procente și își pierd din vedere adevăratul scop - de a oferi valoare clientului.

Problema cu disponibilitatea procentuală

Una dintre cele mai simple moduri de a calcula disponibilitatea se bazează pe două părți. Sunteți de acord cu intervalele de timp în care serviciul ar trebui să fie disponibil perioadă de raportare. Acesta este timpul de serviciu convenit (AST). Măsurați timpul de nefuncționare (DT) în această perioadă. Scădeți timpul de nefuncționare din timpul de disponibilitate a serviciului convenit și transformați-l într-un procent.

Dacă AST este de 100 de ore și timpul de oprire este de 2 ore, disponibilitatea va fi:

Problema este că, deși acest calcul este destul de simplu, la fel ca și colectarea datelor pentru acesta, de fapt, nu este complet clar ce indicator reprezintă cifra pe care ați primit-o în urma calculului. Voi vorbi despre asta puțin mai târziu.

Mai rău, din punctul de vedere al clientului, poți comunica că ai atins obiectivele convenite, lăsând clientul complet nemulțumit.

Raportul de disponibilitate semnificativă ar trebui să se bazeze pe măsurători care descriu lucruri de care este interesat clientul, cum ar fi capacitatea de a trimite și primi e-mailuri sau retrage numerar de la bancomate, iar procentul total aparent nu poate.

Stabilirea obiectivelor de accesibilitate

Dacă doriți să măsurați, să documentați și să raportați disponibilitatea într-un mod care să fie util organizației și clienților dvs., trebuie să faceți două lucruri. Mai întâi, definiți contextul și consolidați sensul „accesibilitate” pentru dvs. și clienții dvs. Pentru a face acest lucru, trebuie să vorbiți cu ei.

În al doilea rând, trebuie să vă gândiți cu atenție la o serie de întrebări practice: ce veți măsura, cum veți colecta date, cum veți documenta și raporta rezultatele.

Comunicarea cu clienții

Înainte de a lua orice măsură, trebuie să înțelegeți ce este important pentru clienții dvs. și ce efect va avea asupra lor pierderea disponibilității. Acest lucru vă va permite să stabiliți obiective realiste care țin cont de constrângerile tehnologice, bugetare și de personal.

Dar ce anume ar trebui să le spui clienților tăi? Un punct de plecare excelent pentru o conversație poate fi impactul timpului de nefuncționare. Mai jos sunt cinci întrebări pe care ar trebui să le pui:

  1. Ce funcții de afaceri sunt critice și au cea mai mare prioritate pentru protecția timpului de nefuncționare?
  2. Cum afectează timpul de nefuncţionare afacerea?
  3. Cum afectează frecvența perioadelor de nefuncționare afacerea?
  4. Ce impact are timpul de nefuncţionare asupra performanţei organizaţiei?
  5. Cum percep clienții organizației aceste opriri forțate?

Funcții critice de afaceri

Majoritatea serviciilor IT suportă mai multe procese de afaceri, dintre care unele sunt critice, iar altele de mai puțină importanță. De exemplu, un bancomat poate accepta distribuirea numerarului și imprimarea cecurilor. Capacitatea de a distribui numerar este critică, în timp ce incapacitatea de a tipări un cec are un impact mult mai mic.

Trebuie să vorbiți cu clienții și să determinați cât de importante sunt diferitele caracteristici pentru afacere. Puteți crea un tabel care listează implicațiile de afaceri ale timpului de nefuncționare pentru fiecare dintre aceste funcții. Exemplu:

Tabelul 1 - Importanța serviciilor în termeni procentuali

NB: Numerele nu trebuie să adună până la 100%

Din acest tabel, se poate observa că acest serviciu nu are deloc valoare dacă nu este posibil să se trimită și să primească e-mailuri, iar valoarea lui se reduce la jumătate din nivelul normal dacă folderele publice nu pot fi citite. Acest lucru îi spune IT să se concentreze pe calitatea serviciului de corespondență.

Durata și frecvența timpului de nefuncționare

Trebuie să aflați cum este afectată afacerea clientului de frecvența și durata timpului de nefuncționare.

Am menționat deja că disponibilitatea procentuală poate să nu fie suficientă. Când un serviciu care ar trebui să fie disponibil timp de 100 de ore are o disponibilitate de 98%, aceasta indică faptul că au existat două ore de nefuncționare. Dar asta ar putea însemna fie un incident de două ore, fie mai multe incidente mai scurte. Impactul relativ al unui singur incident lung sau al unei serii de incidente scurte va varia în funcție de natura afacerii și a proceselor de afaceri.

De exemplu, o facturare care durează două zile și trebuie repornită după orice defecțiune va fi grav afectată de fiecare întrerupere scurtă, dar o întrerupere forțată care durează mult timp poate avea o semnificație mult mai mică. Pe de altă parte, o întrerupere de un minut poate să nu afecteze în niciun fel funcționarea magazinului online, dar după două ore poate duce la o pierdere semnificativă de clienți. Odată ce înțelegeți impactul probabil asupra afacerii al timpului de nefuncționare, puteți crea o infrastructură, aplicații și procese mult mai eficiente, care vor ajuta cu adevărat clientul.

Iată un exemplu despre modul în care disponibilitatea poate fi măsurată și documentată pentru a reflecta faptul că impactul timpului de nefuncționare variază:

Tabelul 2 - Durata călătoriei și frecvența maximă

Dacă utilizați un astfel de tabel atunci când discutați cu clienții frecvența și durata timpului de nefuncționare, este probabil că aceste numere vor fi mult mai utile decât disponibilitatea procentuală și, cu siguranță, vor avea mai multă valoare pentru clienții dvs.

Timp de nefuncționare și performanță

Am menționat că disponibilitatea procentuală nu este foarte utilă pentru comunicarea cu clienții despre frecvența și durata timpilor de nefuncționare. Pe de altă parte, atunci când discutați despre impactul timpului de nefuncționare asupra performanței, procentele pot fi foarte utile.

Majoritatea incidentelor nu provoacă o pierdere completă a serviciului pentru toți utilizatorii. Este posibil ca unii utilizatori să nu fie afectați, în timp ce alții sunt complet dezactivați. Poate că există un singur utilizator cu un computer defect care nu poate accesa niciun serviciu. Ați putea chiar clasifica acest lucru ca o pierdere de 100% a serviciului, dar aceasta ar fi o țintă complet de neatins pentru IT și nu poate fi o măsură corectă a disponibilității.

Pe de altă parte, puteți spune că un serviciu este disponibil atâta timp cât altcineva îl poate accesa în continuare. Cu toate acestea, nu este nevoie de multă imaginație pentru a ne da seama cum s-ar simți clienții dacă un serviciu ar fi listat ca disponibil atunci când mulți oameni pur și simplu nu îl pot folosi.

O modalitate de a determina impactul este de a calcula procentul de minute de utilizator pierdute. Pentru a face acest lucru:

  • Calculați PotentialUserMinutes. Acest valoare totală utilizatorii care lucrează pe unitatea de timp. De exemplu, dacă aveți 10 angajați care lucrează timp de 8 ore, atunci PotentialUserMinutes este 10 x 8 x 60 = 4800
  • Calculați UserOutageMinutes. Acesta este numărul total de utilizatori care nu au putut lucra înmulțit cu timpul în care nu au putut lucra. De exemplu, dacă un incident a împiedicat 5 angajați să lucreze timp de 10 minute, atunci UserOutageMinutes este de 50.
  • Calculați disponibilitatea procentuală folosind o formulă foarte similară cu cea pe care am văzut-o mai devreme.

În exemplul de mai sus, avem următoarea accesibilitate:

Puteți utiliza aceeași metodologie pentru a calcula impactul pierderii disponibilității VoIP într-un centru de apel în ceea ce privește PotentialAgentPhoneMinutes și LostAgentPhoneMinutes; pentru aplicațiile care se ocupă de tranzacții sau producție, puteți utiliza o abordare similară pentru a cuantifica impactul asupra afacerii al unui incident. Comparați numărul de tranzacții care ar fi fost așteptate fără timp de nefuncționare cu numărul de tranzacții reale sau cantitatea de producție care a fost așteptată față de cea reală.

Măsurarea și raportarea disponibilității

Odată ce ați convenit și documentat obiectivele de accesibilitate, trebuie să vă gândiți la aspectele practice ale modului în care puteți măsura și raporta accesibilitatea. De exemplu:

  • Ce vei măsura?
  • Cum veți colecta date?
  • Cum vă veți documenta și comunica constatările?

Ce ai masurateufi

Este foarte important să măsurați și să raportați disponibilitatea în aceiași termeni care definesc obiectivele convenite cu clienții și care se bazează pe o înțelegere comună a ceea ce este cu adevărat accesibilitatea clienților. Obiectivele ar trebui să aibă sens pentru el și să se asigure că eforturile IT sunt concentrate pe sprijinirea afacerii sale.

De obicei, aceste obiective fac parte dintr-un acord de nivel de serviciu (SLA) între IT și client, dar trebuie să fii atent ca numerele din SLA să nu devină obiectivul tău. Scopul tău real este să oferi servicii care să răspundă așteptărilor clienților tăi.

Cum se colectează date

Există multe moduri diferite de a colecta date despre disponibilitatea serviciilor IT. Unele dintre ele sunt simple, dar nu foarte precise, altele sunt destul de scumpe. Puteți utiliza o singură abordare sau puteți combina mai multe dintre ele pentru a vă crea propriile rapoarte.

Colectarea datelor în suport tehnic

O modalitate de a colecta date despre disponibilitate este prin intermediul biroului de asistență. De obicei, personalul de service determină impactul și durata fiecărui incident asupra afacerii, deoarece aceasta face parte din managementul incidentelor. Aceste date ar putea fi utilizate pentru a determina durata incidentelor și numărul de utilizatori afectați.

Această abordare este de obicei destul de ieftină. Cu toate acestea, poate duce la dispute cu privire la acuratețea datelor de disponibilitate.

Măsurarea infrastructurii și a disponibilității aplicațiilor

Această abordare include un set de instrumente pentru toate componentele necesare pentru a furniza un serviciu și un calcul al disponibilității bazat pe înțelegerea modului în care contribuie fiecare componentă.

Poate fi foarte eficient, dar poate rata mici accidente. De exemplu, pagube minore baza de date poate determina ca unii utilizatori să nu poată efectua anumite tipuri de tranzacții. Această metodă poate pierde și impactul componente comune, de exemplu, unul dintre clienții mei în mod regulat nu a funcționat E-mail din cauza serverelor DHCP nesigure de la sediul lor, dar IT nu a înregistrat acest lucru ca timp de nefuncționare a e-mailului.

Clienți fictivi

Unele companii folosesc clienți falși pentru a trimite tranzacții cunoscute din anumite puncte ale rețelei pentru a testa disponibilitatea.

De fapt, aceasta este o măsurare a disponibilității de la un capăt la altul. În funcție de dimensiunea și complexitatea rețelei, această abordare poate fi destul de costisitoare de implementat și raportează doar disponibilitatea de la anumiți clienți inactivi. Aceasta înseamnă că erorile mici pot fi ratate, de exemplu, dacă un incident a determinat funcționarea incorectă a unui anumit browser web, în ​​timp ce clientul fals folosește un browser diferit.

Instrumentele care sprijină această colectare de date raportează adesea eficiența și disponibilitatea serviciului, ceea ce poate fi un plus util.

Dezvoltarea aplicației

Unele companii adaugă la aplicațiile lor cod special pentru a monitoriza disponibilitatea de la un capăt la altul. Acest lucru va ajuta la măsurarea realistă a disponibilității end-to-end a serviciilor, cu condiția ca acest obiectiv să fi fost stabilit în momentul dezvoltării aplicației. De regulă, această rafinare include cod atât în ​​aplicația client, cât și în partea de server.

Dacă este implementat bine, nu numai că poate colecta date de disponibilitate, ci și poate ajuta la identificarea exactă a locului în care a avut loc o defecțiune, ceea ce poate ajuta la îmbunătățirea disponibilității prin reducerea timpului necesar pentru rezolvarea incidentelor.

Cum să vă documentați și să vă comunicați constatările

Odată ce ați colectat datele de disponibilitate, trebuie să vă gândiți cum să comunicați rezultatele clienților dvs.

Planificați timpul de nefuncționare

Un aspect al măsurării și raportării disponibilității care este adesea trecut cu vederea este timpul de nefuncționare. Dacă nu luați în considerare timpul de nefuncționare planificat atunci când vă proiectați rapoartele de disponibilitate, riscați să includeți valori care nu sunt adevărate.

Există mai multe modalități de a vă asigura că timpul de nefuncționare programat nu umfla statisticile. Una este să aveți timp de nefuncționare programat pentru o anumită perioadă de timp care nu este inclusă în calculul disponibilității. Celălalt este să atribuiți un timp de nefuncționare programat. De exemplu, este posibil ca unele organizații să nu ia în considerare timpul de nefuncționare programat pentru viitor cu o lună în avans.

Indiferent de ceea ce decideți să faceți, este important ca SLA-ul dvs. să definească în mod clar cum vor fi luate în considerare timpul de nefuncționare planificat.

Contract de perioada contabila

Mai devreme, am vorbit despre limitările pe care le ascunde disponibilitatea procentuală. Cu toate acestea, este aplicat și continuă să fie utilizat pe scară largă. Prin urmare, este important să înțelegeți că trebuie să specificați perioada de timp în care sunt efectuate calculele și sunt furnizate rapoarte, deoarece acest lucru poate fi critic pentru numerele care vor fi în rapoartele dvs.

De exemplu, luați în considerare o companie IT care a fost de acord cu un serviciu 24x7 și o disponibilitate de 99%. Să presupunem că există o pauză de opt ore:

  • dacă raportăm disponibilitatea săptămânal, atunci AST (Timpul de service convenit) este de 24 x 7 ore = 168 de ore
  • AST lunar (24 x 365) / 12 = 730 ore
  • AST trimestrial (24 x 365) / 4 = 2190 ore

Punerea acestor numere în ecuația de disponibilitate dă:

  • Disponibilitate săptămânală = 100% x (168-8) / 168 = 95,2%.
  • Disponibilitate lunară = 100% x (730 - 8) / 730 = 98,9%
  • Disponibilitate trimestrială = 100% x (2190-8) / 2190 = 99,6%

Fiecare dintre acestea este un indicator valid al disponibilității serviciului, dar numai unul dintre ele indică faptul că obiectivul a fost îndeplinit.

In custodie

Aproape fiecare companie IT cu care am lucrat măsoară și raportează disponibilitatea serviciilor lor. Departamentele IT cu adevărat eficiente lucrează cu clienții lor pentru a optimiza investitii propriiși oferă o accesibilitate excelentă. Dar, din păcate, multe companii IT se concentrează pe cifrele din SLA și nu reușesc să satisfacă nevoile clienților lor, chiar dacă ajung să arate cifre consistente în rapoartele lor.

Acesta este un articol lung, mai jos sunt punctele cheie care sunt acoperite în el:

  • Nu este nevoie să spuneți clientului că ați livrat o disponibilitate de 98% dacă nu înțelegeți impactul timpului de nefuncționare de 2%
  • Discutați cu clienții dvs. și asigurați-vă că înțelegeți impactul oricărei perioade de nefuncționare asupra lor și asupra clienților finali
  • Gândiți-vă la modalități de a proteja procesele de afaceri critice ale clienților dvs
  • Găsiți modalități de a măsura frecvența și durata timpului de nefuncționare, precum și impactul perioadei de nefuncționare asupra performanței, care să răspundă nevoilor clienților dvs.
  • Acordați, documentați și specificați valorile de disponibilitate în moduri care să aibă sens pentru clienții dvs. și să vă ajute să planificați
  • Utilizați instrumente adecvate pentru a evalua corect disponibilitatea și pentru a o raporta.

Ce altceva ai vrea să adaugi la sfatul meu? Vă rugăm să scrieți în comentarii.

„Disponibilitate”, „trei nouă după virgulă” - acești termeni sunt adesea folosiți atunci când discutăm despre noi soluții IT. Arhitecții IT propun clientului un proiect sistem nou, atentie mai ales la faptul ca are o disponibilitate foarte mare. Contractul a fost semnat, sistemul a fost construit, certificatele de punere în funcțiune a complexului au fost semnate și începe exploatarea... În stadiul de funcționare se poate verifica „calitatea” sistemului creat și atunci se poate instala dezamăgirea. Ce se ascunde în spatele „nouă” magice? Ce se promite de fapt în faza de proiectare? Și cine este responsabil pentru accesibilitate?

Accesibilitate: o introducere în subiect

Cel mai bun mod de a înțelege accesibilitatea este de a înțelege de ce este nevoie. Disponibilitatea este o măsură a ceea ce își dorește o afacere de la un serviciu IT. Din păcate, unii reprezentanți ai afacerilor, întrebați despre disponibilitatea dorită a unui serviciu IT, răspund cam așa: „Vreau ca totul să funcționeze mereu”. În acest caz, revine managerului IT să scrie termenii de referință pentru serviciu, inclusiv stabilirea parametrilor de disponibilitate. Deci, disponibilitatea este un parametru al serviciului IT pe care îl consumă afacerea și pe care serviciul IT îl oferă. Formula de calcul a disponibilității este:

Disponibilitate = (AST - DT)/AST×100 = Disponibilitate serviciu sau componente (%)

Unde
AST (timp de serviciu convenit)- timpul convenit pentru prestarea serviciului;
DT (timp de nefuncționare real în timpul perioadei de service convenite)- ora reală în care serviciul a fost indisponibil în timpul convenit de furnizare a acestuia.

Caracteristicile calculului disponibilității sunt mai ușor de înțeles cu un exemplu specific. Să încercăm să determinăm disponibilitatea serviciului IT „magazin online” pentru compania AAA din Moscova, care vinde cărți. În același timp, cărțile și livrarea lor în orice oraș pot fi plătite, de exemplu, folosind un card de credit. Evident, comenzile de livrare vor fi procesate doar în zilele lucrătoare între orele 9:00 și 18:00.

Dar care va fi AST, timpul convenit de serviciu? Pentru a răspunde la această întrebare, este necesar să țineți cont de faptul că oamenii pot plasa comenzi în timp nelucrător, și asigurați-vă că țineți cont de faptul că Rusia are 11 fusuri orare. Prin urmare, serviciul trebuie prestat 24 de ore pe zi, 7 zile pe săptămână.

Acum trebuie să ne ocupăm de DT - momentul în care serviciul poate fi indisponibil. Aici, negocierile cu afacerile sunt indispensabile. Este posibil ca patru ore de indisponibilitate a serviciului o dată pe lună să fie o alegere adecvată pentru acest exemplu. Cu toate acestea, trebuie luată în considerare o nuanță - perioada de timp în care este evaluat parametrul DT, adică timpul efectiv convenit pentru furnizarea serviciului (AST). Alegerea perioadei AST este o chestiune privată pentru părțile contractante: afacerea și serviciul IT. Este mai bine să luați o săptămână sau câteva săptămâni ca atare perioadă, deoarece o lună sau un an nu sunt valori constante (includ un număr diferit de zile). Cu toate acestea, trebuie să acordați atenție psihologiei: perioade mai scurte de timp pot fi percepute negativ de către afaceri. În exemplul nostru, aceeași valoare a disponibilității corespunde cu aproximativ o oră de oprire pe săptămână. Cu toate acestea, companiilor s-ar putea să nu le placă faptul că magazinul online va fi indisponibil timp de o oră în fiecare săptămână, deși pot accepta patru ore de oprire pe lună. Pe de altă parte, uneori nu este posibilă operarea unui sistem IT fără a-l opri câteva ore pentru întreținerea programată. Un astfel de timp de nefuncționare planificat ar trebui, de asemenea, luat în considerare atunci când alegeți un DT, care, la rândul său, poate duce la o revizuire a parametrului AST.

Pe baza celor de mai sus, alegem 4 ore de indisponibilitate a serviciului o dată la patru săptămâni. Adică AST = 4 săptămâni, DT = 4 ore. Atunci disponibilitatea este:

Disponibilitate = (24×7×4–4)/(24×7×4)×100% = 99,40%

Este posibil ca afacerea să nu fie de acord. În acest caz, trebuie să aflați cu ce opțiune va fi de acord. În viitor, puteți calcula două opțiuni pentru sisteme hardware și software cu disponibilitate diferită și puteți conduce negocieri cu companiile pe baza unei comparații a costului ambelor opțiuni. În general, negocierile cu bugetul pentru afaceri și servicii IT este un subiect separat, care, probabil, va necesita mai mult de o carte de acoperit. Prin urmare, să presupunem că, în exemplul nostru, disponibilitatea este calculată și convenită și putem trece la crearea sistemului.

Vă rugăm să rețineți că am stabilit disponibilitatea necesară înainte de a începe să lucrăm la o soluție care o oferă, și nu invers - am ales mai întâi o soluție și am început să luăm în considerare disponibilitatea acesteia. Termenii de referință sunt primari, iar disponibilitatea necesară este unul dintre parametrii fixați în ei. Când sistemul este pus în funcțiune, disponibilitatea ar trebui să corespundă valorii cerute. Prin urmare, recomandăm în acordul cu afacerea (SLA - Service Level Agreement) să descifrem în detaliu ce se înțelege prin cifra de disponibilitate (în exemplul nostru: „4 ore de indisponibilitate a serviciului o (1) dată în patru (4) ) săptămâni”), astfel încât toate părțile au înțeles clar ce se ascunde cu adevărat în spatele cifrelor.

Trei piloni ai accesibilității

Primul lucru de luat în considerare atunci când alegeți o soluție este ceea ce reprezintă disponibilitatea unui serviciu IT. Multe frustrari in timpul functionarii se datoreaza faptului ca disponibilitatea serviciului pe care compania vrea sa-l primeasca este direct legata de disponibilitatea echipamentelor. Cu toate acestea, disponibilitatea unui serviciu IT este o combinație a trei componente:
1) Fiabilitate - de obicei tradus ca fiabilitate;
2) Mentenabilitatea - tradus prin „întreținere”;
3) Capacitatea de întreținere - mentenabilitatea.
Să examinăm fiecare dintre aceste puncte.

Fiabilitate

Fiabilitatea este disponibilitatea unei infrastructuri sau a unui complex hardware și software în ansamblu, inclusiv comunicațiile. De exemplu, pentru un magazin online, avem nevoie de un server web, un server de aplicații, un DBMS, stocare pe disc și acces la Internet. Pentru simplitate, vom presupune că software-ul „server de aplicații” include un server web și va fi instalat pe un server hardware, DBMS-ul pe al doilea, iar stocarea pe disc este o matrice de discuri externă.

Începem să creăm - construim un proiect de infrastructură. Sub fiecare componentă vom scrie parametrii accesibilității acesteia. Disponibilitatea fiecărei componente - în continuare vom folosi termenul „fiabilitate” - trebuie obținută de la furnizorul componentei (echipament, software sau servicii). Dacă din anumite motive acest lucru nu este posibil (de exemplu, pentru componentele software, valoarea fiabilității este de obicei necunoscută), valoarea necesară va trebui estimată și atribuită independent. Fiecare componentă este un singur punct de defecțiune, deci sunt conectate în serie în circuitul de lucru pentru calcularea fiabilității (Fig. 1). Rețineți că aceasta nu este o schemă pentru conectarea componentelor infrastructurii, ci doar o schemă pentru calcularea fiabilității.

Deci, să ne uităm la fiabilitate. Deoarece avem o conexiune serială a componentelor, valorile de fiabilitate se înmulțesc:

Fiabilitate = (0,985×0,97×0,975×0,98×0,99×0,9999×0,99)×100%= 89,47%

Acest lucru în mod clar nu este suficient în comparație cu valoarea cerută de 99,40%. Apoi vom schimba decizia - vom include un furnizor alternativ de servicii de acces la Internet în sistem (Fig. 2) și vom calcula fiabilitatea acestuia. Deoarece avem o conexiune paralelă în ceea ce privește accesul la Internet, fiabilitatea generală este definită după cum urmează:

Fiabilitatea generală =

Fiabilitate = ×100% = 91,72%

Cred că principiul „lucrării cu fiabilitate” a viitorului sistem a fost demonstrat. Trebuie remarcat faptul că, în exemplul luat în considerare, componentele infrastructurii de rețea și fiabilitatea conexiunilor (de exemplu, între serverul bazei de date și stocarea pe disc), precum și componentele infrastructurii tehnice (alimentare, aer condiționat, etc.), care sunt, de asemenea, puncte de defecțiune și ar trebui incluse în calcul. Evaluarea fiabilității componentelor software merită o atenție deosebită. Aici, sfatul principal este conservatorismul rezonabil: utilizați componente software care au fost utilizate în astfel de soluții de mult timp și s-au dovedit bine.

Folosind tehnicile care au fost discutate pe scurt mai sus, puteți alege o soluție cu disponibilitatea necesară.

Mentenabilitatea și funcționalitatea

Să trecem la alte componente ale disponibilității -  întreținerea și funcționalitatea. Observ că traducerile „întreținere” și „reparabilitate” nu au succes, deoarece nu este clar din ele ce înseamnă aceasta. Este mai bine să folosiți traduceri mai ușor de înțeles: mentenabilitatea - activitatea serviciului IT intern al unei organizații; serviceability - servicii furnizate de furnizori externi.

Pentru a clarifica situația, luați în considerare opțiuni extreme. În ce caz există o lipsă completă de mentenanță (activitatea serviciului IT intern al unei organizații)? Acest lucru se întâmplă atunci când o companie își externalizează propriul serviciu IT. Aici, disponibilitatea este formată doar din fiabilitate și servicii furnizate de furnizori externi.

În ce caz există o lipsă completă de service (servicii furnizate de furnizori externi)? Acest lucru se întâmplă, de exemplu, în FSB, care, din motive de secret, este obligat să desfășoare toate activitățile pentru a menține sistemul în stare de funcționare exclusiv de către departamentul său IT, chiar și piesele de schimb sunt cumpărate de la sine și nu sunt furnizate. în cadrul unui contract de suport tehnic. Disponibilitatea constă atunci doar în fiabilitatea sistemului și a activităților serviciului IT intern al organizației.

Este clar că este necesar să alegeți o soluție concomitent cu dezvoltarea schemelor de mentenanță și service. În general, fiabilitatea, mentenabilitatea și funcționalitatea sunt cei trei piloni ai disponibilității. O modificare a unuia dintre ele trebuie compensată prin modificări ale celorlalte două - altfel se va modifica parametrul de disponibilitate a serviciului IT, ceea ce poate fi dăunător afacerii.

Modalități de manipulare a componentelor de accesibilitate

Pentru a înțelege cum pot fi manipulate toate componentele accesibilității, să ne uităm la un alt exemplu practic. Compania, care are centre de date în două orașe rusești, Zelenograd (un oraș satelit al Moscovei) și Irkutsk, a achiziționat două sisteme identice la cheie. În consecință, fiabilitatea lor - fiabilitatea -  este aceeași pentru ei. Ambele sisteme informatice au fost asigurate cu aceleași contracte de suport tehnic pentru hardware și software, ceea ce înseamnă că și serviciile furnizate de furnizori externi - serviceability -  au fost la fel. Cu toate acestea, disponibilitatea sistemelor a fost diferită. Și compania a început să se plângă furnizorului de disponibilitatea slabă a sistemului din Irkutsk, susținând că una dintre soluții este „defectuoasă” și cerând ca acesta să fie auditat.

Cu toate acestea, în acest caz, auditul soluției cel mai probabil nu va dezvălui cauza principală a „eșecului” disponibilității, deoarece va fi investigată o singură componentă -  Fiabilitatea, care ar trebui să fie aceeași pentru ambele sisteme și doar alte două. componentele trebuie investigate. Dacă le acordați atenție, se dovedește că sunt posibile două opțiuni.

Opțiunea 1: Defecțiunile hardware au cauzat pierderea disponibilității. Datorită locației geografice a centrelor de date, aceleași contracte de asistență hardware pot fi de fapt diferite. De exemplu, centru de service furnizorul extern este situat la Moscova, iar contractul de asistență tehnică spune că este valabil doar în zilele lucrătoare și inginerul ajunge la locul de instalare a echipamentului „pe primul zbor feroviar sau aerian disponibil”. Evident, pentru un inginer care pleacă din Moscova, această valoare va fi diferită pentru Zelenograd și Irkutsk.

Soluții posibile la problema de accesibilitate în acest caz:

  • schimbați fiabilitatea sistemului IT din Irkutsk, de exemplu, adăugați un nod suplimentar la cluster;
  • modificați parametrul de funcționare - creați un depozit în Irkutsk, obțineți ocazia specialiștilor IT ai companiei de a schimba în mod independent componentele defecte, dacă acest lucru nu contravine regulilor producătorului.

În plus, este logic să verificați condițiile de funcționare. Exemple de încălcări tipice ale acestor condiții:

  • efectuarea de lucrări de reparații în incintă cu sistemele pornite, ceea ce duce la praful acestora, iar praful este foarte periculos pentru echipamentele serverului;
  • utilizarea aparatelor de aer condiționat de uz casnic în camerele serverelor, deși fiecare tip de echipament are propriile cerințe de umiditate, iar aparatele de aer condiționat de uz casnic nu sunt concepute pentru a-și menține nivelul setat, iar aerul complet uscat este dăunător echipamentului.

Opțiunea 2: Eșecurile software au determinat scăderea nivelului necesar de disponibilitate.În acest caz, problema este cel mai probabil în serviciul IT din Irkutsk. Serviciile de asistență tehnică software sunt furnizate la modul la distanță. Prin urmare, nu există nicio diferență de servicii, cu excepția faptului că pentru diferite fusuri orare există perioade diferite de serviciu în raport cu ora locală, dar acest lucru de obicei nu are un impact semnificativ. Motivul probabil pentru „eșecul” accesibilității aici este nivelul diferit de profesionalism al departamentelor IT - în Irkutsk este probabil mai scăzut decât în ​​Zelenograd. Solutii posibile:

  • ridicați mentenabilitatea la nivelul necesar - pregătirea personalului IT din Irkutsk cu privire la produsele software și hardware care fac parte din sistemul IT, organizarea de seminarii pentru transferul experienței echipei IT de la Zelenograd, procesele de operare de copiere etc.;
  • compensați mentenabilitatea în detrimentul exploatării - achiziționați servicii avansate de asistență tehnică, servicii de depășire a sarcinilor etc.

Dacă revenim la exemplul nostru cu un magazin online, atunci ce combinație de fiabilitate, întreținere și service va fi optimă? Răspunsul la această întrebare depinde de fiecare caz specific. De exemplu, puteți recomanda găzduirea în loc să implementați singur întreaga infrastructură (IT și tehnică). ÎN caz general avem următoarele metode tipice de control al accesibilității. 1. Schimbați fiabilitatea (fiabilitatea):

  • schimbarea soluției IT către disponibilitate înaltă (High Availability) - utilizarea clusterelor, utilizarea echipamentelor cu suport pentru înlocuirea „la cald”, duplicarea repetată a potențialelor puncte de defecțiune etc.;
  • închirierea întregii infrastructuri sau a unei părți a acesteia de la furnizori externi (hosting, colocare).

2. Modificare în mentenabilitatea (modificări în activitățile serviciului IT al companiei):

  • distribuirea în cadrul organizației a propriilor bune practici în managementul IT;
  • invitarea consultanților externi să organizeze procese în departamentul IT;
  • instruirea personalului IT.

3. Schimbarea capacității de funcționare - modificarea contractelor de servicii IT cu furnizorii externi în direcția creșterii nivelului de serviciu, creșterea volumului serviciilor, extinderea zonei de responsabilitate a furnizorilor externi de servicii etc. Toate metodele de manipulare a trei surse si trei părțile constitutive accesibilitatea nu poate fi descrisă într-un articol, totuși, principalele abordări pentru compensarea unor componente ale accesibilității de către altele au fost demonstrate. Pentru a vă îmbunătăți în continuare abilitățile în acest domeniu, ar trebui să studiați experienta practica proiectarea si operarea sistemelor informatice.

Schimbarea opiniilor afacerii cu privire la furnizarea de servicii IT duce la necesitatea implementării unui proces de gestionare a disponibilității acestora.

În cea de-a treia versiune a ITIL, procesele de gestionare a disponibilității și continuității serviciilor IT sunt luate în considerare împreună (denumit în continuare proces). Cele mai importante concepte cheie ale acestui proces colaborativ sunt:

disponibilitate- capacitatea unui serviciu IT sau a componentelor acestuia de a-și îndeplini funcțiile într-o anumită perioadă de timp;

fiabilitate- capacitatea unui serviciu IT sau a componentelor acestuia de a îndeplini funcții specificate în condiții de operare specificate;

recuperabilitatea- capacitatea unui serviciu IT sau a componentelor sale de a-și recupera caracteristicile operaționale, pierdute parțial sau complet ca urmare a unei defecțiuni;

mentenabilitatea- o caracteristică a componentelor IT care determină amplasarea și parametrii acestora pentru a asigura raționalitatea acțiunilor personalului în timpul instalării, transportului, întreținerii și reparațiilor (acest concept se aplică furnizorilor externi de servicii IT).

Afacerea are propria idee despre disponibilitatea și costul serviciilor IT de care are nevoie și, prin urmare, scopul procesului este de a asigura nivelul necesar de disponibilitate, menținând în același timp un anumit nivel de cost. Pentru a atinge acest obiectiv, procesul urmărește îndeplinirea următoarelor sarcini:

    Planificarea si dezvoltarea serviciilor IT, tinand cont de cerintele afacerii pentru nivelul de disponibilitate;

    Optimizarea disponibilității serviciilor IT prin îmbunătățiri rentabile;

    Reducerea numărului și a duratei incidentelor care afectează disponibilitatea serviciilor IT.

În cursul rezolvării acestor probleme, cerințele de afaceri pentru disponibilitatea serviciilor IT și a componentelor infrastructurii IT sunt fixate; sunt elaborate rapoartele necesare; Nivelurile de disponibilitate a serviciilor IT sunt revizuite periodic; se formează un plan de disponibilitate care definește prioritățile și reflectă măsuri de îmbunătățire a disponibilității serviciilor IT. Cu alte cuvinte, procesul se rezumă la planificarea furnizării serviciilor IT, măsurarea nivelului de disponibilitate și luarea de acțiuni pentru îmbunătățirea acestuia.

Planificare

Planificarea formulează cerințe de afaceri pentru disponibilitatea serviciilor IT, elaborează criterii pentru determinarea nivelului de disponibilitate și a timpului de nefuncționare acceptabil al serviciilor IT și, de asemenea, ia în considerare unele aspecte securitatea informatiei. Afacerea trebuie să stabilească o limită care definește disponibilitatea și indisponibilitatea unui serviciu IT, cum ar fi timpul de nefuncționare admisibil pentru un serviciu IT în cazul unei defecțiuni a infrastructurii IT.

La proiectarea disponibilității serviciilor IT se efectuează o analiză a infrastructurii IT pentru a determina componentele cele mai vulnerabile care nu au redundanță și care, în cazul unei defecțiuni, pot avea un impact negativ asupra furnizării de Servicii IT. În terminologia ITIL, astfel de componente sunt numite Single Point of Failure (SPOF), iar pentru a le determina se folosește metoda Analiza impactului defecțiunii componentelor (CFIA). Această metodă este utilizată pentru a evalua și prezice impactul defecțiunilor componentelor IT asupra unui serviciu IT. Principalele obiective ale CFIA sunt:

    Identificați punctele de eșec care afectează disponibilitatea;

    Analiza impactului defectării componentelor asupra afacerii și utilizatorilor;

    Determinarea relației dintre componente și personal;

    Determinarea timpului de recuperare a componentelor;

    Definiți și documentați opțiunile de recuperare.

Pentru analiza riscului se folosește metoda de analiză și management al riscului (CCTA Risk Analysis and Management Method, CRAMM), în care sunt analizate eventualele amenințări și dependențe ale componentelor IT și se evaluează probabilitatea apariției unor situații nestandardizate sau evenimente de urgență. .

Pentru a asigura nivelul necesar de disponibilitate, este posibilă utilizarea tehnicilor de mascare a impactului negativ datorat timpului de nefuncționare planificat sau neplanificat al unei componente, dublarea componentelor IT, precum și utilizarea mijloacelor de îmbunătățire a performanței unei componente în cazul a unei creșteri a sarcinii etc. În cazurile în care anumite funcții de afaceri sunt foarte dependente de disponibilitatea serviciilor IT și pierderi reputatia de afaceri din timpul nefuncționării sunt considerate inacceptabile, sunt stabilite valori de disponibilitate mai mari pentru anumite servicii IT și sunt alocate resurse suplimentare.

Proiectarea furnizării serviciilor IT asigură îndeplinirea cerințelor de disponibilitate declarate, dar aceasta se referă la o stare stabilă și operațională a serviciilor IT. Cu toate acestea, sunt posibile și eșecuri, prin urmare, se realizează și planificarea restabilirii serviciilor IT, inclusiv organizarea interacțiunii cu procesul de management al incidentelor și serviciul Service Desk; planificarea și implementarea sistemelor de monitorizare pentru detectarea defecțiunilor și notificarea în timp util a acestora; dezvoltarea cerințelor pentru backup și recuperare hardware, software și date; dezvoltarea unei strategii de backup și recuperare; definirea valorilor de recuperare etc.

Un alt aspect al planificării este determinarea timpului de nefuncționare. Toate componentele IT ar trebui să facă obiectul unei strategii de întreținere. În funcție de IT-ul utilizat și de criticitatea și importanța funcțiilor de afaceri susținute de o anumită componentă IT, frecvența și nivelul de serviciu pot varia. Dacă este necesar să se furnizeze un serviciu în modul 24x7, este necesar să se găsească echilibrul optim între cerințele pentru deservirea componentelor IT și pierderile de afaceri din timpul nefuncționării serviciului. Programele de service aprobate ar trebui să fie documentate în Acordurile privind nivelul de servicii (SLA).

Îmbunătățirea disponibilității serviciilor IT

De ce să îmbunătățim accesibilitatea? Pot fi multe motive: nerespectarea calității serviciilor IT cu cerințele SLA; instabilitate în furnizarea serviciilor IT; tendințe de scădere a disponibilității serviciilor IT; timpi de recuperare inacceptabil de lungi; solicitări din partea companiei pentru creșterea nivelului de disponibilitate.

Îmbunătățirea accesibilității necesită un plus rezonabil costuri financiare, iar pentru determinarea posibilității de îmbunătățire a serviciilor IT se folosesc anumite metode și tehnologii, printre care analiza arborelui defecțiunilor (Fault Tree Analysis, FTA) și analiza timpului de nefuncționare a sistemului (Systems Outage Analysis, SOA).

Analiza arborelui de erori identifică lanțul de evenimente care duc la defecțiunea unei componente IT sau a unui serviciu IT. Grafic, un arbore de erori (vezi figura) este o secvență de evenimente care începe cu un eveniment de inițiere, urmat de unul sau mai multe evenimente funcționale și se termină cu o stare finală. În funcție de evenimente, secvențele se pot ramifica logic.

Analiza întreruperii sistemului este o abordare structurată pentru identificarea cauzelor fundamentale ale întreruperilor în furnizarea serviciilor IT și utilizează mai multe surse de date pentru a determina locația și cauza întreruperilor. Obiectivele acestei analize sunt:

    Identificarea cauzelor fundamentale ale eșecurilor în furnizarea serviciilor IT;

    Determinarea eficacității suportului serviciului IT;

    Intocmirea rapoartelor;

    Initierea unui program de implementare a recomandarilor acceptate;

    Analiza îmbunătățirilor de disponibilitate obținute prin analiza timpilor de nefuncționare a sistemului.

Utilizarea analizei timpului de nefuncționare a sistemului va îmbunătăți disponibilitatea fără a crește costurile, va îmbunătăți abilitățile și abilitățile personalului pentru a evita costul de consultanță pentru îmbunătățirea disponibilității și va determina un program de îmbunătățire specific.

Rezultatul activității de îmbunătățire a disponibilității serviciilor este un plan pe termen lung pentru îmbunătățirea proactivă a disponibilității serviciilor IT în limita constrângerilor financiare. Planul de disponibilitate descrie nivelurile actuale și planificate de disponibilitate, precum și activitățile care trebuie efectuate pentru a o îmbunătăți. Întocmirea planului necesită participarea reprezentanților afacerilor, managerilor proceselor ITSM implementate, reprezentanților furnizorilor externi de servicii IT, specialisti tehnici suport responsabil de testare și întreținere. Planul se intocmeste pe o perioada de pana la doi ani, iar pentru urmatoarele sase luni trebuie sa contina descriere detaliata evenimente. Planul este revizuit trimestrial cu ajustări minime și la fiecare șase luni cu posibilitatea de a face modificări majore.

Măsurarea disponibilității serviciilor IT

Un serviciu IT poate fi considerat disponibil din punctul de vedere al clientului atunci când funcțiile vitale de afaceri care îl folosesc funcționează normal. În același timp, principalii indicatori cantitativi sunt disponibilitatea - raportul dintre timpul de disponibilitate reală a unei componente IT și timpul de disponibilitate definit în contractele de nivel de serviciu și indisponibilitatea (în %) - inversarea disponibilității. Acești parametri sunt utilizați de serviciile IT și nu sunt foarte reprezentativi din punct de vedere al afacerii, deoarece nu reflectă valorile de disponibilitate a afacerii sau a utilizatorilor - pot prezenta un nivel ridicat de disponibilitate a componentelor IT, în timp ce nivelul real de disponibilitate a serviciilor IT va fi scăzută.

Indicatori precum frecvența întreruperilor serviciului IT, durata totală a întreruperii, zona de influență de la întreruperea serviciului IT pot fi de înțeles pentru afacere.

Roluri si responsabilitati

În cadrul procesului este definit rolul managerului de proces, a cărui responsabilitate este de a gestiona procesul și de a efectua acțiunile necesare. Managerul de proces este responsabil pentru operarea și dezvoltarea procesului în conformitate cu reglementările și planurile. Pentru rolul de manager de proces se recomanda acceptarea unui angajat cu experienta practica in managementul proceselor, cunostinte ITSM, metode statistice si analitice folosite in IT, principii de management al costurilor, experienta in lucrul cu personalul, detinerea metodelor de negociere etc.

Implementarea procesului

Implementarea oricărui proces ITSM este un proiect lung și complex, cu obiective și termene specifice. Implementarea pe cont propriu este dificilă: implementarea procesului în paralel cu operațiunile zilnice nu vă permite să vă concentrați pe deplin pe proiect; „Atragerea” constantă a resurselor către sarcini din afara proiectului duce în cele din urmă la o creștere a costurilor financiare, o schimbare a calendarului proiectului pentru o perioadă nedeterminată, o pierdere treptată a atenției sau chiar o posibilă oprire a proiectului. În plus, implementarea internă necesită cunoștințe de domeniu, ceea ce implică o pregătire costisitoare.

Ca orice proiect, implementarea procesului începe cu crearea echipelor de proiect, elaborarea documentelor de management de proiect, elaborarea unui plan de proiect și așa mai departe. În etapa de lucru „pre-proiect”, evenimente de marketing să familiarizeze reprezentanții afacerilor cu tehnologiile și recomandările ITIL și să justifice necesitatea ca întreprinderile să implementeze un proces de management al disponibilității serviciilor IT.

După convenirea și primirea unui răspuns pozitiv cu privire la implementarea procesului, se determină obiectivele și limitele domeniului subiect al procesului.

Efect și probleme

Efectul principal al implementării procesului este că serviciile IT sunt proiectate având în vedere disponibilitatea și sunt operate și gestionate la un nivel convenit de disponibilitate și cost. Factorii pozitivi sunt și: prezența unei persoane responsabile de disponibilitatea serviciilor IT; utilizarea optimă a performanței infrastructurii IT pentru a asigura nivelul necesar de disponibilitate a serviciilor IT; reducerea frecvenței și duratei defecțiunilor serviciilor IT în timp; o tranziție calitativă a activităților furnizorilor de servicii IT de la eliminarea erorilor în furnizarea serviciilor la creșterea nivelului de disponibilitate a acestora.

Posibilele probleme care pot influența negativ decizia de implementare și operare a procesului sunt de obicei de natură organizațională:

    Prezența unei situații în care fiecare manager IT este responsabil pentru disponibilitatea sistemelor sau componentelor IT aflate în responsabilitatea sa, în timp ce disponibilitatea globală a serviciilor IT nu este monitorizată și poate fi nesatisfăcătoare;

    Eșecul implementării unui proces deoarece disponibilitatea curentă a serviciilor IT este considerată acceptabilă;

    Ipoteze că dacă există alte procese ITSM implementate, procesul de management al disponibilității va fi efectuat automat;

    Rezistenta la centralizarea in managementul infrastructurii IT de catre managerii IT;

    Autoritate insuficientă a managerului de proces, ceea ce duce la incapacitatea de a îndeplini sarcinile în mod corespunzător.

Evgeniy Bulychev (Bulychev@i-teco.ru) - consultant al I-Teco Business Consulting (Moscova).

Ideea de a scrie acest articol a venit după ce am discutat cu unul dintre clienții majori - un coleg a povestit povestea alegerii unui furnizor de servicii cloud IaaS pentru compania sa.

Primul set de criterii de evaluare a unui furnizor de servicii arăta cam așa: un nume (brand) cunoscut, un istoric de afaceri pozitiv în domeniul serviciilor cloud, cost adecvat. Pe baza rezultatelor analizei posibililor solicitanti, au ales intre mai multe companii care erau aproape aceleasi dupa criteriile de mai sus si fiecare a incercat sa-si demonstreze avantajele, referindu-se la diferitele caracteristici ale serviciilor sale de cloud.

Vladimir Kurilov, compania Onlanta.

Deci, conversația a ajuns la indicatorii de fiabilitate. Și a fost realizat în jurul comparării nivelurilor de disponibilitate a centrelor de date în care au fost localizați norii. A devenit rapid clar că doar doi candidați aveau centre de date cu o disponibilitate de 99,98%. Alegerea a fost făcută în favoarea unui furnizor străin de servicii cloud - prețul câștigat. Colegul a explicat totul simplu: - „Ce rost are să plătești mai mult pentru aceiași indicatori de fiabilitate?”

Având în vedere existența diverse opțiuni, să definim interpretarea termenului „Accesibilitate” în cadrul acestui articol. Să definim disponibilitatea ca timp de funcționare a sistemului într-un anumit interval de timp, exprimat ca procent din acest interval. Sau în forma clasică: „Proprietatea unui obiect de a îndeplini o funcție cerută în condiții date pentru un interval de timp dat”. Ceea ce, în general, este mai aproape de conceptul deja destul de bine stabilit de „Pregătire” a sistemului.

Anul de funcționare care a urmat acestei decizii a arătat că furnizorul are defecțiuni minore în funcționarea sistemelor de inginerie ale centrului de date în timpul comutării programate. În același timp, disponibilitatea centrului de date a rămas în SLA, deoarece trecerea a durat câteva secunde. Cu toate acestea, dacă Sistem informatic clientul nu s-a oprit în avans înainte de astfel de comutări, baza de date în caz de eșec necesită restaurare dintr-o copie de rezervă, ceea ce a oprit munca angajaților timp de câteva ore. Oprirea/pornirea sistemelor înainte de pornire a îmbunătățit ușor situația, dar în același timp a existat un timp de nefuncționare a angajaților de 25-30 de minute, ceea ce a provocat și reclamații din partea utilizatorilor.

A trecut un an și acum Colegul închiriază capacități într-un alt cloud, unde disponibilitatea unuia dintre centrele de date este mai mică decât cea de mai sus, iar timpul de nefuncționare a scăzut semnificativ. Cum se poate realiza acest lucru și ce este important atunci când se evaluează fiabilitatea soluțiilor cloud și ce nu este foarte important? Care sunt oportunitățile de economisire, reducerea riscurilor de a plăti în exces „pentru numere frumoase”, și nu pentru fiabilitatea reală? Cum să evidențiezi parametrii critici ai serviciilor cloud pentru fiabilitatea aplicației tale?

Voi încerca să formulez răspunsurile la aceste întrebări în continuare.

Fiabilitatea aplicației - în ce constă în cloud

Fiabilitatea serviciului aplicației

Dacă încercați să formulați o definiție a fiabilității aplicației, atunci va suna astfel: „Fiabilitatea este proprietatea aplicației de a menține performanța în timp cu toate funcționalitățile încorporate în ea”.

Ce determină performanța aplicației și cum este fiabilitatea aplicației legată de disponibilitatea centrului de date?

Aplicația se bazează pe o platformă software, care, la rândul ei, este amplasată pe o platformă de infrastructură folosind o platformă de inginerie, vezi Fig. Împreună, aceste patru straturi oferă „Serviciul de aplicații”.


Orez. Un exemplu simplificat de calculare a disponibilității serviciului de aplicație

După cum se poate observa din figură, avem de-a face cu un sistem de elemente secvențiale, în care defecțiunea oricărui element duce la defectarea sistemului în ansamblu.

Disponibilitatea unui astfel de sistem (As) este definită ca produsul indicatorilor de disponibilitate a tuturor elementelor:


A i este disponibilitatea fiecărei componente conectate în serie.
A s = 0,99995 0,99995 0,993 0998 ≈ 0,99091 sau 99,091

După cum puteți vedea, disponibilitatea Serviciului de aplicații contează departe de disponibilitatea platformei de inginerie a centrului de date. Puteți converti numerele de disponibilitate în timp de nefuncționare a sistemului. Se dovedește, în ciuda timpului de nefuncționare anual admisibil al platformei de inginerie, la 1 oră. 45 de minute, timpul de oprire anual pentru serviciul de aplicații va fi de 86 de ore și 22 de minute.

În consecință, disponibilitatea ridicată a centrului de date nu indică aceeași fiabilitate ridicată a serviciilor de aplicații care rulează în acest centru de date.

Fiabilitatea aplicațiilor de rețea

Prin urmare, atunci când alegem furnizorii de servicii, ar fi corect să ne concentrăm pe disponibilitatea agregată a serviciilor de aplicații? Din păcate, totul nu este atât de simplu aici.

Se pare că un dezvoltator de software este capabil să influențeze asigurarea fiabilității (rezistența la defecțiuni, încărcări) unei singure aplicații. De exemplu, fiabilitatea unei aplicații în cloud poate fi îmbunătățită semnificativ prin utilizarea unor biblioteci specializate axate pe procesarea întârzierilor cererilor executate. Aplicațiile scrise în moduri standard vor avea indicatori de fiabilitate relativ mai mici.

Una dintre opțiunile de implementare a utilizării bibliotecilor specializate de către Microsoft este Blocul de aplicații de tratare a erorilor tranzitorii (a se vedea http://msdn.microsoft.com/en-us/library/hh680934(v=pandp.50).aspx).

Fiabilitatea platformei software

Fiabilitatea platformei software, inclusiv sistem de operare, drivere, biblioteci, din nou, rămâne „de partea dezvoltatorilor” și, deocamdată, nu depinde prea mult de furnizorul de servicii. Cu toate acestea, dacă furnizorul de servicii a pus în aplicare o politică adecvată de asistență tehnică, atunci aceasta poate afecta indirect disponibilitatea.

Vorbesc de echipamente de siguranță „igienică”. În primul rând, despre serviciul de actualizare a software-ului de sistem. Ar trebui să fie în portofoliul de servicii al furnizorului de servicii și și mai bine, ar trebui inclus în prețul serviciului „default”. În al doilea rând, este un serviciu de protecție antivirus cu o gamă de programe antivirus. Și în al treilea rând, backup serverele virtuale ale clienților. Acestea nu sunt toate, ci cele mai importante modalități de a crește disponibilitatea serviciului de aplicații.

Fiabilitatea platformei de infrastructură

Această componentă a fiabilității depinde complet de furnizorul de servicii și ar trebui să fie evaluată de dvs. la egalitate cu disponibilitatea platformei de inginerie a centrului de date. Trebuie să solicitați acest parametru de la ISP-ul dvs., deoarece de obicei nu este inclus în materialele de marketing. În acest caz, este necesar să se obțină explicații - cum a fost calculat acest parametru.

Deși trebuie avut în vedere că nu toți furnizorii de servicii vor dori să furnizeze astfel de date, deoarece diagrama structurală a soluției de infrastructură și echipamentele utilizate devin clare din calcul - și acesta este un anumit know-how.

Cu toate acestea:

  • Solicitați o diagramă a structurii funcționale a platformei de infrastructură pentru a găzdui serviciul dvs. de aplicații. Ar trebui să includă:
    • infrastructura retelei;
    • Rețea de spațiu de stocare;
    • infrastructura de calcul.
  • Solicitați să indicați în această schemă locurile de redundanță a echipamentelor. Nu este necesară indicarea tipului de echipament utilizat.
  • Solicitați disponibilitatea (sau pregătirea) pentru fiecare nivel.
  • Calculați disponibilitatea ca produs al disponibilității elementelor platformei de infrastructură.

Acum aveți posibilitatea de a determina disponibilitatea serviciului de aplicație cât mai fiabil posibil. 90% din joint-venture-urile din Rusia, pe baza experienței noastre, au o disponibilitate totală de cel mult 99%. Și acesta este riscul de oprire de până la 87 de ore pe an. Aceștia sunt indicatori normali de disponibilitate dacă nu aveți aplicații critice pentru afaceri ale căror timpi de nefuncționare orar vă aduc pierderi de milioane de dolari. Și dacă o oprire orară este asemănătoare cu un dezastru pentru afacerea dvs., atunci pentru dvs. există restul de 10%, JV-uri care oferă un serviciu la nivel de întreprindere cu o disponibilitate a Serviciului de aplicații la nivelul de 99,99%. Cum se realizează acest lucru în secțiunea următoare.

Soluții de înaltă disponibilitate pentru servicii de aplicații

Ca urmare, nu contează pentru client cum este respectat SLA pentru sistemele de inginerie, este important pentru el care este disponibilitatea serviciului aplicațiilor sale, adică. - Timp de recuperare a aplicației garantat.

Sistemele despre care am discutat mai devreme au avut o structură secvențială. Disponibilitatea, pe care am calculat-o mai sus ca un produs al elementelor individuale, este limita tehnică oferită de astfel de sisteme. De fapt, din cauza apariției diverșilor factori suplimentari, disponibilitatea este și mai mică. Îți amintești de la începutul articolului povestea despre o a doua pană de curent și cinci ore de întrerupere?

Este posibil să creșteți disponibilitatea aplicației dacă parametrii de disponibilitate ai unui anumit centru de date sunt setați și nu pot fi modificați?

Răspunsul este că poți.

De exemplu, iată două abordări care vă permit să faceți acest lucru:

  • cluster de înaltă disponibilitate distribuit geografic;
  • Recuperarea procesării într-un centru de date de backup la distanță geografică (recuperare în caz de dezastru).

Orez. Schema structurala cluster de înaltă disponibilitate distribuit geografic


Orez. Diagramă bloc pentru restaurarea procesării într-un centru de date de backup la distanță geografică

Prima abordare este ideală din punct de vedere al disponibilității (recuperarea sănătății are loc în câteva secunde), dar pierde din preț și este destul de greu de implementat. A doua abordare restaurează serviciul dintr-o copie de lucru - acest lucru nu este atât de rapid și o mică parte din date va trebui să fie restaurată manual în caz de eșec, dar această opțiune are un cost mai mic și este mai ușor de implementat.

În ambele cazuri, este necesar să vorbim despre îndepărtarea geografică a centrelor de date pentru a evita pe cât posibil posibilitatea interconectarii resurselor. De exemplu, utilizarea acelorași substații care furnizează energie centrelor de date. Ne putem aminti de o întrerupere a curentului în sud-estul Moscovei în mai 2008, din cauza unui incendiu la substația Chaginskaya, New York, în 2003. Prin urmare, centrul de date de rezervă ar trebui să fie situat departe de cel principal.

Abordarea cu două centre de date ne permite să vorbim despre crearea unui sistem cu elemente paralele. În același timp, pe de o parte, centrele de date principale și de rezervă sunt sisteme independente, pe de altă parte, sunt o platformă comună pentru serviciul de aplicații - indiferent în ce centru de date rulează aplicația în prezent, aceasta se poate muta. de la un centru de date la altul.

Diferența fundamentală a unui sistem paralel este că fiabilitatea crește odată cu creșterea elementelor paralele ale sistemului. Disponibilitatea unui sistem format din elemente paralele poate fi calculată folosind formula:

Unde: A s - Disponibilitatea totală, disponibilitatea întregului sistem,
A i este disponibilitatea fiecărei componente conectate în paralel.

De exemplu, să calculăm un sistem al unui cluster de înaltă disponibilitate distribuit geografic de două centre de date cu disponibilitate = 99%, fiecare.

A s \u003d 1-(1-0,99) * (1-0,99) \u003d 0,9999 sau 99,99

Adică, două centre de date care nu sunt cele mai fiabile pot oferi disponibilitate la nivelul sistemelor critice.

Determinați disponibilitatea serviciului de aplicație în opțiunea de restabilire a procesării într-un centru de date de backup la distanță geografică cu un interval de sincronizare de 15 minute pentru cazul unei singure defecțiuni se calculează după cum urmează: trebuie să solicitați timpul de restaurare a serviciului aplicației garantat de SP; apoi calculăm procentul intervalului anual – și scădem rezultatul din unitate. Obținem disponibilitate după primul eșec. De exemplu, pentru un sistem cu un interval de sincronizare de 15 minute:

Numărul total de ore într-un an 365*24=8760
Timp de inactivitate garantat = Timp de nefuncționare maxim
15 minute sau 0,25 ore, care este ≈ 0,003 din timpul anual

Acestea. fiecare defecțiune va avea o pondere de 0,003%. Astfel, sistemul înainte de defecțiune, sistemul are o disponibilitate egală cu 100%, după prima defecțiune, 99,997%, după a doua defecțiune, 99,994%. Să calculăm același lucru pentru un sistem cu un interval orar de sincronizare:

Timp de recuperare garantat = Timp maxim de oprire = 1 oră, care este ≈ 0,01 din timpul anual

Fiecare defecțiune va avea o pondere de 0,01%. Astfel, sistemul înainte de defecțiune, sistemul are o disponibilitate egală cu 100%, după prima defecțiune, 99,99%, după a doua defecțiune, 99,98%. În plus, adepții teoriei probabilității pot practica evaluarea probabilității primelor, al doilea și al treilea eșec. Rezultatul vă va convinge că influența acestui factor este neglijabilă asupra rezultatelor obținute. Acest lucru îmi permite să recomand o metodologie sugerată pentru evaluarea disponibilității serviciilor pentru aplicațiile dvs. în cloud.

Rezumând cele de mai sus...

  • Începeți prin a evalua criticitatea comercială a aplicației pe care intenționați să o găzduiți în cloud. Estimați costul perioadei de nefuncționare a aplicației. Cât te va costa lipsa serviciului de aplicații?
  • De aici, estimați valoarea permisă a timpului de nefuncționare pe zi, pe an. Calculați disponibilitatea critică a serviciului de aplicație.
  • Comparați costurile posibile ale perioadei de nefuncționare cu prețurile SP care oferă disponibilitate accesibilă pentru aplicațiile dvs.
  • Atunci când alegeți o asociere în participație, acordați prioritate celor care pot oferi nu numai nivelul actual de accesibilitate, ci și o accesibilitate îmbunătățită ca serviciu/serviciu suplimentar. Mai ales dacă afacerea dvs. crește și se dezvoltă.
  • Și rămâne practic. Ia ce iti dau sa simti = testeaza. Teoria fără practică nu este foarte utilă pentru afaceri.