Çfarë është Disponueshmëria e Lartë? SLA për IaaS: Garanci reale për Disponueshmëri të lartë të Infrastrukturës së TI-së virtuale si shërbim.

Shërbimet e Infrastrukturës së IT si shërbim (IaaS) po bëhen gjithnjë e më të njohura klientët e korporatës, dhe ato tashmë janë përdorurdhe për aplikime kritike për misionin. Është koha për ta kuptuarçfarë garantojnë ofruesit e këtyre shërbimeve dhe çfarë përgjegjësie mbajnë në rastet kur infrastruktura virtuale e TI-së ngadalësohet ose bëhet plotësisht e padisponueshme.

Pas intervistimit të ofruesve kryesorë të shërbimeve të infrastrukturës IaaS të nivelit të ndërmarrjeve, ne analizuam ofertat e tyre. Në të njëjtën kohë, "niveli i korporatës" nënkupton sa vijon: platforma cloud vendoset në një qendër të dhënash që plotëson kërkesat e Nivelit III (prania e një certifikate nga Instituti Uptime nuk ështëkërkohet), dhe siguron një nivel të lartë elasticiteti përmes mekanizmave të disponueshmërisë së lartë (HA) dhe zhvendosjes së makinave virtuale në rast fatkeqësie.

DISPONUESHMËRIA DHE KOHA E PËRGJIGJES

Parametrat kryesorë të shërbimit IaaS, të cilët zakonisht tregohen në SLA, janë niveli i disponueshmërisë së tij, koha e përgjigjes ndaj incidenteve të ndryshme dhe kohëzgjatja e zgjidhjes së tyre, si dhe skema dhe parametrat e kompensimit në rast të ndërprerjes.

Nëse vendosni të përdorni një infrastrukturë virtuale IT, mund të mbështeteni me siguri në disponueshmërinë prej 99,5% dhe më të lartë. Të paktën asnjë nga ofruesit që ne anketuam nuk përmendi një shifër më të ulët. Për më tepër, përfaqësuesit e shumë kompanive theksuan se vlera e treguar në përgjigjet e tyre (shih tabelën 1) është tipike dhe, me kërkesë të klientit, niveli i disponueshmërisë mund të rritet duke përdorur mjete të ndryshme teknike.

Në mënyrë tipike, platformat IaaS të shkallës së ndërmarrjes strehohen në qendrat e të dhënave (të brendshme ose të jashtme) që plotësojnë nivelin e tolerancës së gabimeve të nivelit III, i cili dihet se ka disponueshmëri 99,98%. Vlerat e disponueshmërisë së infrastrukturave virtuale IaaS të treguara nga ofruesit nuk e kalojnë karakteristikën përkatëse të faqes fizike, gjë që është mjaft e natyrshme.

Përjashtim është disponueshmëria 99,99% e ofruar nga Dataline në modalitetin e grupit metro. Ky opsion është rezistent ndaj fatkeqësive cloud mbulon dy qendra të të dhënave të kompanisë - për më shumë informacion në lidhje me grupin e metrosë, shihni materialin "Re rezistente ndaj fatkeqësive me një "çmim" jo re, botuar në numrin e tetorit të "Journal of Network Solutions / LAN "për vitin 2013 ().

Në parim, furnizuesi mund të tregojë në SLA disponueshmërinë arbitrare të lartë, të paktën 100%, por më pas ai rrezikon të humbasë më shumë sesa të fitojë, sepse çdo blerës i arsyeshëm do të kërkojë një skemë të rreptë kompensimi për mospërmbushjen e kushteve të dakorduara për t'u përfshirë në kontrata. Ndërkohë që ende nuk është zhvilluar asnjë skemë standarde - secili furnizues ofron diçka më vete, kështu që blerësi duhet të vlerësojë kompensimin e propozuar duke marrë parasysh humbjet e mundshme financiare në rast të ndërprerjes së shërbimeve të IT.

Shumë kompani ofrojnë një rimbursim të caktuar të një pagese mujore (në përqindje) për çdo orë shtesë të padisponueshmërisë (në tejkalimin e specifikuar në SLA). Për shembull, me nivelin e disponueshmërisë të specifikuar në SLA prej 99,95% (koha e papunësisë jo më shumë se 1 orë në muaj), Inoventica është gati të rimbursojë 2% të pagesës mujore për çdo orë shtesë shkëputjeje nga shërbimi. Cloud4Y në versionin standard kompenson 1% për 1 orë pushim (në llogaritje, kosto totale shërbimet për të plotë muaji kalendarik, para kësaj), por jo më shumë se 50% e kostos së shërbimit.

Një numër ofruesish kanë ofruar llogaritje të detajuara se si shuma e kompensimit ndryshon në varësi të nivelit të disponueshmërisë (shih Tabelën 2). Në rast të uljes së ndjeshme të këtij niveli, ofrohet një kompensim shumë i konsiderueshëm. Për shembull, nëse vlera është më e vogël se 95%, "Onlanta" (GC "Lanit") lejon një ulje të nivelit të pagesës për shërbimin deri në 40%. Dhe kompania “IT-Grad”, nëse niveli i disponueshmërisë bie nën 96,71%, premton kompensim prej 50%. Është e qartë se ofruesit e konsiderojnë të pamundur një përkeqësim të tillë në cilësinë e shërbimeve.

"Ne kemi prezantuar dy parime të pavarura të kompensimit: për shkeljen e treguesve të synuar të parametrave të shërbimit dhe treguesve të synuar për përpunimin e kërkesave," thotë Vitaly Mzokov, Drejtor i Shërbimeve Cloud dhe Zgjidhjeve të Infrastrukturës nga Servionica (Grupi i Kompanive I-Teco). - Shkelja e treguesve të synuar të parametrave të shërbimit kompensohet në një shkallë progresive. Në varësi të nivelit aktual të disponueshmërisë, llogaritet treguesi i kompensimit, i shprehur si përqindje e shumës së faturës për përdorimin e shërbimit. Kompensimi për shkeljen e treguesve të synuar për përpunimin e kërkesave llogaritet në bazë të kohës së pritjes së klientit me saktësinë e minutës."

Sipas praktikës së adoptuar nga Servionica, llojet e kërkesave të klientëve, si dhe objektivat e përgjithshme për kohën maksimale të përgjigjes ndaj kërkesave dhe kohën maksimale për zgjidhjen e një problemi, përshkruhen në rregulloret e ndërveprimit të shërbimit. Dhe në vetë SLA, këta tregues specifikohen për një shërbim specifik.

“Sipas kontratës, klienti mund të marrë disa shërbime nga ne. Kjo është arsyeja pse rregulloret përshkruajnë tregues të përgjithshëm me shënimin: “Objektivat e përcaktuara në SLA për një shërbim specifik mbivendosen me treguesit e përcaktuar në rregullore”. Kjo bëhet në mënyrë që, nëse është e nevojshme, të jetë e mundur të specifikohet (zgjerohet ose zvogëlohet) koha e reagimit dhe koha e zgjidhjes, - shpjegon Vitaly Mzokov. - Kërkesave të çdo lloji jemi të detyruar t'u përgjigjemi brenda 15 minutave. Koha maksimale e zgjidhjes, në varësi të llojit dhe përparësisë së kërkesës, varion nga 1 orë (për incidentet me përparësi nr. 1) deri në 48 orë (për kërkesat për të cilat kërkohet një studim i plotë i kërkesës për informacion të klientit - për shembull, dhënien e informacionit për tarifat dhe shërbimet e tjera, sqarime dhe udhëzime të ndryshme).

Koha e përgjigjes ndaj një aplikacioni zakonisht varet nga prioriteti i tij. Për shembull, praktikat e Linxdatacenter të niveleve prioritare janë:

  • Kritike - shërbimi është plotësisht i padisponueshëm, është e nevojshme të merren masa urgjente për të rivendosur, koha e reagimit është 15 minuta, koha e rikuperimit nuk është më shumë se 4 orë;
  • E lartë - shërbimi është pjesërisht i padisponueshëm, koha e reagimit është deri në 1 orë, përparësia e shtuar;
  • Normale - jepen sqarime për parametrat e shërbimit, pyetjet aktuale jo urgjente, koha e reagimit deri në 1 orë, 24 orë për përgatitjen e përgjigjes.

Tabela 3 tregon një shembull tjetër - kategorizimin e pyetjeve të përdorura nga Cloud4Y; koha e reagimit - jo më shumë se 30 minuta.

Ata përpiqen të punojnë menjëherë në T-Systems. Sipas Vsevolod Egupov, drejtor i shitjeve për divizionin TIK të T-Systems RUS, specialistët e kësaj kompanie "në 80% të rasteve përgjigjen brenda 30 sekondave" (!). Por, si shumica e të anketuarve tanë, ai vuri në dukje se koha e reagimit varet nga kritika e situatës.

MJETET E MONITORIMIT

Nuk mjafton të tregohet në SLA një nivel tërheqës i aksesueshmërisë dhe skemave të ngurta kompensimi, është gjithashtu e nevojshme t'i sigurohet klientit një pajisje të përshtatshme dhe mjet efektiv kontrollin. Dhe këtu qasjet e shitësve ndryshojnë ndjeshëm.

Duke iu referuar praktikës së kompanisë Servionika, Vitaly Mzokov vëren se klientët janë më të interesuar të marrin raportime transparente dhe të sakta nga operatori sesa të zotërojnë disa mjete speciale për vetë-monitorim. Si rregull, Servionica ofron raporte mujore për një grup parametrash të rënë dakord, por, me kërkesë të klientit, kontrata mund të parashikojë raportime më të shpeshta.

Shumë kompani, si parazgjedhje, ofrojnë raporte shëndetësore të shërbimit një herë në muaj, por ato munden edhe më shpesh - me kërkesë të klientëve. Një shembull i një raporti të ofruar nga Onlanta është paraqitur në Figurën 1. Sipas Mikhail Lyapin, kreu i biznesit të saj cloud, Onlanta është kompania e vetme në Rusi që u ofron klientëve një raport disponueshmërie të resë kompjuterike me këtë nivel detajesh. Sipas tij, shumica e ofruesve të shërbimeve ia dalin mbanë me statistika për nivelin e disponueshmërisë së makinave virtuale.

Një numër kompanish u ofrojnë klientëve një tastierë vetëshërbimi në internet. Sipas Ruslan Zaedinov, Zëvendës Drejtor i Përgjithshëm, Shef i Qendrës së të Dhënave dhe Cloud Computing në Krok, çdo konsumator i shërbimit IaaS ka akses në një tastierë të tillë me një aftësi të integruar për monitorimin në internet të funksionimit të komponentëve të caktuar. Për shembull, në rastin e makinave virtuale, specialistët e IT të klientit mund të monitorojnë se sa është i ngarkuar procesori, si funksionon I/O, sa memorie është e zënë, etj. Këto të dhëna janë të disponueshme në kohë reale, si dhe - sipas kërkesës - në formën e statistikave për çdo periudhë.

A DUHET TË GARANTOJ PERFORMANCËN

Është e qartë se me një rritje të ngarkesës në platformën IaaS të ofruesit, është i mundur degradimi i nivelit të performancës së makinës virtuale. Ofruesit e shërbimeve janë të përkushtuar për të parandaluar që kjo të ndodhë. Të gjitha kompanitë bien dakord për këtë. Megjithatë, disa përfshijnë metrikë të performancës në SLA, ndërsa të tjerët e konsiderojnë një masë të tillë të panevojshme.

Ja çfarë thotë për këtë Vitaly Slizen, anëtar i Bordit të Drejtorëve të Inoventica: “Ne nuk vërejmë degradim [të produktivitetit] edhe me rritje të ngarkesës, pasi po zgjerojmë dhe modernizojmë me kohë kapacitetet e qendrave të të dhënave. Veçmas në SLA, këto parametra (VM dhe performanca e ruajtjes) nuk pasqyrohen, pasi respektimi i tyre është përgjegjësia jonë kryesore, pavarësisht nga kërkesat e klientëve." Specialistët e Inoventica monitorojnë vazhdimisht të gjithë parametrat kryesorë të objekteve të infrastrukturës me qira, gjë që u lejon atyre të marrin shpejt informacione rreth probleme të mundshme dhe t'i parashikoni ato në kohën e duhur.

Igor Drozdov, menaxher i mbeshtetje teknike Sales Linxdatacenter: “Kompania jonë ofron burime të garantuara kompjuterike për përdorim. Ato janë të rezervuara në renë kompjuterike dhe rriten me rritjen e numrit të klientëve, kështu që performanca e makinave virtuale dhe sistemeve të ruajtjes mbetet në një nivel vazhdimisht të lartë. Përveç kësaj, ne ofrojmë përmirësime në kohë të serverit dhe monitorim të performancës me produkte të dedikuara VMware.

Orange Business Services është gjithashtu një nga ofruesit e shërbimeve që nuk rregullon parametrat e performancës në standardin SLA. Në të njëjtën kohë, sipas Dmitry Dorodnykh, kreu i zhvillimit të unifikuar të komunikimeve dhe produkteve të TI-së në Orange Business Services në Rusi dhe CIS, "nëse një klient kërkon që disa burime kompjuterike të garantohen për makinat e tij virtuale, ne përdorim mjete standarde platformat moderne të virtualizimit që lejojnë që makinat virtuale të zhvendosen në serverë të tjerë në rast mosmarrëveshjeje për burimet."

Vsevolod Egupov beson se shtimi i karakteristikave të performancës në SLA "nuk ka kuptim, pasi degradimi ndikon në nivelin e disponueshmërisë së shërbimit të rregulluar nga marrëveshja". Në T-Systems, performanca e makinave virtuale dhe sistemeve të ruajtjes kontrollohet nga departamenti i menaxhimit të kapaciteteve, specialistët e tij janë përgjegjës për parandalimin e degradimit të tij.

Ka gjithashtu mjaft kompani që besojnë se shtimi i karakteristikave të performancës në SLA është i këshillueshëm. Pika më e ngushtë Në një mjedis të virtualizuar të TI-së, performanca e ruajtjes konsiderohet nga shumë ekspertë si performanca e ruajtjes, kjo është arsyeja pse shumica e shitësve të ruajtjes i kushtojnë vëmendje karakteristikave të ruajtjes, siç janë operacionet hyrëse/dalëse për sekondë (IOPS)dhe koha e hyrjes në disk (latenca).

Dataline ofron matje të performancës për makineritë e ruajtjes dhe virtuale në çdo SLA (shih Tabelën 4). Në të njëjtën kohë, sipas Dmitry Tishin, kreu i departamentit të zhvillimit të shërbimit të kësaj kompanie, "në varësi të kërkesave të paraqitura ndaj peizazhit të sistemit nga klienti, metrikat mund të ndryshohen". Vlerat IOPS maten nga sistemi i monitorimit NetApp DFM, dhe koha e hyrjes në disk është mjete të rregullta Softueri i virtualizimit (vCenter). Në rast problemi me një makinë virtuale, sinjalizohen turni i thirrjes dhe inxhinierët e ekipit të virtualizimit. Përveç kësaj, Dataline ofron monitorim të parametrave të ndryshëm në nivel të sistemit operativ dhe shërbimeve që ekzekutohen në të. Nëse klienti përdor OS dhe shërbimet e administrimit të shërbimeve të kompanisë, një monitorim i tillë kryhet si parazgjedhje.

Për të parandaluar degradimin e performancës së makinës virtuale, specialistët e Dataline zbatojnë një sërë masash. Pra, për grupin përdoret mekanizmi Programues i Burimeve të Shpërndara (DRS), i cili monitoron ngarkesën e serverëve fizikë sipas parametrave kryesorë - nëse arrihet një ngarkesë e caktuar në server, disa nga makinat virtuale zhvendosen automatikisht në një tjetër. . Teprica e serverëve mbahet në grup në mënyrë që ngarkesa në të gjithë grupimin të mos jetë më shumë se 70%. Në kuadër të kontratave të lidhura të shërbimit me furnizuesit e pajisjeve, kapacitetet burimore të grupeve mund të rriten sipas orarit.

Safedata gjithashtu rregullon karakteristikat e performancës si IOPS dhe MIPS në SLA. "Ne nuk mund të ulim performancën nën vlerat e specifikuara në SLA," thotë Anton Antonov, kreu i shitjeve në Safedata. "Nëse vërehet degradimi i shërbimit me rritjen e ngarkesës në serverët fizikë, hostet shtesë rezervë EXSi vihen në funksion."

Karakteristikat e performancës së sistemit të diskut të ruajtjes të rregulluar në SLA Cloud4Y tregohen në Tabelën 5. Sipas Evgeny Bessonov, Shef i Departamentit të Marketingut në Cloud4Y, në rast të shkeljes së treguesve të garantuar të performancës së CPU, HDD, RAM, parashikohet kompensimi, i cili negociohet veçmas ose paguhet sipas kushteve standarde: 1% e kostos mujore për 1 orë.

"Ne garantojmë performancën e makinave virtuale në kufirin e poshtëm, pa e kufizuar atë nga lart," thotë Ruslan Zaedinov. "Kështu, nëse serveri ku ndodhet makina virtuale ka burime kompjuterike falas më shumë se ato të garantuara, ato do të jenë në dispozicion të klientit." Sa i përket sistemeve të ruajtjes, aktualisht të gjithë klientët Croc përdorin një kanal të përbashkët komunikimi me sistemet e ruajtjes. Për një kohë të gjatë, ky nuk ishte problem, por tani, për të përmbushur nevojat në rritje të klientëve, kompania po migron hapësirën e ruajtjes së cloud nga Fiber Channel dhe disqet SATA në disqet flash me qasje të drejtpërdrejtë në to nga makinat virtuale mbi Infiniband. rrjeti. Paralelisht, softueri është duke u implementuar për të siguruar qarkullim të garantuar të sistemit të ruajtjes së të dhënave në cloud. Ndryshimet përkatëse në SLA do të bëhen këtë vjeshtë.

Siç është rënë dakord me klientin, Servionica rregullon treguesit e performancës së komponentëve individualë të platformës cloud në SLA të secilit projekt. Për më tepër, marrëveshja specifikon mënyrën e matjes së këtyre treguesve dhe shpeshtësinë e matjeve. "Çdo operator mund të shkruajë" 100,500 OP të garantuara për 1 GB hapësirë ​​në disk ", por jo të gjithë janë në gjendje të provojnë që ky kriter është përmbushur. Ne jemi për marrëdhënien sa më transparente ndërmjet operatorit të platformës cloud dhe konsumatorit të saj”, thekson Vitaly Mzokov. Performanca e makinave virtuale dhe sistemeve të ruajtjes përcaktohet në Servionica SLA nga IOPS dhe Latency.

Siç tha Maxim Zakharenko, menaxher i përgjithshëm ofruesi i shërbimit "Oblakoteka", në kontratat që ata lidhin, treguesit e performancës së pikut rregullohen në atë mënyrë që ngarkesa e input-outputit dhe gjerësia e brezit të rrjetit të mos kalojë 80%. Monitorimi kryhet duke përdorur sistemin Microsoft SCOM. Ai vëren se për sisteme të ndryshme Tregues të ndryshëm janë të rëndësishëm: për faqet e internetit - koha e përgjigjes, për vendosjen e infrastrukturave IT - treguesit e procesorit të pikut, memorjes, rrjetit virtual, etj. Kompania përfshin gjithashtu parametra rezervë të garantuar, metoda dhe kushte të ofrimit dhe ruajtjes në SLA e saj. "Ndarje e sinqertë").

SLA KRYQE

Pavarësisht se sa e lartë është besueshmëria e vetë platformës IaaS, e vendosur në një qendër të dhënash tolerante ndaj gabimeve, kanalet e aksesit në këtë platformë mund të bëhen një pengesë për klientin. Lajmi i mirë është se shumë nga ofruesit që ne intervistuam kanë SLA nga fundi në fund që përfshijnë vetë shërbimin IaaS dhe kanalet e aksesit. Për më tepër, sipas tyre, në organizim korrekt dhe teprica e kanalit, niveli i disponueshmërisë së komunikimit nuk është më i ulët se ai i platformës SLA, dhe për këtë arsye kjo karakteristikë e rëndësishme nuk zvogëlohet në SLA-të nga fundi në fund.

Sidoqoftë, siç vëren Vsevolod Egupov, ulja ose ruajtja e nivelit të disponueshmërisë varet nga mënyra se si janë organizuar kanalet e komunikimit - nëse kanali është i rezervuar, disponueshmëria nuk përkeqësohet. Përndryshe, niveli i disponueshmërisë në SLA nga fundi në fund reduktohet në nivelin e disponueshmërisë së kanalit. T-Systems RUS ka rrjetin e vet të qendrave të të dhënave të vendosura në mbarë botën. Shërbimi ndaj klientëve rusë kryhet kryesisht nga qendrat e të dhënave të vendosura në Gjermani dhe Austri. Kompania ka nënshkruar një SLA me Rostelecom, Beeline dhe bashkëpunon me operatorë të tjerë të telekomit.

Ata ofrues të shërbimeve IaaS që janë gjithashtu transportues po përfitojnë nga ky avantazh. Kështu, duke qenë një operator ndërkombëtar telekomunikacioni, Orange Business Services praktikon përfundimin e SLA nga fundi në fund që mbulon shërbimet e IaaS dhe telekomit. Niveli i disponueshmërisë në një SLA të tillë është 99.95%. Por, siç shpjegon Dmitry Dorodnykh, kjo karakteristikë varet nga vendndodhja gjeografike e klientit - për shembull, në rajonin qendror ky nivel është më i lartë se përtej Uraleve dhe në Siberi. Milja e fundit mund të ketë parametrat e vet SLA. Skemat dhe mekanizmat për kontrollin e SLA në kanalet e komunikimit janë përpunuar tashmë prej dekadash, kështu që çështja e monitorimit nuk është problem për Shërbimet e Biznesit Orange.

Siç vë në dukje Vitaly Slizen, Inoventica ka kanalet e saj kryesore të komunikimit dhe një rrjet të shpërndarë gjeografikisht të qendrave të të dhënave, gjë që bën të mundur zbatimin e gjeoklustereve. Kjo ju lejon të ruani të dhënat dhe performancën e shërbimit edhe në rast të shkatërrimit fizik të një prej qendrave të të dhënave. Sipas tij, Inoventica është “kompania e vetme në tregu rus ofrimi i zinxhirit të plotë të shërbimeve "Qendra e të dhënave - Kanali - Shërbimi - Klienti (AWS)" në përputhje me SLA, e cila është minimumi përVonesa vajtje-ardhje më pak se 10 ms dhe humbje pothuajse zero e paketës. Aktualisht, zgjidhja gjithëpërfshirëse Inoventica është e disponueshme për klientët në pesë rrethe federale të Federatës Ruse.

Ofruesit e shërbimeve IaaS jo-transportues bashkëpunojnë në mënyrë aktive me operatorët. Kështu, Servionika ka formuar një SLA për të punuar me operatorët e telekomit që i shërbejnë qendrës së saj të të dhënave (e cila është më shumë se 10 ofrues të mëdhenj të telekomit). Kompania i përkthen kushtet e këtyre SLA në kontrata me klientët që përdorin shërbimet e komunikimit. Dhe kontrolli mbi respektimin e SLA ofrohet nga shërbimet teknike të qendrës së të dhënave TrustInfo. "Ne tregojmë në kontratat tona të njëjtat parametra SLA si ato të operatorëve, domethënë, marrim përgjegjësinë për cilësinë e punës së tyre dhe sigurimin e pandërprerë të kanaleve të komunikimit," vëren Vitaly Mzokov.

Për t'u ofruar klientëve kanale komunikimi, Dataline përdor shërbimet e operatorëve të telekomunikacionit sipas një skeme nënkontraktimi. Me këtë skemë, kompania kontrollon cilësinë në kuadër të kontratës me operatorin, ndërsa klienti merr një shërbim gjithëpërfshirës prej saj dhe merret vetëm me një kontraktor. Niveli i aksesueshmërisë është shërbim gjithëpërfshirës nuk ulet. Dataline ka rrjetin e vet të transmetimit të të dhënave në Moskë, ku janë të garantuara karakteristikat e mëposhtme: pjesa e paketave të humbura nuk është më shumë se 0.2%, vonesa mesatare e rrjetit nuk është më shumë se 5 ms.

Sipas Ruslan Zaedinov, Krok përdor kanale të gjera, gjerësia e brezit të të cilave është mjaft e mjaftueshme për të gjithë klientët në re. Garancitë e vlefshme teknikisht ofrohen nga teprica ndër-kanale midis qendrave të ndryshme të të dhënave Krok duke përdorur unazën e vet optike. Për ato organizata për të cilat një gjerësi bande fikse e një kanali komunikimi është kritike, kompania zbaton një lidhje individuale me cloud përmes kanaleve të veçanta me të garantuara xhiros apo edhe optikë "e errët". Një lidhje e tillë është e pajisur më shpesh me mjete individuale të kriptimit, duke përfshirë ato të certifikuara.

Pra, shërbimet IaaS ofrohen në Rusi nga një numër mjaft i madh kompanish, dhe sipas rregullave mjaft të kuptueshme dhe të dokumentuara (në SLA). Industria ende nuk ka rënë dakord nëse karakteristikat e performancës së infrastrukturave virtuale të TI-së duhet të rregullohen në SLA, por treguesit e disponueshmërisë së garantuar duket se janë mjaft të pranueshëm edhe për klientët më kërkues të ndërmarrjeve. Për më tepër, ofruesit e kuptojnë nevojën e klientëve për SLA nga fundi në fund dhe po punojnë për t'i përmirësuar ato.

Aleksandër Barskov- Redaktor kryesor i "Journal of Network Solutions / LAN". Mund ta kontaktoni në:

, autor Stewart Rens(Stuart Rance).

Disponueshmëria e shërbimeve të TI-së është e një rëndësie të madhe. Kur shërbimet për të cilat klienti ka nevojë nuk janë të disponueshme, ata do të jenë të pakënaqur. Pse një klient duhet të paguajë për një shërbim që nuk ekziston në realitet kur ai ka nevojë për të? Kjo është arsyeja pse një metrikë e qëndrueshme e disponueshmërisë së shërbimit shpesh përfshihet në një KPI.

Stafi i IT-së bën përpjekje të mëdha për t'u siguruar që qëllimi i deklaruar është arritur dhe për t'u treguar klientëve shifrat në raporte për ta vërtetuar atë. Zakonisht kompanitë e IT përdorin përqindje për këtë, për shembull 99,999%. Fatkeqësisht, kjo shpesh do të thotë që ata fokusohen vetëm në përqindje dhe humbasin nga sytë qëllimin e tyre të vërtetë për të qenë me vlerë për klientin.

Problemi i disponueshmërisë së përqindjes

Një nga mënyrat më të thjeshta për të llogaritur disponueshmërinë bazohet në dy pjesë. Ju bini dakord për intervalet kohore gjatë të cilave shërbimi duhet të jetë i disponueshëm periudha raportuese... Kjo është koha e dakorduar e shërbimit (AST). Ju po matni kohën e ndërprerjes (DT) gjatë kësaj periudhe. Zbrisni kohën e ndërprerjes nga disponueshmëria e shërbimit të rënë dakord dhe kthejeni atë në një përqindje.

Nëse AST është 100 orë dhe koha joproduktive është 2 orë, disponueshmëria do të ishte si kjo:

Problemi është se, megjithëse kjo llogaritje është mjaft e thjeshtë, siç është mbledhja e të dhënave për të, në fakt, nuk është plotësisht e qartë se cili tregues pasqyron saktësisht shifrën që keni marrë si rezultat i llogaritjes. Unë do të flas për këtë pak më vonë.

Më keq, nga këndvështrimi i klientit, ju mund të komunikoni se i keni arritur qëllimet e dakorduara duke i lënë ata plotësisht të pakënaqur.

Një raport kuptimplotë i disponueshmërisë duhet të bazohet në dimensionet që përshkruajnë gjërat me interes për klientin, siç është aftësia për të dërguar dhe marrë. emailet ose tërhiqni para nga ATM-të, dhe përqindja e përgjithshme nuk duket të jetë në gjendje.

Përcaktimi i objektivave të aksesueshmërisë

Nëse dëshironi të matni, dokumentoni dhe raportoni disponueshmërinë në një mënyrë që është e dobishme për organizatën tuaj dhe klientët tuaj, ju duhet të bëni dy gjëra. Së pari, përcaktoni kontekstin dhe përforconi kuptimin e "aksesueshmërisë" për ju dhe klientët tuaj. Për ta bërë këtë, duhet të flisni me ta.

Së dyti, duhet të mendoni me kujdes për një sërë pyetjesh praktike: çfarë do të matni, si do t'i mblidhni të dhënat, si do t'i dokumentoni dhe si do t'i raportoni gjetjet tuaja.

Komunikimi me klientët

Përpara se të ndërmerrni ndonjë veprim, duhet të kuptoni se çfarë është e rëndësishme për klientët tuaj dhe çfarë ndikimi ka tek ata humbja e disponueshmërisë. Kjo ju lejon të vendosni qëllime realiste që marrin parasysh teknologjinë, buxhetin dhe kufizimet e personelit.

Por çfarë saktësisht duhet t'u thoni klientëve tuaj? Ndikimi i kohës joproduktive mund të jetë një pikënisje e shkëlqyer për një bisedë. Më poshtë janë pesë pyetje që duhet të bëni:

  1. Cilat funksione biznesi janë kritike dhe prioritare për mbrojtjen nga kohët joproduktive?
  2. Si ndikon puna në biznes?
  3. Si ndikon frekuenca e joproduktive në biznes?
  4. Cili është ndikimi i kohës joproduktive në performancën e organizatës?
  5. Si i perceptojnë klientët e organizatës këto ndërprerje të detyruara?

Funksionet kritike të biznesit

Shumica e shërbimeve të TI-së mbështesin procese të shumta biznesi, disa prej të cilave janë kritike dhe të tjera më pak të rëndësishme. Për shembull, një ATM mund të mbështesë shpërndarjen e parave dhe printimin e çeqeve. Aftësia për të shpërndarë para është kritike, ndërsa pamundësia për të printuar një çek ka shumë më pak ndikim.

Ju duhet të flisni me klientët dhe të përcaktoni rëndësinë e funksioneve të ndryshme për biznesin. Ju mund të krijoni një fletëllogaritëse që thekson implikimet e biznesit të kohës së ndërprerjes së secilit prej këtyre funksioneve. Shembull:

Tabela 1 - Rëndësia e shërbimeve në përqindje

NB: Numrat nuk duhet të mblidhen deri në 100%

Nga kjo tabelë mund të shihni se ky shërbim nuk ka fare rëndësi nëse nuk ka asnjë mënyrë për të dërguar dhe marrë email dhe vlera e tij zvogëlohet në gjysmën e nivelit normal nëse dosjet publike nuk mund të lexohen. Kjo i thotë IT-së që të fokusohet në cilësinë e shërbimit postar.

Kohëzgjatja dhe shpeshtësia e joproduktive

Ju duhet të kuptoni se si frekuenca dhe kohëzgjatja e joproduktive ndikon në biznesin e klientit.

E përmenda tashmë se disponueshmëria e përqindjes mund të mos jetë e mjaftueshme. Kur një shërbim që supozohet të jetë i disponueshëm për 100 orë ka disponueshmëri 98%, kjo tregon se ka pasur dy orë pushim. Por kjo mund të nënkuptojë një incident dy-orësh ose disa incidente më të shkurtra. Ndikimi relativ i një incidenti të vetëm të qëndrueshëm ose i një serie incidentesh të shkurtra do të ndryshojë në varësi të natyrës së biznesit dhe proceseve të biznesit.

Për shembull, faturimi që zgjat dy ditë dhe duhet të riniset pas çdo ndërprerjeje do të ndikohet rëndë nga çdo ndërprerje e shkurtër, por një ndërprerje e detyruar që zgjat një kohë të gjatë mund të ketë shumë më pak rëndësi. Nga ana tjetër, një ndërprerje një minutëshe mund të mos ndikojë në asnjë mënyrë në funksionimin e dyqanit online, por pas dy orësh mund të çojë në një humbje të konsiderueshme të klientëve. Pasi të keni kuptuar ndikimin e mundshëm të biznesit të joproduktive, mund të krijoni infrastrukturë, aplikacione dhe procese shumë më efikase që ndihmojnë vërtet klientin tuaj.

Këtu është një shembull se si disponueshmëria mund të matet dhe të dokumentohet për të pasqyruar faktin se ndikimi i kohës së ndërprerjes ndryshon:

Tabela 2 - Kohëzgjatja e udhëtimit dhe frekuenca maksimale

Nëse përdorni një fletëllogaritëse si kjo kur po diskutoni për tarifat dhe kohëzgjatjet e joproduktive me klientët tuaj, këta numra ka të ngjarë të jenë shumë më të dobishëm sesa disponueshmëria e përqindjes, dhe sigurisht që do të jenë. vlerë më të madhe për klientët tuaj.

Koha e joproduktive dhe produktiviteti

Unë përmenda se disponueshmëria e përqindjes nuk është shumë e dobishme për komunikimin me klientët në lidhje me shpeshtësinë dhe kohëzgjatjen e joproduktive. Nga ana tjetër, kur po diskutoni ndikimin e performancës së kohës së ndërprerjes, përqindjet mund të jenë shumë të dobishme.

Shumica e incidenteve nuk rezultojnë në një humbje të plotë të shërbimit për të gjithë përdoruesit. Disa përdorues mund të mos preken, ndërsa të tjerët janë plotësisht të çaktivizuar. Ndoshta ka vetëm një përdorues me një kompjuter të dëmtuar që nuk mund të hyjë në asnjë nga shërbimet. Ju madje mund ta klasifikoni këtë si një humbje 100% të shërbimit, por ky do të ishte një objektiv krejtësisht i paarritshëm për IT dhe nuk mund të jetë një masë e drejtë e disponueshmërisë.

Nga ana tjetër, mund të thuash që një shërbim është i disponueshëm ndërkohë që dikush mund ta përdorë ende atë. Megjithatë, nuk duhet shumë imagjinatë për të kuptuar se si do të ndihen klientët nëse një shërbim renditet si i përballueshëm kur shumë njerëz thjesht nuk mund ta përdorin atë.

Një mënyrë për të përcaktuar ndikimin është llogaritja e përqindjes së minutave të humbura të përdoruesit. Për ta bërë këtë:

  • Llogaritni PotentialUserMinutes. Kjo total përdoruesit që punojnë për njësi të kohës. Për shembull, nëse keni 10 punonjës që punojnë për 8 orë, atëherë PotentialUserMinutes është 10 x 8 x 60 = 4800
  • Llogaritni UserOutageMinutes. Ky është numri total i përdoruesve që nuk ishin në gjendje të punonin shumëzuar me kohën kur nuk ishin në gjendje të punonin. Për shembull, nëse një incident pengoi 5 punonjës të punonin për 10 minuta, atëherë UserOutageMinutes është 50.
  • Llogaritni disponueshmërinë e përqindjes duke përdorur një formulë shumë të ngjashme me atë që pamë më parë

Në shembullin e dhënë, morëm disponueshmërinë e mëposhtme:

Ju mund të përdorni të njëjtën teknikë për të llogaritur ndikimin e disponueshmërisë së telefonisë IP të humbur në një qendër thirrjesh për sa i përket PotentialAgentPhoneMinutes dhe LostAgentPhoneMinutes; për aplikacionet që përfshijnë transaksione ose prodhim, mund të përdorni një qasje të ngjashme për të përcaktuar sasinë e ndikimit të biznesit të një incidenti. Ju po krahasoni numrin e transaksioneve që do të ishin pritur pa ndërprerje kundrejt numrit të transaksioneve aktuale ose sasisë së prodhimit që pritej kundrejt prodhimit aktual.

Matja dhe raportimi i disponueshmërisë

Pasi të keni rënë dakord dhe dokumentuar objektivat e aksesueshmërisë, duhet të mendoni për aspektet praktike se si mund të matni dhe raportoni aksesueshmërinë. Për shembull:

  • Çfarë do të masni?
  • Si do t'i mblidhni të dhënat?
  • Si do t'i dokumentoni dhe raportoni gjetjet tuaja?

Ajo që matetunë jamtë jetë

Është shumë e rëndësishme të matet dhe të raportohet disponueshmëria në të njëjtat terma që përcaktojnë objektivat e dakorduara nga klientët dhe që bazohen në një kuptim të përbashkët të asaj që është në të vërtetë aksesueshmëria e klientit. Qëllimet duhet të kenë kuptim për të dhe të sigurojnë që përpjekjet e TI-së të fokusohen në ofrimin e mbështetjes për biznesin e tij.

Në mënyrë tipike, këto qëllime janë pjesë e një marrëveshjeje të nivelit të shërbimit (SLA) midis IT dhe klientit, por duhet të keni kujdes që numrat nga SLA të mos bëhen qëllimi juaj. Qëllimi juaj i vërtetë është të ofroni shërbime që plotësojnë pritshmëritë e klientëve tuaj.

Si të mblidhni të dhëna

Ka shumë mënyra të ndryshme për të mbledhur të dhëna për disponueshmërinë e shërbimeve të IT. Disa prej tyre janë të thjeshta, por jo shumë të sakta, disa janë mjaft të shtrenjta. Ju mund të përdorni vetëm një qasje, ose të kombinoni disa prej tyre për të krijuar raportet tuaja.

Mbledhja e të dhënave në mbështetje teknike

Një mënyrë për të mbledhur të dhënat e disponueshmërisë është përmes mbështetjes. Në mënyrë tipike, personeli i shërbimit përcakton ndikimin dhe kohëzgjatjen e çdo incidenti në biznes, pasi ai është pjesë e menaxhimit të incidentit. Këto të dhëna mund të përdoren për të përcaktuar kohëzgjatjen e incidenteve dhe numrin e përdoruesve të prekur.

Kjo qasje është zakonisht mjaft e lirë. Megjithatë, kjo mund të çojë në mosmarrëveshje në lidhje me saktësinë e të dhënave të disponueshmërisë.

Matja e disponueshmërisë së infrastrukturës dhe aplikacionit

Kjo qasje përfshin vegla për të gjithë komponentët e nevojshëm për të ofruar një shërbim dhe llogaritjen e disponueshmërisë bazuar në të kuptuarit se si kontribuon secili komponent.

Mund të jetë shumë efektiv, por mund të humbasë defekte të vogla. Për shembull, korrupsioni i vogël i bazës së të dhënave mund të pengojë disa përdorues nga kryerja e llojeve të caktuara të transaksioneve. Kjo metodë mund të humbasë gjithashtu ndikimin e komponentëve të përbashkët, për shembull, një prej klientëve të mi kishte email të rregullt që nuk funksiononte për shkak të serverëve DHCP jo të besueshëm në selinë e tyre, por shërbimi i IT nuk e regjistroi këtë si një ndërprerje të emailit.

Klientë fiktive

Disa kompani përdorin klientë fals për të dërguar transaksione të njohura nga pika specifike në rrjet për të kontrolluar disponueshmërinë.

Në fakt, është një masë e disponueshmërisë nga fundi në fund. Në varësi të madhësisë dhe kompleksitetit të rrjetit, kjo qasje mund të jetë e shtrenjtë për t'u zbatuar dhe raporton vetëm disponueshmërinë nga klientë specifikë fiktivë. Kjo do të thotë se defekte të vogla mund të mungojnë, për shembull, nëse një incident ka shkaktuar keqfunksionimin e një shfletuesi të caktuar të internetit ndërsa klienti fals përdor një shfletues tjetër.

Mjetet që mbështesin këtë mbledhje të të dhënave gjithashtu raportojnë shpesh performancën dhe disponueshmërinë e shërbimit, gjë që mund të jetë një shtesë e dobishme.

Përsosja e aplikacioneve

Disa kompani shtojnë kodin personal në aplikacionet e tyre për të monitoruar disponueshmërinë nga skaji në fund. Kjo do të ndihmojë në matjen e disponueshmërisë nga fundi në fund të shërbimeve, me kusht që ky të ishte qëllimi në kohën e zhvillimit të aplikacionit. Në mënyrë tipike, ky rishikim përfshin kodin si në aplikacionin e klientit ashtu edhe në anën e serverit.

Nëse zbatohet mirë, ai jo vetëm që mund të mbledhë të dhëna disponueshmërie, por gjithashtu mund të ndihmojë në përcaktimin e saktë të vendndodhjes së dështimit, gjë që mund të ndihmojë në rritjen e disponueshmërisë duke reduktuar kohën e zgjidhjes së incidentit.

Si të dokumentoni dhe raportoni gjetjet tuaja

Pasi të keni mbledhur të dhënat tuaja të disponueshmërisë, duhet të mendoni se si t'i komunikoni rezultatet me klientët tuaj.

Planifikoni për kohë joproduktive

Një aspekt i matjes dhe raportimit të disponueshmërisë që shpesh anashkalohet është koha e ndërprerjes. Nëse nuk merrni parasysh kohën e planifikuar të ndërprerjes kur hartoni raportet tuaja të disponueshmërisë, rrezikoni të përfshini metrikë që nuk janë të vërteta.

Ka disa mënyra për të siguruar që koha e planifikuar e joproduktive të mos fryjë statistikat. Njëra është që të ketë kohë joproduktive të planifikuar për një kohë specifike që nuk përfshihet në llogaritjen e disponueshmërisë. Një tjetër është të planifikoni një kohë joproduktive të planifikuar. Për shembull, disa organizata mund të mos marrin parasysh kohën e ardhshme joproduktive një muaj përpara.

Pavarësisht se çfarë vendosni të bëni, është e rëndësishme që SLA juaj të përcaktojë qartë se si do të llogaritet koha e planifikuar e joproduktive.

Marrëveshja e periudhës raportuese

Më parë, fola për kufizimet që fsheh disponueshmëria e përqindjes. Sidoqoftë, përdoret dhe vazhdon të përdoret gjerësisht. Prandaj, është e rëndësishme të kuptoni se duhet të specifikoni periudhën kohore gjatë së cilës kryhen llogaritjet dhe jepen raportet, pasi kjo mund të jetë kritike për numrat që do të jenë në raportet tuaja.

Për shembull, merrni parasysh një kompani IT që ka rënë dakord për një shërbim 24 × 7 dhe disponueshmëri 99%. Le të supozojmë se ka një pushim tetë orësh:

  • nëse raportojmë disponueshmërinë në baza javore, atëherë AST (Koha e dakorduar e shërbimit) është 24 x 7 orë = 168 orë
  • AST mujore (24 x 365) / 12 = 730 orë
  • AST tremujore (24 x 365) / 4 = 2190 orë

Vendosja e këtyre numrave në ekuacionin e aksesueshmërisë jep:

  • Disponueshmëria javore = 100% x (168-8) / 168 = 95,2%.
  • Disponueshmëria mujore = 100% x (730 - 8) / 730 = 98,9%
  • Disponueshmëria tremujore = 100% x (2190-8) / 2190 = 99,6%

Secili është një tregues i vlefshëm i disponueshmërisë së shërbimit, por vetëm njëri tregon se qëllimi është arritur.

Në paraburgim

Pothuajse çdo kompani IT që kam punuar me masa dhe raporte mbi disponueshmërinë e shërbimeve të tyre. Departamentet vërtet efikase të TI-së punojnë me klientët e tyre për të optimizuar investimet e veta dhe ofrojnë një nivel të shkëlqyer disponueshmërie. Fatkeqësisht, shumë kompani IT fokusohen në numrat SLA dhe nuk arrijnë të plotësojnë nevojat e klientëve të tyre, edhe nëse përfundojnë duke shfaqur numra të qëndrueshëm në raporte.

Ky është një artikull i gjatë, më poshtë janë pikat kryesore që mbulohen në të:

  • Ju nuk keni nevojë t'i tregoni klientit se keni dorëzuar 98% disponueshmëri, përveç nëse e kuptoni ndikimin e kohës së ndërprerjes prej 2%.
  • Bisedoni me klientët tuaj dhe sigurohuni që të kuptoni ndikimin e çdo ndërprerjeje mbi ta dhe klientët përfundimtarë
  • Mendoni për mënyrat për të mbrojtur proceset kritike të biznesit të klientëve tuaj
  • Gjeni mënyra për të matur frekuencën dhe kohëzgjatjen e joproduktive, dhe ndikimin e kohës së joproduktive në performancën që plotëson nevojat e klientëve tuaj
  • Pranoni, dokumentoni dhe raportoni matjet e disponueshmërisë në mënyra që kanë kuptim për klientët tuaj dhe planin e ndihmës
  • Përdorni mjetet e duhura për të vlerësuar siç duhet disponueshmërinë dhe për të raportuar.

Çfarë tjetër mund të shtoni në këshillat e mia? Ju lutemi shkruani në komente.

"Qasshmëria", "tre nëntë pas pikës dhjetore" - këto terma përdoren shpesh kur diskutohen zgjidhjet e reja të IT. Arkitektët e IT-së i propozojnë një projekt klientit sistemi i ri sidomos duke pasur parasysh se ka një disponueshmëri shumë të lartë. Kontrata është lidhur, sistemi është ndërtuar, certifikatat e vënies në punë të kompleksit janë nënshkruar, funksionimi fillon ... Është në fazën e funksionimit që mund të kontrollohet "cilësia" e sistemit të krijuar, dhe atëherë mund të vijë zhgënjimi. Çfarë fshihet pas “nëntëve” magjike? Cilat janë premtimet reale në fazën e projektimit? Dhe kush është përgjegjës për disponueshmërinë?

Aksesueshmëria: një hyrje në këtë temë

Mënyra më e mirë për të kuptuar se çfarë është aksesueshmëria është të kuptoni pse është e nevojshme. Disponueshmëria është një karakteristikë e asaj që biznesi dëshiron nga departamenti i IT. Fatkeqësisht, disa përfaqësues të biznesit, kur pyeten për disponueshmërinë e dëshiruar të shërbimeve të TI-së, përgjigjen diçka si kjo: "Unë dua që gjithçka të funksionojë gjithmonë". Në këtë rast, i takon menaxherit të IT-së të shkruajë kushtet e referencës për shërbimin, duke përfshirë përcaktimin e parametrave të disponueshmërisë. Pra, disponueshmëria është një dimension i një shërbimi IT që konsumon biznesi dhe që ofron shërbimi IT. Formula për llogaritjen e disponueshmërisë është si më poshtë:

Disponueshmëria = (AST - DT) / AST × 100 = Disponueshmëria e shërbimit ose e komponentit (%)

ku
AST (koha e rënë dakord e shërbimit)- koha e rënë dakord për ofrimin e shërbimit;
DT (koha aktuale joproduktive gjatë kohës së shërbimit të rënë dakord)- koha aktuale kur shërbimi ishte i padisponueshëm gjatë kohës së dakorduar të ofrimit të tij.

Specifikat e llogaritjes së disponueshmërisë janë më të lehta për t'u kuptuar me një shembull specifik. Le të përpiqemi të përcaktojmë disponueshmërinë e shërbimit të IT "dyqani në internet" për kompaninë AAA të vendosur në Moskë, e cila shet libra. Në të njëjtën kohë, librat dhe dërgimi i tyre në çdo qytet mund të paguhen, për shembull, duke përdorur një kartë krediti. Natyrisht, porositë e transportit do të përpunohen vetëm gjatë ditëve të javës nga ora 9 e mëngjesit deri në 6 pasdite.

Por çfarë do të jetë AST - koha e dakorduar e ofrimit të shërbimit? Për t'iu përgjigjur kësaj pyetjeje, duhet të keni parasysh se njerëzit mund të bëjnë porosi orare jo pune, dhe sigurohuni që të merrni parasysh faktin se ka 11 zona kohore në Rusi. Prandaj, shërbimi duhet të ofrohet 24 orë në 7 ditë në javë.

Tani duhet të merreni me DT - koha kur shërbimi mund të mos jetë i disponueshëm. Këtu nuk mund të bëhet pa negociata me biznesin. Është e mundur që katër orë padisponueshmëria e shërbimit një herë në muaj mund të jetë një zgjedhje adekuate për këtë shembull. Sidoqoftë, duhet të merret parasysh një nuancë - periudha kohore gjatë së cilës vlerësohet parametri DT, domethënë koha aktuale e kontraktuar e ofrimit të shërbimit (AST). Zgjedhja e periudhës AST është një çështje private e palëve kontraktuese: biznesi dhe shërbimi IT. Është më mirë të marrësh një javë ose disa javë si një periudhë e tillë, pasi një muaj ose një vit nuk janë vlera konstante (ato përfshijnë një numër të ndryshëm ditësh). Megjithatë, duhet t'i kushtoni vëmendje psikologjisë: periudha më të shkurtra kohore mund të perceptohen negativisht nga biznesi. Në shembullin tonë, e njëjta vlerë disponueshmërie korrespondon me afërsisht një orë pushim në javë. Megjithatë, bizneseve mund të mos ju pëlqejë fakti që dyqani online do të jetë i padisponueshëm për një orë çdo javë, megjithëse mund të bien dakord për katër orë pushim në muaj. Nga ana tjetër, ndonjëherë është e pamundur të funksionosh një sistem IT pa e ndalur atë për disa orë për mirëmbajtje rutinë. Koha e tillë e planifikuar duhet të merret parasysh edhe kur zgjedh një DT, e cila, nga ana tjetër, mund të çojë në një rishikim të parametrit AST.

Bazuar në sa më sipër, ne zgjedhim 4 orë të mos disponueshmërisë së shërbimit një herë në katër javë. Kjo është, AST = 4 javë, DT = 4 orë. Atëherë disponueshmëria është si më poshtë:

Disponueshmëria = (24 × 7 × 4-4) / (24 × 7 × 4) × 100% = 99,40%

Është e mundur që biznesi të mos jetë dakord. Në këtë rast, duhet të zbuloni se me cilin opsion do të pajtohet. Në të ardhmen, mund të llogaritni dy opsione për sistemet harduerike dhe softuerike me disponueshmëri të ndryshme dhe të negocioni me biznesin bazuar në një krahasim të kostos së të dy opsioneve. Në përgjithësi, negociatat me biznesin dhe buxhetimi i shërbimit IT janë një temë më vete, e cila, ndoshta, do të kërkojë më shumë se një libër për t'u zbuluar. Prandaj, le të themi se në shembullin tonë, disponueshmëria është llogaritur dhe rënë dakord dhe ne mund të vazhdojmë me krijimin e sistemit.

Vini re se ne identifikuam disponueshmërinë e kërkuar përpara se të fillonim të punonim për zgjidhjen që e ofron atë, dhe jo anasjelltas - fillimisht zgjodhëm zgjidhjen dhe morëm parasysh disponueshmërinë e saj. Detyra teknike është parësore, dhe disponueshmëria e kërkuar është një nga parametrat e fiksuar në të. Kur sistemi vihet në shërbim, disponueshmëria duhet të plotësojë vlerën e kërkuar. Prandaj, ne këshillojmë në marrëveshjen me biznesin (SLA - Marrëveshja e Nivelit të Shërbimit) të deshifrojë në detaje se çfarë nënkuptohet me numrin e disponueshmërisë (në shembullin tonë, si më poshtë: "4 orë padisponueshmëri shërbimi një (1) herë brenda katër (4) javë"), në mënyrë që të gjitha palët e kuptuan qartë se çfarë fshihej në të vërtetë pas numrave.

Tre dimensione të aksesueshmërisë

Gjëja e parë që duhet kuptuar kur zgjedh një zgjidhje është se çfarë përbëhet nga disponueshmëria e një shërbimi IT. Shumë zhgënjime operacionale rrjedhin nga fakti se disponueshmëria e shërbimit që dëshiron një biznes lidhet drejtpërdrejt me disponueshmërinë e pajisjeve. Megjithatë, disponueshmëria e një shërbimi IT është një kombinim i tre komponentëve:
1) Besueshmëria - zakonisht përkthehet si besueshmëri;
2) Maintainability - përkthyer si "maintainability";
3) Servisueshmëria - mirëmbajtje.
Le të hedhim një vështrim në secilën nga këto pika.

Besueshmëria

Besueshmëria është disponueshmëria e infrastrukturës ose kompleksit të harduerit dhe softuerit në tërësi, duke përfshirë komunikimet. Për shembull, për një dyqan online, na duhet një server në internet, një server aplikacioni, një DBMS, ruajtje në disk dhe akses në internet. Për thjeshtësi, do të supozojmë se softueri i serverit të aplikacionit përfshin një server në internet dhe do të instalohet në një server hardueri, DBMS në të dytin, dhe ruajtja e diskut është një grup i jashtëm i diskut.

Ne fillojmë të krijojmë - ne ndërtojmë një projekt infrastrukturor. Nën secilin komponent, ne do të shkruajmë parametrat e aksesueshmërisë së tij. Disponueshmëria e secilit komponent - në vijim do të përdorim termin "besueshmëri" - duhet të merret nga furnizuesi i komponentit (pajisja, software ose shërbim). Nëse për ndonjë arsye kjo është e pamundur (për shembull, për komponentët e softuerit, vlera e besueshmërisë zakonisht nuk dihet), vlera e kërkuar do të duhet të vlerësohet dhe caktohet në mënyrë të pavarur. Çdo komponent është një pikë e vetme dështimi, kështu që ato janë të lidhura në seri në diagramin e punës për llogaritjen e besueshmërisë (Fig. 1). Vini re se kjo nuk është një skemë për lidhjen e komponentëve të infrastrukturës, por vetëm një skemë për llogaritjen e besueshmërisë.

Pra, ne llogarisim besueshmërinë. Meqenëse kemi një lidhje serike të komponentëve, vlerat e besueshmërisë shumëzohen:

Besueshmëria = (0,985 x 0,97 x 0,975 x 0,98 x 0,99 x 0,9999 x 0,99) x 100% = 89,47%

Kjo është qartësisht e pamjaftueshme në krahasim me vlerën e kërkuar prej 99.40%. Pastaj do të ndryshojmë vendimin tonë - do të përfshijmë në sistem një ofrues alternativ të shërbimeve të aksesit në internet (Fig. 2) dhe do të llogarisim besueshmërinë e tij. Meqenëse kemi një lidhje paralele në lidhje me aksesin në internet, besueshmëria e përgjithshme përcaktohet si më poshtë:

Besueshmëria e përgjithshme =

Besueshmëria = × 100% = 91,72%

Mendoj se është demonstruar parimi i "punës me besueshmëri" të sistemit të ardhshëm. Duhet të theksohet se shembulli i konsideruar nuk përfshinte përbërësit e infrastrukturës së rrjetit dhe besueshmërinë e lidhjeve (për shembull, midis serverit të bazës së të dhënave dhe ruajtjes së diskut), si dhe përbërësit e infrastrukturës teknike (furnizimi me energji elektrike, klimatizimi , etj.), të cilat janë gjithashtu pika dështimi dhe duhet të përfshihen në llogaritje. Vlerësimi i besueshmërisë së komponentëve të softuerit meriton vëmendje të veçantë. Këshilla kryesore këtu është konservatorizmi i arsyeshëm: përdorni komponentë softuerësh që janë përdorur në zgjidhje të tilla për një kohë të gjatë dhe e kanë provuar veten mirë.

Duke përdorur teknikat që u diskutuan shkurtimisht më lart, mund të zgjidhni një zgjidhje me disponueshmërinë e kërkuar.

Mirëmbajtja dhe shërbimi

Kalimi në komponentët e tjerë të aksesueshmërisë - mirëmbajtjen dhe shërbimin. Vini re se përkthimet "mbahenshmëri" dhe "mbahenshmëri" janë të pasuksesshme, pasi nuk janë shumë të qarta prej tyre se çfarë do të thotë. Më mirë të përdorni përkthime më të kuptueshme: mirëmbajtje - aktivitetet e shërbimit të brendshëm IT të organizatës; shërbimi - shërbimet e ofruara nga ofruesit e jashtëm.

Për të sqaruar situatën, merrni parasysh opsionet ekstreme. Kur mungon plotësisht mirëmbajtja? Kjo ndodh kur një kompani kontrakton shërbimin e saj IT. Këtu, disponueshmëria është vetëm një kombinim i besueshmërisë dhe ofruesve të shërbimeve të jashtme.

Kur mungon plotësisht shërbimi? Kjo ndodh, për shembull, në FSB, e cila, për arsye të fshehtësisë, është e detyruar të kryejë të gjitha aktivitetet për të ruajtur sistemin në gjendje pune ekskluzivisht nga departamenti i saj i IT-së, madje edhe pjesët e këmbimit blihen në mënyrë të pavarur dhe nuk furnizohen sipas një teknike. kontratë mbështetëse. Atëherë disponueshmëria është vetëm një kombinim i besueshmërisë së sistemit dhe aktiviteteve të shërbimit të brendshëm IT të organizatës.

Është e qartë se vendimi duhet të merret në të njëjtën kohë me zhvillimin e skemave të mirëmbajtjes dhe shërbimit. Në përgjithësi, besueshmëria, mirëmbajtja dhe shërbimi janë tre dimensionet e aksesueshmërisë. Ndryshimet në njërën prej tyre duhet të kompensohen nga ndryshimet në dy të tjerat - përndryshe, parametri i disponueshmërisë së shërbimit IT do të ndryshojë, gjë që mund të dëmtojë biznesin.

Mënyrat për të manipuluar komponentët e aksesueshmërisë

Për të kuptuar se si mund të manipulohen të gjitha pjesët e aksesueshmërisë, merrni parasysh një shembull tjetër praktik. Kompania, e cila ka qendra të përpunimit të të dhënave në dy qytete ruse, Zelenograd (një qytet satelit i Moskës) dhe Irkutsk, bleu dy sisteme identike me çelësa në dorë. Rrjedhimisht, besueshmëria - besueshmëria - është e njëjtë për ta. Të dy sistemet e TI-së mbështeteshin nga të njëjtat kontrata mbështetëse për harduer dhe softuer, që do të thotë se shërbimet e ofruara nga shitësit e jashtëm - shërbimi - ishin gjithashtu të njëjta. Megjithatë, disponueshmëria e sistemeve ndryshonte. Dhe kompania filloi t'i ankohej furnizuesit për disponueshmërinë e dobët të sistemit në Irkutsk, duke pretenduar se një nga zgjidhjet ishte "me defekt" dhe duke kërkuar një auditim.

Sidoqoftë, në këtë rast, auditimi i zgjidhjes ka shumë të ngjarë të mos zbulojë shkakun rrënjësor të "dështimit" të disponueshmërisë, pasi do të hetohet vetëm një komponent - Besueshmëria, e cila duhet të jetë e njëjtë për të dy sistemet, dhe vetëm dy të tjerë komponentët duhet të hetohen. Nëse u kushtoni vëmendje atyre, rezulton se dy opsione janë të mundshme.

Opsioni 1: Dështimet e harduerit shkaktuan humbjen e disponueshmërisë. Për shkak të vendndodhjes gjeografike të qendrave të të dhënave, të njëjtat kontrata mbështetëse harduerike mund të jenë në të vërtetë të ndryshme. Për shembull, Qendra e Shërbimit furnizuesi i jashtëm ndodhet në Moskë, dhe kontrata e mbështetjes teknike thotë se ajo është e vlefshme vetëm gjatë ditëve të javës dhe inxhinieri arrin në vendin e instalimit të pajisjeve "me trenin ose fluturimin e parë të disponueshëm". Natyrisht, për një inxhinier që largohet nga Moska, kjo vlerë do të jetë e ndryshme për Zelenograd dhe Irkutsk.

Zgjidhjet e mundshme për problemin e disponueshmërisë në këtë rast:

  • ndryshoni besueshmërinë e sistemit të IT në Irkutsk, për shembull, vendosni një nyje shtesë në grup;
  • ndryshoni parametrin e shërbimit - për të krijuar një depo në Irkutsk, për të marrë një mundësi që specialistët e IT të kompanisë të ndryshojnë vetë komponentët e gabuar, nëse kjo nuk bie ndesh me rregullat e prodhuesit.

Gjithashtu ka kuptim të kontrolloni kushtet e funksionimit. Shembuj të shkeljeve tipike të këtyre kushteve:

  • kryerja e punëve riparimi në ambiente me sisteme të ndezura, gjë që çon në pluhurosjen e tyre dhe pluhuri është shumë i rrezikshëm për pajisjet e serverit;
  • përdorimi i kondicionerëve shtëpiake në dhomat e serverëve, megjithëse çdo lloj pajisje ka kërkesat e veta për lagështinë dhe kondicionerët shtëpiake nuk janë krijuar për të ruajtur nivelin e tij të specifikuar, dhe ajri plotësisht i thatë është shkatërrues për teknologjinë.

Opsioni 2: Defektet e softuerit shkaktuan uljen e nivelit të kërkuar të disponueshmërisë. Në këtë rast, problemi ka shumë të ngjarë në shërbimin e IT në Irkutsk. Shërbimet e mbështetjes teknike të softuerit ofrohen nga distanca. Rrjedhimisht, nuk ka asnjë ndryshim në shërbime, përveç se ka periudha të ndryshme shërbimi në lidhje me orën lokale për zona të ndryshme kohore, por kjo zakonisht nuk ka një efekt domethënës. Arsyeja e mundshme për "dështimin" e aksesit këtu është niveli i ndryshëm i profesionalizmit të departamenteve të IT - në Irkutsk është ndoshta më i ulët se në Zelenograd. Zgjidhjet e mundshme:

  • për të forcuar mirëmbajtjen në nivelin e kërkuar - për të kryer trajnime për personelin e IT në Irkutsk për produktet softuerike dhe harduerike që janë pjesë e sistemit të IT, organizoni seminare për të transferuar përvojën e ekipit të IT nga Zelenograd, proceset e funksionimit të kopjimit, etj .;
  • kompensoni mirëmbajtjen përmes shërbimit - blini shërbime të avancuara të mbështetjes teknike, shërbime kontaktuese, etj.

Duke u kthyer te shembulli i dyqanit tonë online, cili është kombinimi më i mirë i besueshmërisë, mirëmbajtjes dhe shërbimit? Përgjigja për këtë pyetje varet nga secili rast specifik. Për shembull, ju mund të rekomandoni pritjen në vend që të zbatoni plotësisht të gjithë infrastrukturën (IT dhe teknike) vetë. Në përgjithësi, ne kemi mënyrat e mëposhtme standarde të menaxhimit të disponueshmërisë. 1. Ndryshimi në besueshmërinë:

  • ndryshimi i zgjidhjes së IT drejt disponueshmërisë së lartë (disponueshmëria e lartë) - përdorimi i grupimeve, përdorimi i pajisjeve me mbështetje për zëvendësimin "e nxehtë", dyfishimi i përsëritur i pikave të mundshme të dështimit, etj .;
  • dhënia me qira e të gjithë infrastrukturës ose një pjese të saj nga furnitorë të jashtëm (hosting, collocation).

2. Ndryshimi në mirëmbajtjen (ndryshime në aktivitetet e shërbimit IT të kompanisë):

  • përhapja brenda organizatës e praktikave të veta më të mira në menaxhimin e TI-së;
  • duke ftuar konsulentë të jashtëm për të organizuar procese në departamentin e TI-së;
  • trajnimi i personelit të IT.

3. Ndryshimi i sherbimit - ndryshimi i kontratave per sherbimet IT me ofrues te jashtem drejt rritjes se nivelit te sherbimeve, rritjes se volumit te sherbimeve, zgjerimit te fushes se pergjegjesive te ofruesve te sherbimeve te jashtme etj. Te gjitha teknikat per manipulimin e tre burimeve dhe tre komponenteve te aksesueshmëria nuk mund të përshkruhet brenda një artikulli. , megjithatë, janë demonstruar qasjet kryesore për kompensimin e disa komponentëve të aksesueshmërisë me të tjerët. Për të përmirësuar më tej aftësitë tuaja në këtë fushë, duhet të studioni përvojë praktike projektimin dhe funksionimin e sistemeve të TI-së.

Ndryshimi i pikëpamjeve të biznesit për ofrimin e shërbimeve të TI-së çon në nevojën për të zbatuar një proces për menaxhimin e disponueshmërisë së tyre.

Në versionin e tretë, proceset ITIL për menaxhimin e disponueshmërisë dhe vazhdimësisë së shërbimeve të TI-së konsiderohen së bashku (më tej referuar si proces). Konceptet kryesore më të rëndësishme të këtij procesi bashkëpunues janë:

disponueshmëria- aftësia e një shërbimi IT ose përbërësve të tij për të kryer funksionet e tyre në një periudhë të caktuar kohe;

besueshmëria- aftësia e një shërbimi IT ose përbërësve të tij për të kryer funksione të specifikuara në kushte të caktuara operimi;

rikuperueshmëria- aftësia e shërbimit të IT ose përbërësve të tij për të rikuperuar karakteristikat e tyre operacionale, pjesërisht ose plotësisht të humbura si rezultat i një dështimi;

shërbimi- karakteristikë e komponentëve të TI-së, e cila përcakton vendndodhjen dhe parametrat e tyre për të siguruar racionalitetin e veprimeve të personelit gjatë instalimit, transportit, parandalimit dhe riparimit (ky koncept zbatohet në lidhje me ofruesit e jashtëm të shërbimeve të TI-së).

Biznesi ka kuptimin e vet për disponueshmërinë dhe koston e shërbimeve të TI-së, dhe për këtë arsye qëllimi i procesit është të sigurojë nivelin e kërkuar të disponueshmërisë duke ruajtur një nivel të caktuar kostosh. Për të arritur këtë qëllim, procesi synon të përmbushë detyrat e mëposhtme:

    Planifikimi dhe zhvillimi i shërbimeve të TI-së duke marrë parasysh kërkesat e biznesit për nivelin e disponueshmërisë;

    Optimizimi i disponueshmërisë së shërbimeve të TI-së përmes përmirësimeve me kosto efektive;

    Reduktimi i numrit dhe kohëzgjatjes së incidenteve që ndikojnë në disponueshmërinë e shërbimeve të IT.

Gjatë zgjidhjes së këtyre problemeve, janë rregulluar kërkesat e biznesit për disponueshmërinë e shërbimeve të TI-së dhe komponentëve të infrastrukturës së TI-së; janë zhvilluar raportet e nevojshme; nivelet e disponueshmërisë së shërbimeve të TI rishikohen periodikisht; është formuar një plan disponueshmërie që përcakton prioritetet dhe pasqyron masat për të përmirësuar disponueshmërinë e shërbimeve të IT. Me fjalë të tjera, procesi zbret në planifikimin e ofrimit të shërbimeve të TI-së, matjen e nivelit të disponueshmërisë dhe ndërmarrjen e veprimeve për ta përmirësuar atë.

Planifikimi

Gjatë planifikimit, formulohen kërkesat e biznesit për disponueshmërinë e shërbimeve të TI-së, zhvillohen kriteret për përcaktimin e nivelit të disponueshmërisë dhe kohëzgjatjes së pranueshme të joproduktive të shërbimeve të TI-së dhe merren parasysh disa aspekte. siguria e informacionit... Biznesi duhet të vendosë një kufi që përcakton disponueshmërinë dhe mosdisponueshmërinë e një shërbimi IT, si p.sh. sasia e kohës që një shërbim IT mund të ndërpritet në rast të një dështimi të infrastrukturës së TI-së.

Gjatë projektimit të disponueshmërisë së shërbimeve të TI-së, kryhet një analizë e infrastrukturës së TI-së për të përcaktuar komponentët më të cenueshëm që nuk kanë rezervë dhe mund të kenë një ndikim negativ në ofrimin e TI-së në rast të dështimit. shërbimet. Në terminologjinë ITIL, këta komponentë quhen Single Point of Failure (SPOF) dhe përcaktohen duke përdorur metodën e Analizës së Ndikimit të Dështimit të Komponentit (CFIA). Kjo metodë përdoret për të vlerësuar dhe parashikuar ndikimin e dështimeve të komponentëve të TI-së në një shërbim IT. Qëllimet kryesore të CFIA janë:

    Identifikimi i pikave të dështimit që ndikojnë në disponueshmërinë;

    Analizimi i ndikimit të dështimit të komponentëve tek biznesi dhe përdoruesit;

    Përcaktimi i marrëdhënieve të komponentëve dhe personelit;

    Përcaktimi i kohës së rikuperimit të komponentëve;

    Identifikimi dhe dokumentimi i opsioneve të rikuperimit.

Për analizën e rrezikut, përdoret metoda e analizës dhe menaxhimit të rrezikut (CCTA Risk Analysis and Management Method, CRAMM), e cila analizon kërcënimet dhe varësitë e mundshme të komponentëve të TI-së, vlerëson gjasat e situatave jo standarde ose ngjarjeve emergjente.

Për të siguruar nivelin e kërkuar të disponueshmërisë, është e mundur të përdoret një teknikë maskimi nga ndikimi negativ për shkak të ndërprerjes së planifikuar ose të paplanifikuar të komponentit, dyfishimit të komponentëve të TI-së, si dhe përdorimit të mjeteve për të përmirësuar performancën e një komponenti në rast të rritja e ngarkesës, etj. Në rastet kur funksionet specifike të biznesit varen shumë nga disponueshmëria e shërbimeve të TI-së dhe humbja reputacionin e biznesit kohëzgjatja e ndërprerjes konsiderohet e papranueshme, disponueshmëria e disa shërbimeve të TI-së është më e lartë dhe ndahen burime shtesë.

Dizajni i ofrimit të shërbimit IT siguron që kërkesat e deklaruara të disponueshmërisë janë përmbushur, por kjo i referohet gjendjes së qëndrueshme dhe funksionale të shërbimit IT. Sidoqoftë, dështimet janë gjithashtu të mundshme, prandaj, kryhet gjithashtu planifikimi për rikuperimin e shërbimeve të IT, duke përfshirë organizimin e ndërveprimit me procesin e menaxhimit të incidentit dhe Tavolinën e Shërbimit; planifikimin dhe zbatimin e sistemeve të monitorimit për zbulimin e dështimeve dhe njoftimin në kohë të tyre; zhvillimi i kërkesave për kopje rezervë dhe rikuperim të harduerit, softuerit dhe të dhënave; zhvillimi i një strategjie rezervë dhe rikuperimi; përcaktimi i metrikës së rikuperimit etj.

Një aspekt tjetër i planifikimit është përcaktimi i kohës joproduktive. Të gjithë komponentët e TI-së duhet t'i nënshtrohen një strategjie shërbimi. Në varësi të aplikacionit të TI-së, kritikës dhe rëndësisë së funksioneve të biznesit të mbështetur nga një komponent i veçantë i TI-së, frekuenca dhe niveli i shërbimit mund të ndryshojnë. Nëse keni nevojë të ofroni një shërbim në modalitetin 24x7, duhet të gjeni një ekuilibër optimal midis kërkesave për servisimin e komponentëve të TI-së dhe humbjeve të biznesit nga ndërprerja e shërbimit. Oraret e miratuara të shërbimit duhet të dokumentohen në Marrëveshjet e Nivelit të Shërbimit (SLA).

Përmirësimi i disponueshmërisë së shërbimeve të IT

Pse të përmirësohet aksesueshmëria? Mund të ketë shumë arsye: mospërputhja e cilësisë së shërbimeve të IT me kërkesat SLA; paqëndrueshmëria në ofrimin e shërbimeve të TI-së; tendencat rënëse në disponueshmërinë e shërbimeve të TI-së; periudha e papranueshme e gjatë e rikuperimit; kërkesat e biznesit për rritjen e disponueshmërisë.

Përmirësimi i aksesueshmërisë kërkon shtesë të arsyeshme kostot financiare dhe teknika dhe teknologji të caktuara përdoren për të identifikuar mundësitë për përmirësim në shërbimet e TI-së, duke përfshirë Analizën e Pemës së Gabimeve (FTA) dhe Analizën e Ndërprerjeve të Sistemeve (SOA).

Analiza e pemës së gabimeve identifikon zinxhirin e ngjarjeve që çojnë në dështimin e një komponenti IT ose shërbimi IT. Grafikisht, një pemë gabimi (shih Fig.) është një sekuencë ngjarjesh që fillon me një ngjarje inicuese e ndjekur nga një ose më shumë ngjarje funksionale dhe përfundon me një gjendje përfundimtare. Në varësi të ngjarjeve, sekuencat mund të degëzohen logjikisht.

Analiza e kohës së ndërprerjes së sistemit është një qasje e strukturuar për identifikimin e shkaqeve rrënjësore të ndërprerjeve në ofrimin e shërbimeve të TI-së dhe përdor burime të shumta të dhënash për të përcaktuar vendndodhjen dhe shkakun e ndërprerjeve. Objektivat e kësaj analize:

    Përcaktimi i shkaqeve rrënjësore të ndërprerjeve në ofrimin e shërbimeve të TI-së;

    Përcaktimi i efektivitetit të mbështetjes së shërbimit IT;

    Përgatitja e raporteve;

    Inicimi i programit për zbatimin e rekomandimeve të pranuara;

    Analizoni përmirësimet në disponueshmëri bazuar në analizën e kohës së ndërprerjes së sistemit.

Përdorimi i analizës së ndërprerjes së sistemit do të rrisë nivelin e disponueshmërisë pa rritur kostot, do të përmirësojë aftësitë dhe aftësitë e personelit për të shmangur koston e konsultimit për përmirësimin e aksesueshmërisë dhe do të identifikojë një program specifik përmirësimi.

Rezultati i aktiviteteve për përmirësimin e disponueshmërisë së shërbimit është një plan afatgjatë për të përmirësuar në mënyrë proaktive disponueshmërinë e shërbimeve të TI-së, duke marrë parasysh kufizimet financiare. Një plan aksesueshmërie përshkruan nivelet aktuale dhe të planifikuara të aksesueshmërisë, si dhe veprimet që duhen ndërmarrë për ta përmirësuar atë. Përgatitja e planit kërkon pjesëmarrjen e përfaqësuesve të biznesit, menaxherëve të proceseve të zbatuara ITSM, përfaqësuesve të ofruesve të jashtëm të shërbimeve IT, specialistëve të mbështetjes teknike përgjegjëse për testimin dhe mirëmbajtjen. Plani hartohet deri në dy vjet, dhe për gjashtë muajt e ardhshëm duhet të përmbajë pershkrim i detajuar aktivitetet. Plani rishikohet çdo tremujor me rregullime minimale dhe çdo gjashtë muaj me mundësi ndryshimesh të mëdha.

Matja e disponueshmërisë së shërbimit IT

Një shërbim IT, nga këndvështrimi i konsumatorit, mund të konsiderohet i përballueshëm kur funksionet jetike të biznesit që e përdorin atë po funksionojnë mirë. Në këtë rast, treguesit kryesorë sasiorë janë disponueshmëria - raporti i kohës së disponueshmërisë reale të një komponenti IT me kohën e disponueshmërisë të specifikuar në marrëveshjet e nivelit të shërbimit, dhe padisponueshmëria (në%) - anasjellta e disponueshmërisë. Këto parametra përdoren nga shërbimet e TI-së dhe, nga pikëpamja e biznesit, nuk janë shumë tregues, pasi ato nuk pasqyrojnë vlerat e disponueshmërisë për biznesin ose përdoruesit - ato mund të demonstrojnë një nivel të lartë disponueshmërie të komponentëve të TI-së, ndërsa niveli aktual i disponueshmërisë së shërbimeve të IT do të jetë i ulët ...

Biznesi mund të kuptojë tregues të tillë si: shpeshtësia e ndërprerjeve të shërbimeve IT, kohëzgjatja totale e ndërprerjeve, zona e ndikimit nga ndërprerja e shërbimeve të IT.

Rolet dhe përgjegjësitë

Procesi përcakton rolin e menaxherit të procesit, i cili është përgjegjës për udhëheqjen e procesit dhe marrjen e veprimeve të nevojshme. Menaxheri i procesit është përgjegjës për funksionimin dhe zhvillimin e procesit në përputhje me rregulloret dhe planet. Rekomandohet punësimi i një punonjësi me përvojë praktike në menaxhimin e procesit, njohuri për ITSM, metoda statistikore dhe analitike të përdorura në IT, parime të menaxhimit të kostos, përvojë në punë me personel, njohuri për metodat e negocimit etj. për rolin e një procesi. menaxher.

Zbatimi i procesit

Zbatimi i çdo procesi ITSM është një projekt i gjatë dhe kompleks me qëllime dhe afate specifike. Zbatimi i brendshëm është i vështirë: zbatimi i procesit paralelisht me aktivitetet e përditshme operacionale nuk ju lejon të fokusoheni plotësisht në projekt; "tërheqja" e vazhdueshme e burimeve për detyra që janë të jashtme për projektin në rezultatin përfundimtar çon në një rritje të kostove financiare, një zhvendosje të kohës së projektit për një periudhë të pacaktuar, një humbje graduale të vëmendjes apo edhe një ndalim të mundshëm. të projektit. Përveç kësaj, zbatimi i brendshëm kërkon njohuri në një fushë të caktuar lëndore, gjë që kërkon nevojën për trajnime të kushtueshme.

Ashtu si çdo projekt, zbatimi i procesit fillon me ndërtimin e ekipeve të projektit, zhvillimin e dokumenteve të menaxhimit të projektit, hartimin e një plani projekti dhe më shumë. Në fazën e punës "para-dizajnimi", aktivitetet e marketingut kryhen për të njohur përfaqësuesit e biznesit me teknologjitë dhe rekomandimet ITIL dhe për të justifikuar nevojën që një biznes të zbatojë një proces për menaxhimin e disponueshmërisë së shërbimeve të IT.

Pas marrëveshjes dhe marrjes së një përgjigje pozitive për zbatimin e procesit, përcaktohen qëllimet dhe kufijtë e fushës lëndore të procesit.

Efekti dhe problemet

Efekti kryesor i zbatimit të procesit është se shërbimet e TI-së janë të dizajnuara duke pasur parasysh disponueshmërinë dhe operohen dhe menaxhohen në një nivel të dakorduar disponueshmërie dhe kostoje. Faktorë pozitivë janë gjithashtu: një person përgjegjës për disponueshmërinë e shërbimeve të TI-së; përdorimi optimal i performancës së infrastrukturës së TI-së për të siguruar nivelin e kërkuar të disponueshmërisë së shërbimeve të TI-së; zvogëlimi i shpeshtësisë dhe kohëzgjatjes së ndërprerjeve të shërbimit të IT me kalimin e kohës; një tranzicion cilësor në aktivitetet e ofruesve të shërbimeve të TI-së nga eliminimi i gabimeve në ofrimin e shërbimeve në rritjen e nivelit të disponueshmërisë së tyre.

Problemet e mundshme që mund të ndikojnë negativisht në vendimmarrje për zbatimin dhe funksionimin e procesit janë zakonisht të natyrës organizative:

    Ekzistenca e një situate ku çdo menaxher i TI-së është përgjegjës për disponueshmërinë e sistemeve ose komponentëve të TI-së që janë në fushën e tij të përgjegjësisë, ndërkohë që disponueshmëria e përgjithshme e shërbimeve të TI-së nuk monitorohet dhe mund të jetë e pakënaqshme;

    Refuzimi për zbatimin e procesit sepse disponueshmëria aktuale e shërbimeve të TI-së konsiderohet e pranueshme;

    Supozimet se nëse ekzistojnë procese të tjera TSM, procesi i menaxhimit të disponueshmërisë do të kryhet automatikisht;

    Rezistenca ndaj centralizimit në menaxhimin e infrastrukturës së TI-së nga menaxherët e IT-së;

    Autoriteti i pamjaftueshëm i menaxherit të procesit, duke çuar në pamundësi për të kryer detyrat siç duhet.

Evgeny Bulychev (Bulychev@i-teco.ru) - Konsulent i departamentit të Konsulencës së Biznesit I-Teco (Moskë).

Ideja për të shkruar këtë artikull erdhi pas një bisede me një nga klientët e mëdhenj - një koleg tregoi historinë e zgjedhjes së një ofruesi të cloud IaaS për kompaninë e tij.

Grupi i parë i kritereve për vlerësimin e një ofruesi shërbimi dukej diçka e tillë: një emër (markë) i njohur, një histori pozitive biznesi në fushën e shërbimeve cloud, vlerë adekuate. Në bazë të rezultateve të analizës, aplikantët e mundshëm u përzgjodhën midis disa kompanive, të cilat sipas kritereve të mësipërme ishin thuajse të njëjta dhe secila u përpoq të provonte avantazhet e tyre, duke iu referuar karakteristikave të ndryshme të shërbimeve të tyre cloud.

Vladimir Kurilov, kompania Onlanta.

Kështu që biseda arriti në treguesit e besueshmërisë. Dhe ai rrotullohej rreth krahasimit të niveleve të disponueshmërisë së qendrave të të dhënave në të cilat ndodheshin retë. Shpejt u bë e qartë se vetëm dy kandidatë kanë qendra të dhënash me disponueshmëri 99.98%. Zgjedhja u bë në favor të një ofruesi të huaj të shërbimit cloud - çmimi fitoi. Kolegu shpjegoi gjithçka thjesht, - "Ç'kuptim ka të paguajmë më shumë për të njëjtët tregues besueshmërie?"

Nisur nga ekzistenca opsione të ndryshme, le të përcaktojmë interpretimin e termit “Accessibility” në kuadër të këtij neni. Le të përcaktojmë disponueshmërinë si kohën e funksionimit të sistemit në një interval të caktuar kohor, shprehur si përqindje e këtij intervali. Ose në formën klasike: "Vetësia e një objekti për të kryer funksionin e kërkuar në kushte të caktuara për një interval kohor të caktuar." Kjo, në përgjithësi, është më afër konceptit tashmë të konsoliduar të "gatishmërisë" së sistemit.

Viti i funksionimit që pasoi këtë vendim tregoi se ofruesi ka ndërprerje të vogla në punën e sistemeve inxhinierike të qendrës së të dhënave gjatë ndërrimeve të planifikuara. Në të njëjtën kohë, disponueshmëria e qendrës së të dhënave mbeti brenda SLA, pasi kalimi zgjati sekonda. Megjithatë, nëse Sistemi i informacionit klienti nuk u ndal paraprakisht përpara ndërprerësve të tillë, atëherë baza e të dhënave në rast të dështimeve kërkonte rikuperim nga një kopje rezervë, e cila ndaloi punën e punonjësve për disa orë. Fikja/ndezja e sistemeve, përpara se të kalonte, korrigjonte pak situatën, por në të njëjtën kohë pati një ndërprerje të punonjësve për 25-30 minuta, gjë që shkaktoi edhe ankesa nga përdoruesit.

Ka kaluar një vit dhe tani Kolegu po merr me qira kapacitet në një re tjetër, ku disponueshmëria e njërës prej qendrave të të dhënave është më e ulët se sa më sipër, dhe koha e joproduktive është ulur ndjeshëm. Si mund të arrihet kjo dhe çfarë është e rëndësishme kur vlerësohet besueshmëria e zgjidhjeve cloud, dhe çfarë nuk është shumë e rëndësishme? Cilat janë mundësitë e kursimit, duke reduktuar rrezikun e mbipagesës "për numra të këndshëm", dhe jo për besueshmërinë aktuale? Si të nënvizoni parametrat kritikë të shërbimeve cloud për besueshmërinë e aplikacionit tuaj?

Përgjigjet e këtyre pyetjeve do të përpiqem t'i formuloj më tej.

Besueshmëria e aplikacionit - si grumbullohet në re

Besueshmëria e shërbimit të aplikacionit

Nëse përpiqemi të formulojmë përkufizimin e besueshmërisë së aplikacionit, atëherë do të tingëllojë kështu: "Besueshmëria është vetia e një aplikacioni për të ruajtur performancën me kalimin e kohës me të gjithë funksionalitetin e përfshirë në të".

Çfarë e përcakton performancën e aplikacionit dhe si lidhet besueshmëria e aplikacionit me disponueshmërinë e qendrës së të dhënave?

Aplikacioni bazohet në një platformë softuerike, e cila, nga ana tjetër, ndodhet në një platformë infrastrukturore duke përdorur një platformë inxhinierike, shih Fig. Së bashku, këto katër nivele ofrojnë "Shërbimin e Aplikimit".


Oriz. Një shembull i thjeshtuar i llogaritjes së disponueshmërisë së Shërbimit të Aplikimit

Siç shihet nga figura, kemi të bëjmë me një sistem elementësh sekuencialë, ku dështimi i çdo elementi çon në një dështim të sistemit në tërësi.

Disponueshmëria e një sistemi të tillë (As) përcaktohet si produkt i treguesve të disponueshmërisë së të gjithë elementëve:


A i - disponueshmëria e çdo komponenti të lidhur në mënyrë serike.
A s = 0,99995 0,99995 0,993 0998 ≈ 0,99091 ose 99,091

Siç mund ta shihni, disponueshmëria e Shërbimit të Aplikimit ka rëndësi larg disponueshmërisë së platformës inxhinierike të qendrës së të dhënave. Është e mundur të konvertohen shifrat e disponueshmërisë në vlerat e kohës së ndërprerjes së sistemit. Rezulton, megjithë kohëzgjatjen e lejuar vjetore të platformës inxhinierike, në 1 orë. 45 minuta, për shërbimin e aplikimit koha vjetore e joproduktive do të jetë 86 orë 22 minuta.

Prandaj, shkalla e lartë e disponueshmërisë së një qendre të dhënash nuk do të thotë të njëjtën besueshmëri të lartë të shërbimeve të aplikacionit që operojnë në këtë qendër të dhënash.

Besueshmëria e aplikacionit të rrjetit

Prandaj, kur zgjidhni ofruesit e shërbimeve, a do të ishte e drejtë të fokusoheshim në disponueshmërinë e përgjithshme të shërbimeve të aplikacionit? Fatkeqësisht, gjërat nuk janë aq të thjeshta këtu.

Rezulton se një zhvillues softuerësh është në gjendje të ndikojë në sigurimin e besueshmërisë (rezistencën ndaj dështimeve, ngarkesave) të një aplikacioni të caktuar. Për shembull, besueshmëria e një aplikacioni në cloud mund të përmirësohet ndjeshëm nëpërmjet përdorimit të bibliotekave të specializuara të fokusuara në trajtimin e vonesës së kërkesave të ekzekutuara. Aplikacionet e shkruara në mënyra standarde do të kenë tregues relativisht më të ulët të besueshmërisë.

Një nga opsionet për zbatimin e përdorimit të bibliotekave të specializuara nga Microsoft është Blloku i aplikacionit për trajtimin e përkohshëm të gabimeve (shih http://msdn.microsoft.com/en-us/library/hh680934(v=pandp.50).aspx).

Besueshmëria e platformës softuerike

Besueshmëria e platformës softuerike, duke përfshirë sistemi operativ, drejtuesit, bibliotekat, përsëri, mbetet "në anën e zhvilluesve" dhe, deri më tani, nuk varet fort nga ofruesi i shërbimit. Megjithatë, nëse ofruesi i shërbimit ka menduar për një politikë të duhur të mbështetjes teknike, atëherë kjo mund të ndikojë indirekt në disponueshmërinë.

E kam fjalën për pajisje sigurie “higjienike”. Para së gjithash, në lidhje me shërbimin e përditësimit të softuerit të sistemit. Duhet të përfshihet në portofolin e shërbimeve të ofruesit të shërbimit, ose akoma më mirë, duhet të përfshihet në çmimin e shërbimit “default”. Së dyti, është një shërbim mbrojtjeje anti-virus me një zgjedhje të programeve anti-virus. Dhe së treti, rezervë serverët virtualë të klientit. Këto nuk janë të gjitha, por mënyrat më të rëndësishme për të përmirësuar disponueshmërinë e Shërbimit tuaj të Aplikimit.

Besueshmëria e platformës së infrastrukturës

Ky komponent i besueshmërisë varet plotësisht nga ofruesi i shërbimit dhe duhet të vlerësohet nga ju në një nivel me disponueshmërinë e platformës inxhinierike të qendrës së të dhënave. Ju duhet ta kërkoni këtë parametër nga ofruesi juaj pasi zakonisht nuk renditet në materialet e marketingut. Në të njëjtën kohë, është e nevojshme të merret një shpjegim se si është llogaritur ky parametër.

Edhe pse duhet të kihet parasysh se jo të gjithë ofruesit e shërbimeve do të dëshirojnë të paraqesin të dhëna të tilla, pasi nga llogaritja bëhet e qartë diagrami strukturor i zgjidhjes së infrastrukturës dhe pajisjeve të përdorura - dhe kjo është një njohuri e caktuar.

Megjithatë:

  • Kërkoni një diagram të strukturës funksionale të platformës së infrastrukturës për të pritur Shërbimin tuaj të Aplikimit. Ai duhet të përfshijë:
    • Infrastruktura e rrjetit;
    • Rrjeti i zonës së ruajtjes;
    • Infrastruktura kompjuterike.
  • Kërkoni të tregoni në këtë diagram vendet e rezervimit të pajisjeve. Nuk është e nevojshme të tregohet lloji i pajisjes së përdorur.
  • Kërkoni disponueshmërinë (ose gatishmërinë) për çdo nivel.
  • Llogaritni disponueshmërinë si produkt i disponueshmërisë së elementeve të platformës së infrastrukturës.

Tani ju keni mundësinë të përcaktoni disponueshmërinë e shërbimit të aplikacionit tuaj sa më saktë që të jetë e mundur. Bazuar në përvojën tonë, 90% e sipërmarrjeve të përbashkëta në Rusi kanë një disponueshmëri totale prej jo më shumë se 99%. Dhe ky është rreziku i pushimit deri në 87 orë në vit. Këto janë norma normale të disponueshmërisë nëse nuk keni aplikacione kritike për biznesin që ju kushtojnë miliona dollarë në një orë pushim. Dhe nëse një ndalesë për një orë është e ngjashme me një fatkeqësi për biznesin tuaj, atëherë mbetet 10% e mbetur për ju, sipërmarrje të përbashkëta që ofrojnë shërbim në nivel ndërmarrje me disponueshmërinë e Shërbimit të Aplikimit në nivelin 99,99%. Si arrihet kjo në pjesën tjetër.

Zgjidhje për Disponueshmëri të Lartë të Shërbimit të Aplikimit

Si rezultat, klientit nuk i intereson se si respektohet SLA për sistemet inxhinierike; është e rëndësishme për të se cila është disponueshmëria e shërbimit të aplikacioneve të tij, d.m.th. - Koha e garantuar e rikuperimit për aplikacionin.

Sistemet që diskutuam më parë kishin një strukturë sekuenciale. Disponueshmëria, të cilën e konsideruam më lart si produkt i elementeve individuale, është kufiri teknik i ofruar nga sisteme të tilla. Në fakt, për shkak të shfaqjes së faktorëve të ndryshëm shtesë, disponueshmëria është edhe më e ulët. E mbani mend në fillim të artikullit historinë për një ndërprerje të dytë të energjisë dhe pesë orë pushim?

A është e mundur të rritet disponueshmëria e një aplikacioni nëse parametrat e disponueshmërisë së një qendre të caktuar të dhënash janë caktuar dhe nuk mund të ndryshohen?

Përgjigja është se ju mundeni.

Për shembull, këtu janë dy qasje që ju lejojnë ta bëni këtë:

  • Grup me disponueshmëri të lartë të shpërndarë gjeografikisht;
  • Rikuperimi i përpunimit në një qendër të dhënash rezervë të largët gjeografikisht (Rikuperimi nga fatkeqësia).

Oriz. Bllok diagrami i një grupi me disponueshmëri të lartë të shpërndarë gjeografikisht


Oriz. Bllok diagrami për rivendosjen e përpunimit në një qendër të dhënash rezervë të largët gjeografikisht

Qasja e parë është ideale nga pikëpamja e disponueshmërisë (rikuperimi i performancës ndodh në sekonda), por humbet në çmim dhe është mjaft i vështirë për t'u zbatuar. Qasja e dytë rikthen shërbimin nga një kopje e punës - nuk është aq e shpejtë dhe një pjesë e vogël e të dhënave në rast të një dështimi do të duhet të rikthehet manualisht, por ky opsion ka një kosto më të ulët dhe është më i lehtë për t'u zbatuar.

Në të dyja rastet, është e nevojshme të flitet për largësinë gjeografike të qendrave të të dhënave në mënyrë që të shmanget maksimalisht mundësia e burimeve të ndërlidhura. Për shembull, përdorimi i të njëjtave nënstacione që ofrojnë energji për qendrat e të dhënave. Ju mund të kujtoni ndërprerjen e energjisë në juglindje të Moskës në maj 2008 për shkak të një zjarri në nënstacionin Chaginskaya, Nju Jork 2003. Prandaj, qendra e të dhënave rezervë duhet të jetë e vendosur më larg nga ajo kryesore.

Qasja me dy qendra të dhënash na lejon të flasim për krijimin e një sistemi me elementë paralelë. Në të njëjtën kohë, nga njëra anë, qendrat kryesore dhe rezervë të të dhënave janë sisteme të pavarura, nga ana tjetër, ato janë një platformë e zakonshme për shërbimin e aplikacionit - pavarësisht se në cilën qendër të të dhënave po funksionon aplikacioni aktualisht, ai mund të lëvizë. nga një qendër të dhënash në tjetrën.

Dallimi themelor midis një sistemi paralel është se besueshmëria rritet me rritjen e elementeve paralele të sistemit. Llogaritja e disponueshmërisë së një sistemi të përbërë nga elementë paralelë mund të kryhet duke përdorur formulën:

Ku: A s - Disponueshmëria totale, disponueshmëria e të gjithë sistemit,
A i - disponueshmëria e çdo komponenti të lidhur paralelisht.

Për shembull, le të llogarisim një sistem të një grupi me disponueshmëri të lartë të shpërndarë gjeografikisht me dy qendra të dhënash me disponueshmëri 99%, secila.

A s = 1- (1-0,99) * (1-0,99) = 0,9999 ose 99,99

Kjo do të thotë, dy qendra jo më të besueshme të të dhënave mund të ofrojnë disponueshmëri në nivelin e sistemeve kritike për misionin.

Për të përcaktuar disponueshmërinë e shërbimit të aplikacionit në opsionin e rivendosjes së përpunimit në një qendër të dhënash rezervë gjeografikisht të largët me një interval sinkronizimi 15-minutësh për rastin e një dështimi të vetëm, llogaritet si më poshtë: duhet të kërkoni kohën e rikuperimit të shërbimin e aplikimit, të garantuar nga sipërmarrja e përbashkët; atëherë ne llogarisim përqindjen e intervalit vjetor - dhe zbresim rezultatin nga një. Ne marrim disponueshmërinë pas dështimit të parë. Për shembull, për një sistem me një interval sinkronizimi prej 15 minutash:

Numri i përgjithshëm i orëve në një vit është 365 * 24 = 8760
Koha e garantuar joproduktive = Koha maksimale e ndërprerjes
15 minuta ose 0,25 orë, që është ≈ 0,003 e kohës vjetore

ato. çdo dështim do të ketë një peshë prej 0.003%. Kështu, sistemi para dështimit të sistemit ka një disponueshmëri të barabartë me 100%, pas dështimit të parë, 99,997%, pas dështimit të dytë 99,994%. Le të llogarisim të njëjtën gjë për një sistem me një interval sinkronizimi për orë:

Koha e garantuar e rikuperimit = Koha maksimale joproduktive = 1 orë, që është ≈ 0,01 e kohës vjetore

Çdo dështim do të ketë një peshë prej 0.01%. Kështu, sistemi para dështimit të sistemit ka një disponueshmëri të barabartë me 100%, pas dështimit të parë, 99,99%, pas dështimit të dytë 99,98%. Më tej, adhuruesit e teorisë së probabilitetit mund të praktikojnë në vlerësimin e probabilitetit të shfaqjes së dështimeve të parë, të dytë dhe të tretë. Rezultati do t'ju bindë se ndikimi i këtij faktori është i papërfillshëm në rezultatet e marra. Kjo më lejon të rekomandoj një metodologji të sugjeruar për vlerësimin e disponueshmërisë së shërbimeve për aplikacionet tuaja në re.

Në përmbledhje...

  • Filloni duke vlerësuar kritikën e biznesit të aplikacionit që planifikoni të presëni në re. Llogaritni koston e kohës së ndërprerjes së aplikimit. Sa do t'ju kushtojë mungesa e shërbimit të aplikimit?
  • Prej këtu, vlerësoni vlerën e pranueshme të kohës së ndërprerjes në ditë, në vit. Llogaritni disponueshmërinë kritike të shërbimit të aplikacionit.
  • Krahasoni koston e mundshme të joproduktive me çmimet e JV që ofrojnë disponueshmëri të arsyeshme për aplikacionet tuaja.
  • Kur zgjidhni një sipërmarrje të përbashkët, jepni përparësi dikujt që mund të sigurojë jo vetëm nivelin aktual të disponueshmërisë, por gjithashtu, si një shërbim / shërbim shtesë, të sigurojë një përmirësim të disponueshmërisë. Sidomos nëse biznesi juaj po rritet dhe po zhvillohet.
  • Dhe qëndroni të praktikuar. Merr atë që japin për të prekur = test. Teoria pa praktikë nuk është shumë e dobishme për biznesin.