Co to jest wysoka dostępność? SLA dla IaaS: Rzeczywiste gwarancje dla wysokiej dostępności wirtualnej infrastruktury IT jako usługi.

Usługi infrastruktury IT jako usługi (IaaS) stają się coraz bardziej popularne dzięki klienci korporacyjni i są już używaneoraz do zastosowań o znaczeniu krytycznym. Czas to rozgryźćco gwarantują dostawcy tych usług i jaką odpowiedzialność ponoszą w przypadku spowolnienia lub całkowitej niedostępności wirtualnej infrastruktury IT.

Po przeprowadzeniu wywiadów z czołowymi dostawcami usług infrastruktury IaaS klasy korporacyjnej przeanalizowaliśmy ich ofertę. Jednocześnie „poziom korporacyjny” oznacza: platforma chmurowa jest wdrożona w centrum danych spełniającym wymogi Tier III (obecność certyfikatu Uptime Institute nie jestwymagane) i zapewnia wysoki poziom odporności dzięki mechanizmom wysokiej dostępności (HA) i relokacji maszyn wirtualnych w przypadku awarii.

DOSTĘPNOŚĆ I CZAS ODPOWIEDZI

Głównymi parametrami usługi IaaS, które zwykle są wskazane w umowie SLA, są poziom jej dostępności, czas reakcji na różne incydenty i czas ich rozwiązania oraz schemat i parametry rekompensaty w przypadku przestoju.

Decydując się na wirtualną infrastrukturę IT, możesz spokojnie liczyć na dostępność na poziomie 99,5% i wyższym. Przynajmniej żaden z ankietowanych dostawców nie podał niższej liczby. Ponadto przedstawiciele wielu firm podkreślali, że wartość wskazana w ich odpowiedziach (patrz tabela 1) jest typowa i na życzenie klienta poziom dostępności można zwiększyć różnymi środkami technicznymi.

Zazwyczaj platformy IaaS klasy korporacyjnej są hostowane w centrach danych (wewnętrznych lub zewnętrznych), które spełniają poziom odporności na uszkodzenia Tier III, o którym wiadomo, że mają 99,98% dostępności. Wskazane przez dostawców wartości dostępności wirtualnych infrastruktur IaaS nie przekraczają odpowiedniej charakterystyki fizycznej lokalizacji, co jest całkiem naturalne.

Wyjątkiem jest 99,99% dostępności zapewniana przez Dataline w trybie klastra metro. Ta opcja jest odporna na katastrofy chmura obejmuje dwa centra danych firmy - więcej informacji na temat klastra metra można znaleźć w materiale „Chmura odporna na katastrofy w cenie„ bezchmurnej” opublikowanym w październikowym numerze „Journal of Network Solutions / LAN ” dla 2013 ().

Co do zasady dostawca może wskazać w umowie SLA arbitralnie wysoką dostępność, co najmniej 100%, ale wtedy ryzykuje większą stratę niż zarabianie, ponieważ każdy rozsądny nabywca będzie wymagał sztywnego systemu rekompensat za niespełnienie uzgodnionych warunków w kontrakcie. Choć nie opracowano jeszcze standardowego schematu – każdy dostawca oferuje coś innego, więc kupujący musi ocenić proponowaną rekompensatę, biorąc pod uwagę ewentualne straty finansowe w przypadku przestoju usług IT.

Wiele firm oferuje pewien zwrot miesięcznej opłaty (w procentach) za każdą dodatkową (powyżej określonej w umowie SLA) godzinę niedostępności usługi. Przykładowo, przy określonym w umowie SLA poziomie dostępności na poziomie 99,95% (czas bezczynności nie dłuższy niż 1 godzina miesięcznie), Inoventica jest gotowa do zwrotu 2% miesięcznej opłaty za każdą dodatkową godzinę odłączenia od usługi. Cloud4Y w wersji standardowej rekompensuje 1% za 1 godzinę przestoju (w obliczeniach całkowity koszt usługi w pełnym zakresie miesiąc kalendarzowy poprzedzającym ten), ale nie więcej niż 50% kosztów usługi.

Szereg dostawców przedstawiło szczegółowe obliczenia dotyczące różnic w wysokości rekompensaty w zależności od poziomu dostępności (zob. tabela 2). W przypadku znacznego spadku tego poziomu oferowane jest bardzo wysokie odszkodowanie. Na przykład, jeśli wartość jest mniejsza niż 95%, „Onlanta” (GC „Lanit”) pozwala na obniżenie poziomu płatności za usługę nawet o 40%. A firma „IT-Grad”, jeśli poziom dostępności spadnie poniżej 96,71%, obiecuje rekompensatę w wysokości 50%. Oczywiste jest, że dostawcy uważają, że takie pogorszenie jakości usług jest mało prawdopodobne.

„Wprowadziliśmy dwie niezależne zasady odszkodowań: za naruszenie docelowych wskaźników parametrów usługi i docelowych wskaźników przetwarzania wniosków” – mówi Vitaly Mzokov, Head of Cloud Services and Infrastructure Solutions z Servionica (I-Teco Group of Companies). - Naruszenie docelowych wskaźników parametrów usługi jest rekompensowane w skali progresywnej. W zależności od faktycznego poziomu dostępności obliczany jest wskaźnik rekompensaty wyrażony jako procent kwoty faktury za korzystanie z usługi. Odszkodowanie za naruszenie docelowych wskaźników przetwarzania żądań jest obliczane na podstawie czasu oczekiwania klienta z dokładnością do minuty.”

Zgodnie z praktyką przyjętą w firmie Servionica, rodzaje zgłoszeń klientów, a także ogólne cele dotyczące maksymalnego czasu odpowiedzi na zgłoszenia oraz maksymalnego czasu rozwiązania problemu opisane są w regulaminie interakcji serwisowej. A w samej umowie SLA wskaźniki te są określone dla konkretnej usługi.

„Zgodnie z umową klient może otrzymać od nas kilka usług. Dlatego przepisy opisują ogólne wskaźniki z dopiskiem: „Cele określone w SLA dla konkretnej usługi pokrywają się ze wskaźnikami określonymi w regulaminie.” Odbywa się to po to, aby w razie potrzeby można było określić (wydłużyć lub skrócić) czas reakcji i czas rozwiązania – wyjaśnia Witalij Mzokow. - Jesteśmy zobowiązani odpowiedzieć na wszelkiego rodzaju prośby w ciągu 15 minut. Maksymalny czas rozwiązania, w zależności od rodzaju i priorytetu wniosku, waha się od 1 godziny (w przypadku incydentów o priorytecie nr 1) do 48 godzin (w przypadku wniosków, dla których wymagane jest pełne przeanalizowanie wniosku klienta o informacje – np. dostarczanie informacji o taryfach i innych usługach, różnych wyjaśnieniach i instrukcjach).

Czas odpowiedzi na aplikację zwykle zależy od jej priorytetu. Na przykład poziomy priorytetów praktyk Linxdatacenter to:

  • Krytyczny - usługa jest całkowicie niedostępna, konieczne jest podjęcie pilnych działań w celu przywrócenia, czas reakcji wynosi 15 minut, czas odzyskiwania nie przekracza 4 godzin;
  • Wysoki - usługa częściowo niedostępna, czas reakcji do 1 godziny, podwyższony priorytet;
  • Normalny - wyjaśnienie parametrów usługi, aktualne pytania niepilne, czas reakcji do 1 godziny, 24 godziny na przygotowanie odpowiedzi.

Tabela 3 pokazuje kolejny przykład – kategoryzację zapytań stosowaną przez Cloud4Y; czas reakcji - nie więcej niż 30 minut.

Starają się pracować szybko w T-Systems. Według Wsiewołoda Egupowa, dyrektora sprzedaży działu ICT T-Systems RUS, specjaliści tej firmy „w 80% przypadków odpowiadają w ciągu 30 sekund” (!). Ale, jak większość naszych respondentów, zauważył, że czas reakcji zależy od krytyczności sytuacji.

NARZĘDZIA DO MONITOROWANIA

Nie wystarczy wskazać w umowie SLA atrakcyjny poziom dostępności i sztywne schematy rekompensat, konieczne jest również zapewnienie klientowi wygodnego i skuteczne narzędzie kontrola. I tutaj podejścia dostawców znacznie się różnią.

Odnosząc się do praktyki firmy Servionika, Witalij Mzokow zauważa, że ​​klientom bardziej zależy na otrzymywaniu przejrzystych i dokładnych raportów od operatora niż na opanowaniu specjalnych narzędzi do samodzielnego monitorowania. Co do zasady Servionica dostarcza comiesięczne raporty dotyczące uzgodnionego zestawu parametrów, ale na życzenie klienta umowa może przewidywać częstsze raportowanie.

Wiele firm domyślnie udostępnia raporty o stanie usług raz w miesiącu, ale mogą też częściej – na życzenie klientów. Przykład raportu oferowanego przez Onlantę pokazano na rysunku 1. Według Michaiła Lyapina, szefa działu chmury, Onlanta jest jedyną firmą w Rosji, która dostarcza klientom tak szczegółowy raport o dostępności chmury. Według niego większość usługodawców radzi sobie ze statystykami dotyczącymi poziomu dostępności maszyn wirtualnych.

Wiele firm oferuje klientom samoobsługową konsolę online. Według Ruslana Zayedinova, zastępcy dyrektora generalnego, szefa Data Center i Cloud Computing w Croc, każdy konsument usługi IaaS ma dostęp do takiej konsoli z wbudowaną możliwością monitorowania online działania niektórych komponentów. Np. w przypadku maszyn wirtualnych informatycy klienta mogą monitorować jak bardzo obciążony jest procesor, jak pracuje I/O, ile pamięci jest zajęte itp. Dane te są dostępne w czasie rzeczywistym, jak również - na żądanie - w formie statystyk za dowolny okres.

CZY MUSZĘ GWARANTOWAĆ WYDAJNOŚĆ?

Oczywistym jest, że wraz ze wzrostem obciążenia platformy IaaS dostawcy możliwa jest degradacja poziomu wydajności maszyny wirtualnej. Dostawcy usług zobowiązują się do tego, aby temu zapobiec. Wszystkie firmy się z tym zgadzają. Jednak niektóre zawierają metryki wydajności w umowie SLA, podczas gdy inne uważają, że taka miara jest zbędna.

Oto, co mówi na ten temat Vitaly Slizen, członek zarządu Inoventica: „Nie obserwujemy degradacji [produktywności] nawet przy wzroście obciążenia, ponieważ na czas rozbudowujemy i unowocześniamy możliwości centrów danych. Oddzielnie w umowie SLA te parametry (wydajność maszyn wirtualnych i pamięci masowej) nie są uwzględniane, ponieważ ich przestrzeganie jest naszym głównym obowiązkiem, niezależnie od życzeń klientów.” Specjaliści Inoventica stale monitorują wszystkie główne parametry dzierżawionych obiektów infrastruktury, co pozwala im szybko otrzymywać informacje o potencjalne problemy i przewidywać je w odpowiednim czasie.

Igor Drozdov, kierownik pomoc techniczna Sales Linxdatacenter: „Nasza firma zapewnia gwarantowane zasoby obliczeniowe do wykorzystania. Są zarezerwowane w chmurze i rosną wraz ze wzrostem liczby klientów, dzięki czemu wydajność maszyn wirtualnych i systemów pamięci masowej pozostaje na niezmiennie wysokim poziomie. Ponadto zapewniamy terminowe aktualizacje serwerów i monitorowanie wydajności za pomocą dedykowanych produktów VMware.”

Orange Business Services jest również jednym z dostawców usług, który nie reguluje parametrów wydajnościowych w standardowej umowie SLA. Jednocześnie, jak zauważył Dmitrij Dorodnykh, kierownik ds. rozwoju ujednoliconej komunikacji i produktów IT w Orange Business Services w Rosji i WNP, „jeśli klient wymaga zagwarantowania określonych zasobów obliczeniowych dla swoich maszyn wirtualnych, korzystamy z standardowe środki nowoczesne platformy wirtualizacyjne, które umożliwiają przeniesienie maszyn wirtualnych na inne serwery w przypadku rywalizacji o zasoby.”

Wsiewołod Egupow uważa, że ​​dodawanie cech wydajności do umowy SLA „nie ma sensu, ponieważ degradacja wpływa na poziom dostępności usług regulowany umową”. W T-Systems nad wydajnością maszyn wirtualnych i systemów pamięci masowych czuwa dział zarządzania pojemnością, którego specjaliści odpowiadają za zapobieganie jej degradacji.

Istnieje również sporo firm, które uważają, że dodawanie cech wydajności do umowy SLA jest wskazane. Najwęższy punkt W zwirtualizowanym środowisku IT wydajność pamięci masowej jest uważana przez wielu ekspertów za wydajność pamięci masowej, dlatego większość dostawców pamięci masowych zwraca szczególną uwagę na parametry pamięci masowej, takie jak operacje wejścia/wyjścia na sekundę (IOPS).oraz czas dostępu do dysku (opóźnienie).

Dataline udostępnia metryki wydajności pamięci masowej i maszyn wirtualnych w każdej umowie SLA (patrz Tabela 4). Jednocześnie, według Dmitrija Tishina, szefa działu rozwoju usług tej firmy, „w zależności od wymagań stawianych krajobrazowi systemowemu przez klienta, metryki można zmienić”. Wartości IOPS są mierzone przez system monitorowania NetApp DFM, a czas dostępu do dysku wynosi regularne środki Oprogramowanie do wirtualizacji (vCenter). W przypadku problemu z maszyną wirtualną, dyżurna zmiana i inżynierowie zespołu wirtualizacji są ostrzegani. Ponadto Dataline zapewnia monitorowanie różnych parametrów na poziomie systemu operacyjnego i uruchomionych w nim usług. Jeżeli klient korzysta z usług administrowania systemem operacyjnym i usługami firmy, taki monitoring jest wykonywany domyślnie.

Aby zapobiec degradacji wydajności maszyny wirtualnej, specjaliści Dataline stosują zestaw środków. Tak więc dla klastra wykorzystywany jest mechanizm Distributed Resource Scheduler (DRS), który monitoruje obciążenie serwerów fizycznych według głównych parametrów - w przypadku osiągnięcia określonego obciążenia serwera część maszyn wirtualnych jest automatycznie przenoszona na inną . W klastrze utrzymywana jest redundancja serwerów, tak aby obciążenie całego klastra nie przekraczało 70%. W ramach zawartych umów serwisowych z dostawcami sprzętu, możliwości zasobowe klastrów mogą być zwiększane zgodnie z harmonogramem.

Safedata reguluje również parametry wydajności, takie jak IOPS i MIPS w umowie SLA. „Nie możemy obniżyć wydajności poniżej wartości określonych w umowie SLA”, mówi Anton Antonov, szef sprzedaży w Safedata. „Jeżeli obserwuje się pogorszenie jakości usług wraz ze wzrostem obciążenia serwerów fizycznych, uruchamiane są dodatkowe zapasowe hosty EXSi”.

Charakterystykę wydajności systemu dysków pamięci masowej uregulowanego w SLA Cloud4Y przedstawiono w Tabeli 5. Według Jewgienija Bessonowa, kierownika Działu Marketingu Cloud4Y, w przypadku naruszenia gwarantowanych wskaźników wydajności CPU, HDD, RAM, przewidziano wynagrodzenie, które jest negocjowane osobno lub płatne według standardowych warunków: 1% miesięcznego kosztu za 1 godzinę.

„Gwarantujemy wydajność maszyn wirtualnych na niższym limicie, bez ograniczania jej z góry”, mówi Ruslan Zaedinov. „Tak więc, jeśli serwer, na którym znajduje się maszyna wirtualna, ma wolne zasoby obliczeniowe przekraczające gwarantowane, będą one dostępne dla klienta”. Jeśli chodzi o systemy pamięci masowej, obecnie wszyscy klienci Croc korzystają ze wspólnego kanału komunikacji z systemami pamięci masowej. Przez długi czas nie stanowiło to problemu, ale teraz, wychodząc naprzeciw rosnącym potrzebom klientów, firma migruje pamięć masową w chmurze z dysków Fibre Channel i SATA na dyski flash z bezpośrednim dostępem do nich z maszyn wirtualnych przez Infiniband sieć. Równolegle wdrażane jest oprogramowanie zapewniające gwarantowaną przepustowość systemu przechowywania danych w chmurze. Odpowiednie zmiany w SLA zostaną wprowadzone jesienią tego roku.

Zgodnie z ustaleniami z klientem, Servionica naprawia wskaźniki wydajności poszczególnych komponentów platformy chmurowej w SLA każdego projektu. Ponadto umowa określa sposób mierzenia tych wskaźników oraz częstotliwość pomiarów. „Każdy operator może zapisać” gwarantowane 100 500 OP na 1 GB miejsca na dysku”, ale nie każdy jest w stanie udowodnić, że to kryterium jest spełnione. Jesteśmy za najbardziej przejrzystą relacją między operatorem platformy w chmurze a jej konsumentem ”- podkreśla Witalij Mzokow. Wydajność maszyn wirtualnych i systemów pamięci masowej jest określona w umowie SLA Servionica przez IOPS i opóźnienia.

Jak powiedział Maxim Zacharenko: główny menadżer usługodawca „Oblakoteka”, w zawieranych umowach wskaźniki wydajności szczytowej są regulowane w taki sposób, aby obciążenie wejścia-wyjścia i przepustowości sieci nie przekraczało 80%. Monitoring realizowany jest za pomocą systemu Microsoft SCOM. Zauważa, że ​​dla różne systemy ważne są różne wskaźniki: dla stron internetowych - czas odpowiedzi, dla umieszczenia infrastruktury IT - wskaźniki szczytowego procesora, pamięci, sieci wirtualnej itp. Firma uwzględnia również gwarantowane parametry kopii zapasowych, metody i warunki udostępniania i przechowywania w swojej SLA dane użytkownika ( „Uczciwe rozstanie”).

SLA NA PRZECIĘCIE KRZYŻOWE

Bez względu na to, jak wysoka jest niezawodność samej platformy IaaS, zlokalizowanej w odpornym na awarie centrum danych, kanały dostępu do tej platformy mogą stać się wąskim gardłem dla klienta. Dobrą wiadomością jest to, że wielu dostawców, z którymi rozmawialiśmy, ma kompleksowe umowy SLA, które obejmują zarówno samą usługę IaaS, jak i kanały dostępu. Co więcej, według nich, w właściwa organizacja i redundancji kanałów, poziom dostępności komunikacyjnej nie jest niższy niż w przypadku platformy SLA, a zatem ta ważna cecha nie zmniejsza się w przypadku SLA end-to-end.

Jednak, jak zauważa Wsiewołod Egupow, zmniejszenie lub utrzymanie poziomu dostępności zależy od sposobu organizacji kanałów komunikacji – jeśli kanał jest zarezerwowany, dostępność nie pogarsza się. W przeciwnym razie poziom dostępności w kompleksowej umowie SLA jest redukowany do poziomu dostępności kanału. T-Systems RUS posiada własną sieć centrów danych zlokalizowanych na całym świecie. Obsługa klientów rosyjskich odbywa się głównie z centrów danych zlokalizowanych w Niemczech i Austrii. Firma podpisała umowę SLA z Rostelecom, Beeline i współpracuje z innymi operatorami telekomunikacyjnymi.

Ci dostawcy usług IaaS, którzy są również przewoźnikami, korzystają z tej przewagi. W ten sposób, będąc międzynarodowym operatorem telekomunikacyjnym, Orange Business Services praktykuje zawieranie kompleksowej umowy SLA obejmującej IaaS i usługi telekomunikacyjne. Poziom dostępności w takim SLA wynosi 99,95%. Ale, jak wyjaśnia Dmitrij Dorodnykh, ta cecha zależy od położenia geograficznego klienta - na przykład w regionie centralnym ten poziom jest wyższy niż za Uralem i na Syberii. Ostatnia mila może mieć własne parametry SLA. Schematy i mechanizmy kontroli SLA na kanałach komunikacji są wypracowane już od dziesięcioleci, więc kwestia monitoringu nie stanowi problemu dla Orange Business Services.

Jak zauważa Witalij Slizen, Inoventica posiada własne, szkieletowe kanały komunikacyjne oraz rozproszoną geograficznie sieć data center, co umożliwia realizację geoklastrów. Pozwala to na zachowanie wydajności danych i usług nawet w przypadku fizycznego zniszczenia jednego z centrów danych. Według niego, Inoventica jest „jedyną firmą na Rynek rosyjski zapewnienie pełnego łańcucha usług „Data Center – Channel – Service – Client (AWS)” zgodnie z umową SLA, która jest minimum dlaopóźnienie podróży w obie strony mniejsze niż 10 ms i prawie zerowa utrata pakietów.” Obecnie kompleksowe rozwiązanie Inoventica jest dostępne dla klientów w pięciu okręgach federalnych Federacji Rosyjskiej.

Dostawcy usług IaaS niebędący operatorami aktywnie współpracują z przewoźnikami. W ten sposób Servionika zawarła umowę SLA na współpracę z operatorami telekomunikacyjnymi obsługującymi jej centrum danych (czyli ponad 10 dużych operatorów telekomunikacyjnych). Firma tłumaczy warunki tych SLA w umowach z klientami korzystającymi z usług komunikacyjnych. A kontrolę nad przestrzeganiem umowy SLA zapewniają usługi techniczne centrum danych TrustInfo. „Wskazujemy w naszych umowach takie same parametry SLA jak operatorów, czyli bierzemy odpowiedzialność za jakość ich pracy i nieprzerwane udostępnianie kanałów komunikacji” – zauważa Witalij Mzokow.

Aby zapewnić klientom kanały komunikacji, Dataline korzysta z usług operatorów telekomunikacyjnych w ramach podwykonawstwa. Przy takim schemacie firma kontroluje jakość w ramach umowy z operatorem, a klient otrzymuje od niej kompleksową obsługę i obsługuje tylko jednego kontrahenta. Poziom dostępności to kompleksowa obsługa nie zmniejsza się. Dataline posiada własną sieć transmisji danych w Moskwie, w której gwarantowane są następujące cechy: udział utraconych pakietów nie przekracza 0,2%, średnie opóźnienie sieci nie przekracza 5 ms.

Według Rusłana Zaedinowa, Krok korzysta z szerokich kanałów, których przepustowość jest wystarczająca dla wszystkich klientów w chmurze. Technicznie ważne gwarancje są zapewniane przez redundancję międzykanałową między różnymi centrami danych Krok przy użyciu własnego pierścienia optycznego. Dla tych organizacji, dla których stała przepustowość kanału komunikacyjnego jest krytyczna, firma wdraża indywidualne połączenie z chmurą oddzielnymi kanałami z gwarancją wydajność a nawet „ciemna” optyka. Takie połączenie jest najczęściej wyposażone w indywidualne narzędzia szyfrujące, w tym certyfikowane.

Tak więc usługi IaaS są oferowane w Rosji przez dość dużą liczbę firm i zgodnie z całkiem zrozumiałymi i udokumentowanymi (w SLA) zasadami. Branża musi jeszcze dojść do porozumienia, czy charakterystyka wydajności wirtualnych infrastruktur IT powinna być uregulowana w umowach SLA, ale wskaźniki gwarantowanej dostępności wydają się być całkiem akceptowalne nawet dla najbardziej wymagających klientów korporacyjnych. Ponadto dostawcy rozumieją potrzebę klientów w zakresie kompleksowych umów SLA i pracują nad ich ulepszeniem.

Aleksander Barskow- Redaktor naczelny „Journal of Network Solutions/LAN”. Możesz się z nim skontaktować pod adresem:

, autor Stewart Rens(Rance Stuarta).

Ogromne znaczenie ma dostępność usług IT. Gdy usługi, których potrzebuje klient, nie będą dostępne, będą niezadowoleni. Dlaczego klient miałby płacić za usługę, która w rzeczywistości nie istnieje, kiedy jej potrzebuje? Z tego powodu do wskaźnika KPI często dołącza się spójną metrykę dostępności usług.

Personel IT dokłada wszelkich starań, aby osiągnąć założony cel i aby pokazać klientom dane liczbowe w raportach, aby to udowodnić. Zazwyczaj firmy IT stosują w tym celu wartości procentowe, na przykład 99,999%. Niestety często oznacza to, że skupiają się tylko na procentach i tracą z oczu swój prawdziwy cel, jakim jest bycie wartościowym dla klienta.

Procentowy problem z dostępnością

Jeden z najprostszych sposobów obliczania dostępności opiera się na dwóch częściach. Uzgadniasz przedziały czasowe, w których usługa powinna być dostępna w okres sprawozdawczy... Jest to uzgodniony czas obsługi (AST). Mierzysz czas przestoju (DT) w tym okresie. Odejmij czas przestoju od uzgodnionej dostępności usługi i przelicz go na wartość procentową.

Jeśli AST wynosi 100 godzin, a przestój to 2 godziny, dostępność wyglądałaby następująco:

Problem polega na tym, że chociaż to obliczenie jest dość proste, podobnie jak gromadzenie danych, w rzeczywistości nie jest całkowicie jasne, który wskaźnik dokładnie odzwierciedla liczbę otrzymaną w wyniku obliczeń. Porozmawiam o tym trochę później.

Co gorsza, z perspektywy klienta możesz komunikować, że osiągnąłeś ustalone cele, pozostawiając go całkowicie niezadowolonego.

Istotny raport o dostępności powinien opierać się na wymiarach opisujących rzeczy interesujące klienta, takie jak możliwość wysyłania i odbierania. e-maile lub wypłacić gotówkę z bankomatów, a ogólny procent wydaje się nie być w stanie.

Definiowanie celów dostępności

Jeśli chcesz mierzyć, dokumentować i raportować dostępność w sposób korzystny dla Twojej organizacji i klientów, musisz zrobić dwie rzeczy. Najpierw zdefiniuj kontekst i wzmocnij znaczenie „dostępności” dla Ciebie i Twoich klientów. Aby to zrobić, musisz z nimi porozmawiać.

Po drugie, musisz dokładnie przemyśleć szereg praktycznych pytań: co będziesz mierzyć, w jaki sposób będziesz gromadzić dane, jak to udokumentujesz i jak będziesz raportować swoje wyniki.

Komunikacja z klientami

Zanim podejmiesz jakiekolwiek działania, musisz zrozumieć, co jest ważne dla Twoich klientów i jaki wpływ ma na nich utrata dostępności. Pozwala to na ustalenie realistycznych celów, które uwzględniają ograniczenia technologiczne, budżetowe i kadrowe.

Ale co konkretnie powinieneś powiedzieć swoim klientom? Wpływ przestoju może być świetnym punktem wyjścia do rozmowy. Poniżej znajduje się pięć pytań, które powinieneś zadać:

  1. Jakie funkcje biznesowe są krytyczne i mają najwyższy priorytet w ochronie przed przestojami?
  2. Jak przestój wpływa na biznes?
  3. Jak częstotliwość przestojów wpływa na biznes?
  4. Jaki jest wpływ przestojów na wydajność organizacji?
  5. Jak klienci organizacji postrzegają te wymuszone przestoje?

Funkcje krytyczne dla biznesu

Większość usług IT obsługuje wiele procesów biznesowych, z których niektóre są krytyczne, a inne mniej ważne. Na przykład bankomat może obsługiwać wydawanie gotówki i drukowanie czeków. Możliwość wydawania gotówki ma kluczowe znaczenie, natomiast niemożność wydrukowania czeku ma znacznie mniejsze znaczenie.

Musisz porozmawiać z klientami i określić znaczenie poszczególnych funkcji dla firmy. Możesz utworzyć arkusz kalkulacyjny, który podkreśla biznesowe konsekwencje przestoju każdej z tych funkcji. Przykład:

Tabela 1 – Znaczenie usług w procentach

NB: Liczby nie powinny sumować się do 100%

Z tej tabeli widać, że ta usługa nie ma żadnego znaczenia, jeśli nie ma możliwości wysyłania i odbierania wiadomości e-mail, a jej wartość zmniejsza się do połowy normalnego poziomu, jeśli nie można odczytać folderów publicznych. To każe IT skupić się na jakości usług pocztowych.

Czas trwania i częstotliwość przestojów

Musisz dowiedzieć się, jak częstotliwość i czas przestojów wpływa na działalność klienta.

Wspomniałem już, że dostępność procentowa może być niewystarczająca. Gdy usługa, która ma być dostępna przez 100 godzin, ma 98% dostępności, oznacza to, że wystąpiły dwie godziny przestoju. Ale może to oznaczać jeden dwugodzinny incydent lub kilka krótszych incydentów. Względny wpływ pojedynczego trwałego incydentu lub serii krótkich incydentów będzie się różnić w zależności od charakteru działalności i procesów biznesowych.

Na przykład rozliczenia, które trwają dwa dni i muszą być ponownie uruchamiane po każdej przerwie, będą miały poważny wpływ na każdą krótką przerwę, ale jedna wymuszona przerwa trwająca przez dłuższy czas może mieć znacznie mniejsze znaczenie. Z drugiej strony jednominutowy przestój może w żaden sposób nie wpłynąć na działanie sklepu internetowego, ale już po dwóch godzinach może doprowadzić do znacznej utraty klientów. Gdy zrozumiesz prawdopodobny wpływ przestojów na biznes, możesz stworzyć znacznie wydajniejszą infrastrukturę, aplikacje i procesy, które naprawdę pomogą Twojemu klientowi.

Oto przykład, w jaki sposób można zmierzyć i udokumentować dostępność, aby odzwierciedlić fakt, że wpływ przestojów jest różny:

Tabela 2 - Czas trwania podróży i maksymalna częstotliwość

Jeśli używasz takiego arkusza kalkulacyjnego, gdy omawiasz z klientami stawki i czasy przestojów, te liczby będą prawdopodobnie znacznie bardziej przydatne niż procentowa dostępność i na pewno będą. większa wartość dla Twoich klientów.

Przestoje i produktywność

Wspomniałem, że procentowa dostępność nie jest zbyt przydatna do komunikowania się z klientami na temat częstotliwości i czasu trwania przestojów. Z drugiej strony, gdy omawiasz wpływ przestojów na wydajność, wartości procentowe mogą się bardzo przydać.

Większość incydentów nie skutkuje całkowitą utratą usług dla wszystkich użytkowników. Niektórych użytkowników może to nie dotyczyć, podczas gdy inne są całkowicie wyłączone. Być może jest tylko jeden użytkownik z wadliwym komputerem, który nie może uzyskać dostępu do żadnej z usług. Można to nawet sklasyfikować jako 100% utratę usługi, ale byłby to całkowicie nieosiągalny cel dla działu IT i nie może być sprawiedliwą miarą dostępności.

Z drugiej strony możesz powiedzieć, że usługa jest dostępna, podczas gdy ktoś nadal ma do niej dostęp. Jednak nie potrzeba wiele wyobraźni, aby dowiedzieć się, jak poczują się klienci, jeśli usługa zostanie wymieniona jako przystępna cenowo, podczas gdy wiele osób po prostu nie może z niej korzystać.

Jednym ze sposobów określenia wpływu jest obliczenie procentu utraconych minut użytkownika. Aby to zrobić:

  • Oblicz potencjalne minuty użytkownika. Ten całkowity użytkownicy, którzy pracują w jednostce czasu. Na przykład, jeśli masz 10 pracowników pracujących przez 8 godzin, wtedy PotencjalneMinutyUżytkownika to 10 x 8 x 60 = 4800
  • Oblicz minuty przerwy w pracy użytkownika. Jest to łączna liczba użytkowników, którzy nie byli w stanie pracować, pomnożona przez czas, w którym nie byli w stanie pracować. Na przykład, jeśli incydent uniemożliwił 5 pracownikom pracę przez 10 minut, wartość UserOutageMinutes wynosi 50.
  • Oblicz procentową dostępność za pomocą bardzo podobnego wzoru do tego, który widzieliśmy wcześniej

W podanym przykładzie otrzymaliśmy następującą dostępność:

Tę samą technikę można użyć do obliczenia wpływu utraty dostępności telefonii IP w call center w kategoriach PotentialAgentPhoneMinutes i LostAgentPhoneMinutes; w przypadku aplikacji, które obejmują transakcje lub produkcję, można zastosować podobne podejście do ilościowego określenia wpływu incydentu na biznes. Porównujesz liczbę transakcji, których można by oczekiwać bez przestojów, z liczbą rzeczywistych transakcji lub oczekiwaną produkcją z rzeczywistą produkcją.

Pomiar i raportowanie dostępności

Po ustaleniu i udokumentowaniu celów dostępności, należy pomyśleć o praktycznych aspektach mierzenia i raportowania dostępności. Na przykład:

  • Co zmierzysz?
  • Jak będziesz zbierać dane?
  • W jaki sposób będziesz dokumentować i raportować swoje ustalenia?

Co jest mierzone?jestembyć

Bardzo ważne jest, aby mierzyć i raportować dostępność w tych samych warunkach, które definiują cele uzgodnione przez klienta i które są oparte na wspólnym zrozumieniu, czym naprawdę jest dostępność klienta. Cele powinny mieć dla niego sens i zapewniać, że wysiłki IT są skoncentrowane na wsparciu jego biznesu.

Zazwyczaj cele te są częścią umowy dotyczącej poziomu usług (SLA) między działem IT a klientem, ale musisz uważać, aby liczby z umowy SLA nie stały się Twoim celem. Twoim prawdziwym celem jest świadczenie usług spełniających oczekiwania Twoich klientów.

Jak zbierać dane

Istnieje wiele różnych sposobów zbierania danych o dostępności usług IT. Niektóre z nich są proste, ale niezbyt dokładne, inne są dość drogie. Możesz użyć tylko jednego podejścia lub połączyć kilka z nich, aby stworzyć własne raporty.

Zbieranie danych w pomocy technicznej

Jednym ze sposobów zbierania danych o dostępności jest wsparcie. Zazwyczaj pracownicy serwisu określają wpływ i czas trwania każdego incydentu na firmę, ponieważ jest to część zarządzania incydentami. Dane te można wykorzystać do określenia czasu trwania incydentów i liczby użytkowników, których one dotyczą.

Takie podejście jest zwykle dość niedrogie. Może to jednak prowadzić do sporów dotyczących dokładności danych o dostępności.

Pomiar infrastruktury i dostępności aplikacji

Podejście to obejmuje oprzyrządowanie dla wszystkich komponentów potrzebnych do świadczenia usługi i obliczanie dostępności w oparciu o zrozumienie, w jaki sposób każdy komponent przyczynia się do tego.

Może być bardzo skuteczny, ale może ominąć drobne usterki. Na przykład drobne uszkodzenie bazy danych może uniemożliwić niektórym użytkownikom wykonywanie określonych rodzajów transakcji. Ta metoda może również pominąć wpływ współdzielonych komponentów, na przykład jeden z moich klientów miał niedziałającą zwykłą pocztę e-mail z powodu zawodnych serwerów DHCP w swojej siedzibie, ale dział IT nie zarejestrował tego jako przestoju poczty e-mail.

Fikcyjni klienci

Niektóre firmy używają fikcyjnych klientów do wysyłania znanych transakcji z określonych punktów w sieci w celu sprawdzenia dostępności.

W rzeczywistości jest to miara pełnej dostępności. W zależności od wielkości i złożoności sieci, takie podejście może być kosztowne we wdrożeniu i raportuje dostępność tylko od określonych fikcyjnych klientów. Oznacza to, że małe usterki można przeoczyć, na przykład, jeśli incydent spowodował nieprawidłowe działanie określonej przeglądarki internetowej, podczas gdy fałszywy klient korzysta z innej przeglądarki.

Narzędzia wspierające to zbieranie danych również często raportują wydajność i dostępność usług, co może być przydatnym dodatkiem.

Udoskonalenie aplikacji

Niektóre firmy dodają niestandardowy kod do swoich aplikacji, aby monitorować kompleksową dostępność. Pomoże to faktycznie zmierzyć dostępność usług od końca do końca, pod warunkiem, że taki był cel w momencie tworzenia aplikacji. Zazwyczaj ta wersja zawiera kod zarówno w aplikacji klienckiej, jak i po stronie serwera.

Jeśli jest dobrze wdrożony, może nie tylko gromadzić dane o dostępności, ale może również pomóc dokładnie określić, gdzie wystąpiła awaria, co może pomóc w zwiększeniu dostępności poprzez skrócenie czasu rozwiązywania incydentów.

Jak dokumentować i zgłaszać swoje ustalenia

Po zebraniu danych o dostępności musisz pomyśleć o tym, jak przekazać wyniki swoim klientom.

Zaplanuj przestoje

Jednym z często pomijanych aspektów pomiaru i raportowania dostępności są przestoje. Jeśli nie weźmiesz pod uwagę planowanych przestojów podczas projektowania raportów dostępności, ryzykujesz włączenie metryk, które nie są prawdziwe.

Istnieje kilka sposobów, aby zapewnić, że planowane przestoje nie zawyżają statystyk. Jednym z nich jest zaplanowanie przestoju przez określony czas, który nie jest uwzględniony w obliczeniach dostępności. Innym jest zaplanowanie zaplanowanego przestoju. Na przykład niektóre organizacje mogą nie brać pod uwagę przyszłych przestojów z miesięcznym wyprzedzeniem.

Niezależnie od tego, co zdecydujesz się zrobić, ważne jest, aby umowa SLA jasno określała, w jaki sposób zostanie rozliczony planowany przestój.

Umowa okresu sprawozdawczego

Wcześniej mówiłem o ograniczeniach, jakie kryje się w procentach dostępności. Niemniej jednak jest używany i nadal jest szeroko stosowany. Dlatego ważne jest, aby zrozumieć, że musisz określić okres czasu, w którym wykonywane są obliczenia i dostarczane są raporty, ponieważ może to mieć krytyczne znaczenie dla liczb, które znajdą się w Twoich raportach.

Rozważmy na przykład firmę informatyczną, która zgodziła się na usługę 24 × 7 i dostępność na poziomie 99%. Załóżmy, że jest ośmiogodzinna przerwa:

  • jeśli raportujemy dostępność co tydzień, wtedy AST (ustalony czas obsługi) wynosi 24 x 7 godzin = 168 godzin
  • miesięczne AST (24 x 365) / 12 = 730 godzin
  • kwartalne AST (24 x 365) / 4 = 2190 godzin

Umieszczenie tych liczb w równaniu dostępności daje:

  • Dostępność tygodniowa = 100% x (168-8) / 168 = 95,2%.
  • Dostępność miesięczna = 100% x (730 - 8) / 730 = 98,9%
  • Dostępność kwartalna = 100% x (2190-8) / 2190 = 99,6%

Każdy z nich jest prawidłowym wskaźnikiem dostępności usługi, ale tylko jeden wskazuje, że cel został osiągnięty.

W areszcie

Niemal każda firma informatyczna, z którą pracowałem, mierzyła i raportowała dostępność ich usług. Naprawdę wydajne działy IT współpracują ze swoimi klientami nad optymalizacją inwestycje własne i zapewniają doskonały poziom dostępności. Niestety, wiele firm IT koncentruje się na numerach SLA i nie spełnia potrzeb swoich klientów, nawet jeśli w raportach wyświetlają spójne liczby.

To jest długi artykuł, poniżej znajdują się kluczowe punkty, które są w nim omówione:

  • Nie musisz mówić klientowi, że zapewniłeś 98% dostępności, chyba że rozumiesz wpływ 2% przestoju.
  • Porozmawiaj ze swoimi klientami i upewnij się, że rozumiesz wpływ przestojów na nich i klientów końcowych
  • Pomyśl o sposobach ochrony krytycznych procesów biznesowych Twoich klientów
  • Znajdź sposoby mierzenia częstotliwości i czasu trwania przestojów oraz wpływu przestojów na wydajność, które spełniają potrzeby Twoich klientów
  • Uzgadniaj, udokumentuj i raportuj metryki dostępności w sposób, który ma sens dla Twoich klientów i pomaga w planowaniu
  • Użyj odpowiednich narzędzi, aby właściwie ocenić dostępność i złożyć raport.

Co jeszcze możesz dodać do moich wskazówek? Proszę pisać w komentarzach.

„Dostępność”, „trzy dziewiątki po przecinku” – tych terminów często używa się przy omawianiu nowych rozwiązań informatycznych. Architekci IT proponują projekt klientowi nowy system zwłaszcza biorąc pod uwagę, że ma bardzo wysoką dostępność. Umowa została zawarta, system został zbudowany, podpisano świadectwa odbioru kompleksu, rusza eksploatacja... Już na etapie eksploatacji można sprawdzić "jakość" stworzonego systemu, wtedy może nadejść rozczarowanie. Co kryje się za magicznymi „dziewiątkami”? Jakie są prawdziwe obietnice na etapie projektowania? A kto odpowiada za dostępność?

Dostępność: wprowadzenie do tematu

Najlepszym sposobem na zrozumienie, czym jest dostępność, jest ustalenie, dlaczego jest ona potrzebna. Dostępność jest cechą tego, czego biznes oczekuje od działu IT. Niestety, niektórzy przedstawiciele biznesu, zapytani o pożądaną dostępność usług IT, odpowiadają mniej więcej tak: „Chcę, żeby wszystko zawsze działało”. W takim przypadku do kierownika IT należy spisanie warunków świadczenia usługi, w tym określenie parametrów dostępności. Tak więc dostępność jest wymiarem usługi IT, z której korzysta firma i którą zapewnia usługa IT. Wzór na obliczenie dostępności jest następujący:

Dostępność = (AST - DT) / AST × 100 = Dostępność usługi lub komponentów (%)

gdzie
AST (uzgodniony czas obsługi)- uzgodniony czas świadczenia usługi;
DT (rzeczywisty czas przestoju w uzgodnionym czasie serwisu)- faktyczny czas, w którym usługa była niedostępna w uzgodnionym czasie jej świadczenia.

Specyfikę obliczania dostępności łatwiej zrozumieć na konkretnym przykładzie. Spróbujmy określić dostępność usługi informatycznej „sklep internetowy” dla firmy AAA z siedzibą w Moskwie, która sprzedaje książki. Jednocześnie za książki i ich dostawę do dowolnego miasta można zapłacić np. kartą kredytową. Oczywiście zamówienia wysyłkowe będą realizowane tylko w dni powszednie od 9:00 do 18:00.

Ale jaki będzie AST – uzgodniony czas realizacji usługi? Aby odpowiedzieć na to pytanie, musisz wziąć pod uwagę, że ludzie mogą składać zamówienia w godziny wolne od pracy i pamiętaj, aby wziąć pod uwagę fakt, że w Rosji jest 11 stref czasowych. Dlatego usługa musi być świadczona 24 godziny na dobę, 7 dni w tygodniu.

Teraz musisz zająć się DT - czasem, w którym usługa może być niedostępna. Tutaj nie można obejść się bez negocjacji z biznesem. Możliwe, że cztery godziny niedostępności usługi raz w miesiącu mogą być odpowiednim wyborem dla tego przykładu. Należy jednak wziąć pod uwagę jeden niuans - okres czasu, w którym oceniany jest parametr DT, czyli rzeczywisty uzgodniony czas świadczenia usługi (AST). Wybór okresu AST to prywatna sprawa kontrahentów: obsługa biznesowa i informatyczna. Lepiej jest wziąć tydzień lub kilka tygodni jako taki okres, ponieważ miesiąc lub rok nie są wartościami stałymi (obejmują różną liczbę dni). Trzeba jednak zwrócić uwagę na psychologię: krótsze okresy czasu mogą być negatywnie odbierane przez biznes. W naszym przykładzie ta sama wartość dostępności odpowiada około jednej godzinie przestoju tygodniowo. Jednak firmom może nie podobać się fakt, że sklep internetowy będzie niedostępny przez godzinę każdego tygodnia, chociaż mogą zgodzić się na cztery godziny przestoju miesięcznie. Z drugiej strony czasami niemożliwe jest działanie systemu informatycznego bez zatrzymania go na kilka godzin w celu rutynowej konserwacji. Taki planowany przestój należy również wziąć pod uwagę przy wyborze DT, co z kolei może prowadzić do rewizji parametru AST.

Na podstawie powyższego raz na cztery tygodnie wybieramy 4 godziny niedostępności usługi. Oznacza to, że AST = 4 tygodnie, DT = 4 godziny. Wtedy dostępność przedstawia się następująco:

Dostępność = (24 × 7 × 4-4) / (24 × 7 × 4) × 100% = 99,40%

Możliwe, że biznes się nie zgodzi. W takim przypadku musisz dowiedzieć się, na którą opcję się zgodzi. W przyszłości można obliczyć dwie opcje dla systemów sprzętowych i programowych o różnej dostępności i negocjować z biznesem na podstawie porównania kosztów obu opcji. Generalnie negocjacje z biznesem i budżetowanie serwisu IT to osobny temat, który być może będzie wymagał ujawnienia więcej niż jednej książki. Załóżmy zatem, że w naszym przykładzie dostępność jest obliczana i uzgadniana i możemy przystąpić do tworzenia systemu.

Zwróć uwagę, że zidentyfikowaliśmy wymaganą dostępność, zanim zaczęliśmy pracować nad rozwiązaniem, które ją zapewnia, a nie na odwrót — najpierw wybraliśmy rozwiązanie i rozważyliśmy jego dostępność. Zadanie techniczne jest pierwszorzędne, a wymagana dyspozycyjność jest jednym z ustalonych w nim parametrów. Gdy system jest oddany do użytku, dostępność powinna spełniać wymaganą wartość. Dlatego doradzamy w umowie z biznesem (SLA - Service Level Agreement) szczegółowe rozszyfrowanie, co oznacza liczba dostępności (w naszym przykładzie w następujący sposób: „4 godziny niedostępności usługi jeden (1) raz w ciągu czterech (4) tygodnie”), aby wszystkie strony zrozumiały, co tak naprawdę kryje się za liczbami.

Trzy wymiary dostępności

Pierwszą rzeczą, którą należy zrozumieć przy wyborze rozwiązania, jest to, na czym polega dostępność usługi IT. Wiele frustracji operacyjnych wynika z faktu, że dostępność usługi, której chce firma, jest bezpośrednio związana z dostępnością sprzętu. Jednak dostępność usługi IT to połączenie trzech elementów:
1) Rzetelność – zwykle tłumaczona jako rzetelność;
2) Maintainability – tłumaczone jako „maintainability”;
3) Serwisowalność - konserwowalność.
Przyjrzyjmy się każdemu z tych punktów.

Niezawodność

Niezawodność to dostępność infrastruktury lub całego kompleksu sprzętu i oprogramowania, w tym komunikacji. Na przykład dla sklepu internetowego potrzebujemy serwera WWW, serwera aplikacji, DBMS, pamięci dyskowej i dostępu do Internetu. Dla uproszczenia przyjmiemy, że oprogramowanie serwera aplikacji zawiera serwer WWW i zostanie zainstalowane na jednym serwerze sprzętowym, DBMS na drugim, a pamięcią dyskową jest zewnętrzna macierz dyskowa.

Zaczynamy tworzyć - budujemy projekt infrastrukturalny. Pod każdym komponentem napiszemy parametry jego dostępności. Dostępność każdego elementu – dalej będziemy używać terminu „niezawodność” – należy uzyskać od dostawcy elementu (sprzętu, oprogramowanie lub usługi). Jeżeli z jakiegoś powodu jest to niemożliwe (na przykład dla komponentów oprogramowania, wartość niezawodności jest zwykle nieznana), wymagana wartość będzie musiała zostać niezależnie oszacowana i przypisana. Każdy element jest pojedynczym punktem awarii, więc są one połączone szeregowo na schemacie roboczym do obliczania niezawodności (rys. 1). Należy zauważyć, że nie jest to schemat łączenia elementów infrastruktury, a jedynie schemat obliczania niezawodności.

Tak więc obliczamy niezawodność. Ponieważ mamy połączenie szeregowe komponentów, wartości niezawodności są mnożone:

Rzetelność = (0,985 x 0,97 x 0,975 x 0,98 x 0,99 x 0,9999 x 0,99) x 100% = 89,47%

To wyraźnie za mało w porównaniu z wymaganą wartością 99,40%. Następnie zmienimy decyzję - włączymy do systemu alternatywnego dostawcę usług dostępu do Internetu (rys. 2) i obliczymy jego niezawodność. Ponieważ mamy połączenie równoległe w odniesieniu do dostępu do Internetu, ogólna niezawodność określana jest w następujący sposób:

Ogólna niezawodność =

Niezawodność = × 100% = 91,72%

Myślę, że została zademonstrowana zasada „solidnej pracy” przyszłego systemu. Należy zauważyć, że w rozważanym przykładzie nie uwzględniono elementów infrastruktury sieciowej i niezawodności połączeń (np. między serwerem bazodanowym a pamięcią dyskową), a także elementów infrastruktury technicznej (zasilanie, klimatyzacja , itp.), które są jednocześnie punktami awarii i powinny być uwzględnione w obliczeniach. Na szczególną uwagę zasługuje ocena niezawodności komponentów oprogramowania. Główną radą jest tutaj rozsądny konserwatyzm: używaj komponentów oprogramowania, które są używane w takich rozwiązaniach od dawna i sprawdzają się dobrze.

Korzystając z technik, które zostały krótko omówione powyżej, możesz wybrać rozwiązanie o wymaganej dostępności.

Łatwość konserwacji i serwisowania

Przechodząc do innych elementów dostępności - konserwowalności i serwisowalności. Zwróć uwagę, że tłumaczenia „utrzymanie” i „podtrzymanie” są nieudane, ponieważ nie są z nich bardzo jasne, co to znaczy. Lepiej używać bardziej zrozumiałych tłumaczeń: konserwowalność - działania wewnętrznej obsługi informatycznej organizacji; serwisowalność – usługi świadczone przez zewnętrznych dostawców.

Aby wyjaśnić sytuację, rozważ skrajne opcje. Kiedy łatwość utrzymania jest całkowicie nieobecna? Dzieje się tak, gdy firma zleca na zewnątrz własną usługę IT. Tutaj dostępność to tylko połączenie niezawodności i zewnętrznych dostawców usług.

Kiedy całkowicie nie ma przydatności do użytku? Dzieje się tak np. w FSB, która ze względu na tajemnicę jest zmuszona do prowadzenia wszelkich czynności związanych z utrzymaniem systemu w sprawności wyłącznie przez swój dział IT, nawet części zamienne są kupowane samodzielnie, a nie są dostarczane w ramach umowa wsparcia. Wtedy dostępność jest jedynie kombinacją niezawodności systemu i działań wewnętrznej obsługi informatycznej organizacji.

Oczywiste jest, że decyzja musi zostać podjęta w tym samym czasie, co opracowanie schematów konserwacji i serwisowalności. Ogólnie rzecz biorąc, niezawodność, łatwość konserwacji i serwisowania to trzy wymiary dostępności. Zmiany w jednym z nich muszą zostać zrekompensowane zmianami w dwóch pozostałych – w przeciwnym razie zmieni się parametr dostępności usług IT, co może zaszkodzić biznesowi.

Sposoby manipulowania komponentami dostępności

Aby zrozumieć, w jaki sposób można manipulować wszystkimi elementami dostępności, rozważ inny praktyczny przykład. Firma, która posiada centra przetwarzania danych w dwóch rosyjskich miastach, Zelenogradzie (miasto satelickie Moskwy) i Irkucku, nabyła dwa identyczne systemy „pod klucz”. W konsekwencji niezawodność – niezawodność – jest dla nich taka sama. Oba systemy informatyczne były objęte tymi samymi umowami na wsparcie sprzętowe i programowe, co oznacza, że ​​usługi świadczone przez zewnętrznego dostawcę — serwisowalność — również były takie same. Jednak dostępność systemów była różna. A firma zaczęła narzekać dostawcy na słabą dostępność systemu w Irkucku, twierdząc, że jedno z rozwiązań jest „wadliwe” i domagając się audytu.

Jednak w tym przypadku audyt rozwiązania najprawdopodobniej nie ujawni pierwotnej przyczyny „niepowodzenia” dostępności, ponieważ zbadany będzie tylko jeden komponent - Niezawodność, która powinna być taka sama dla obu systemów i tylko dwóch innych komponenty muszą zostać zbadane. Jeśli zwrócisz na nie uwagę, okaże się, że możliwe są dwie opcje.

Opcja 1: Awarie sprzętu spowodowały utratę dostępności. Ze względu na lokalizację geograficzną centrów danych te same umowy dotyczące wsparcia sprzętowego mogą w rzeczywistości być różne. Na przykład, punkt serwisowy zewnętrzny dostawca znajduje się w Moskwie, a umowa na wsparcie techniczne mówi, że jest ważna tylko w dni powszednie, a inżynier przyjeżdża na miejsce instalacji sprzętu „pierwszym dostępnym pociągiem lub lotem”. Oczywiście dla inżyniera wyjeżdżającego z Moskwy ta wartość będzie inna dla Zelenogradu i Irkucka.

Możliwe rozwiązania problemu dostępności w tym przypadku:

  • zmienić niezawodność systemu informatycznego w Irkucku, na przykład umieścić dodatkowy węzeł w klastrze;
  • zmienić parametr serwisowalności - stworzyć magazyn w Irkucku, aby informatycy firmy mieli możliwość samodzielnej wymiany wadliwych komponentów, jeśli nie jest to sprzeczne z zasadami producenta.

Sensowne jest również sprawdzenie warunków pracy. Przykłady typowych naruszeń tych warunków:

  • prowadzenie prac remontowych w pomieszczeniach przy włączonych instalacjach, co prowadzi do ich zapylenia, a pył jest bardzo niebezpieczny dla sprzętu serwerowego;
  • stosowanie klimatyzatorów domowych w serwerowniach, chociaż każdy rodzaj sprzętu ma swoje wymagania dotyczące wilgotności i klimatyzatory domowe nie są zaprojektowane do utrzymywania określonego poziomu, a całkowicie suche powietrze jest destrukcyjne dla technologii.

Opcja 2: Usterki oprogramowania spowodowały zmniejszenie wymaganego poziomu dostępności. W tym przypadku problem najprawdopodobniej tkwi w serwisie IT w Irkucku. Usługi wsparcia technicznego oprogramowania są świadczone zdalnie. W związku z tym nie ma różnicy w usługach, poza tym, że istnieją różne okresy świadczenia usługi w stosunku do czasu lokalnego dla różnych stref czasowych, ale zwykle nie ma to znaczącego wpływu. Prawdopodobną przyczyną „porażki” dostępności jest tu inny poziom profesjonalizmu działów IT – w Irkucku jest on prawdopodobnie niższy niż w Zelenogradzie. Możliwe rozwiązania:

  • zaostrzenie łatwości konserwacji do wymaganego poziomu - prowadzenie szkoleń dla personelu IT w Irkucku w zakresie oprogramowania i sprzętu komputerowego, które są częścią systemu informatycznego, organizowanie seminariów w celu przeniesienia doświadczenia zespołu IT z Zelenogradu, procesów operacji kopiowania itp .;
  • zrekompensować łatwość konserwacji poprzez serwisowanie - zakup zaawansowanych usług wsparcia technicznego, usług zewnętrznych itp.

Wracając do naszego przykładu sklepu internetowego, jaka jest najlepsza kombinacja niezawodności, łatwości konserwacji i łatwości serwisowania? Odpowiedź na to pytanie zależy od konkretnego przypadku. Na przykład możesz polecić hosting zamiast samodzielnego wdrażania całej infrastruktury (informatycznej i technicznej). Ogólnie rzecz biorąc, mamy następujące standardowe sposoby zarządzania dostępnością. 1. Zmiana niezawodności:

  • zmiana rozwiązania informatycznego w kierunku wysokiej dostępności (High Availability) – wykorzystanie klastrów, wykorzystanie sprzętu z obsługą wymiany „na gorąco”, powtarzające się powielanie potencjalnych punktów awarii itp.;
  • dzierżawa całej infrastruktury lub jej części od zewnętrznych dostawców (hosting, kolokacja).

2. Zmiana w utrzymaniu (zmiany w działalności obsługi informatycznej firmy):

  • rozpowszechnianie w organizacji własnych najlepszych praktyk w zarządzaniu IT;
  • zapraszanie konsultantów zewnętrznych do organizowania procesów w dziale IT;
  • szkolenie personelu IT.

3. Zmiana serwisowalności – zmiana umów na usługi IT z zewnętrznymi dostawcami w kierunku podniesienia poziomu obsługi, zwiększenia wolumenu usług, poszerzenia obszaru odpowiedzialności zewnętrznych dostawców usług itp. Wszystkie techniki manipulacji trzema źródłami i trzema składowymi dostępności nie da się opisać w jednym artykule, jednak przedstawiono główne podejścia do kompensowania niektórych składników dostępności innymi. Aby jeszcze bardziej poprawić swoją biegłość w tej dziedzinie, powinieneś się uczyć praktyczne doświadczenie projektowanie i eksploatacja systemów informatycznych.

Zmiana poglądów biznesowych na świadczenie usług IT powoduje konieczność wdrożenia procesu zarządzania ich dostępnością.

W trzeciej wersji procesy ITIL dotyczące zarządzania dostępnością i ciągłością usług IT rozpatrywane są łącznie (zwane dalej procesem). Najważniejsze kluczowe koncepcje tego procesu współpracy to:

dostępność- zdolność usługi informatycznej lub jej elementów do wykonywania swoich funkcji w określonym czasie;

niezawodność- zdolność usługi informatycznej lub jej elementów do wykonywania określonych funkcji w określonych warunkach działania;

odzyskiwalność- zdolność usługi informatycznej lub jej komponentów do odzyskania swoich właściwości operacyjnych, częściowo lub całkowicie utraconych w wyniku awarii;

użyteczność- charakterystyka komponentów IT, która determinuje ich lokalizację i parametry w celu zapewnienia racjonalności działań personelu podczas instalacji, transportu, prewencji i napraw (pojęcie to stosuje się w stosunku do zewnętrznych dostawców usług IT).

Biznes ma własne rozumienie dostępności i kosztów usług IT, dlatego celem procesu jest zapewnienie wymaganego poziomu dostępności przy zachowaniu określonego poziomu kosztów. Aby osiągnąć ten cel, proces ma na celu realizację następujących zadań:

    Planowanie i rozwój usług IT z uwzględnieniem wymagań biznesowych dotyczących poziomu dostępności;

    Optymalizacja dostępności usług IT poprzez opłacalne usprawnienia;

    Zmniejszenie liczby i czasu trwania incydentów wpływających na dostępność usług IT.

W trakcie rozwiązywania tych problemów ustalane są wymagania biznesowe dotyczące dostępności usług IT i komponentów infrastruktury IT; opracowywane są wymagane raporty; okresowo weryfikowane są poziomy dostępności usług IT; tworzony jest plan dostępności, który określa priorytety i odzwierciedla środki mające na celu poprawę dostępności usług IT. Innymi słowy, proces sprowadza się do planowania dostarczania usług IT, mierzenia poziomu dostępności i podejmowania działań mających na celu jego poprawę.

Planowanie

Podczas planowania formułowane są wymagania biznesowe dotyczące dostępności usług IT, opracowywane są kryteria określania poziomu dostępności i akceptowalnego czasu przestoju usług IT oraz uwzględniane są niektóre aspekty. bezpieczeństwo informacji... Firma musi ustalić granice, które określają dostępność i niedostępność usługi IT, takie jak czas, przez który usługa IT może zostać zakłócona w przypadku awarii infrastruktury IT.

Projektując dostępność usług IT przeprowadzana jest analiza infrastruktury IT w celu zidentyfikowania najbardziej wrażliwych komponentów, które nie posiadają rezerwy i mogą w przypadku awarii mieć negatywny wpływ na świadczenie IT usługi. W terminologii ITIL komponenty te nazywane są Single Point of Failure (SPOF) i są definiowane przy użyciu metody Component Failure Impact Analysis (CFIA). Ta metoda służy do oceny i przewidywania wpływu awarii komponentów IT na usługę IT. Główne cele CFIA to:

    Identyfikacja punktów awarii wpływających na dostępność;

    Analiza wpływu awarii komponentów na biznes i użytkowników;

    Określenie relacji komponentów i personelu;

    Określanie czasu odzyskiwania komponentów;

    Identyfikowanie i dokumentowanie opcji odzyskiwania.

Do analizy ryzyka wykorzystywana jest metoda analizy i zarządzania ryzykiem (CCTA Risk Analysis and Management Method, CRAMM), która analizuje możliwe zagrożenia i zależności komponentów IT, ocenia prawdopodobieństwo niestandardowych sytuacji lub zdarzeń awaryjnych.

W celu zapewnienia wymaganego poziomu dostępności możliwe jest zastosowanie techniki maskowania przed negatywnymi skutkami planowanych lub nieplanowanych przestojów komponentów, duplikacji komponentów IT, a także wykorzystanie środków poprawiających wydajność komponentu w przypadku zdarzenia wzrostu obciążenia itp. W przypadkach, w których określone funkcje biznesowe są silnie uzależnione od dostępności usług IT, a strata reputacja biznesowa przestoje są uważane za niedopuszczalne, dostępność niektórych usług IT jest wyższa i przydzielane są dodatkowe zasoby.

Projekt dostarczania usług IT zapewnia spełnienie deklarowanych wymagań dostępności, ale odnosi się to do stabilnego, operacyjnego stanu usługi IT. Możliwe są jednak również awarie, dlatego też prowadzone jest planowanie przywrócenia usług IT, w tym organizacja interakcji z procesem zarządzania incydentami i Service Desk; planowanie i wdrażanie systemów monitorowania w celu wykrywania awarii i terminowego powiadamiania o nich; opracowywanie wymagań dotyczących tworzenia kopii zapasowych i odzyskiwania sprzętu, oprogramowania i danych; opracowanie strategii tworzenia kopii zapasowych i odzyskiwania; definiowanie metryk odzyskiwania itp.

Innym aspektem planowania jest określenie czasu przestoju. Wszystkie komponenty IT muszą podlegać strategii serwisowej. W zależności od aplikacji IT, krytyczności i znaczenia funkcji biznesowych obsługiwanych przez dany komponent IT, częstotliwość i poziom usług mogą się różnić. Jeśli potrzebujesz świadczyć usługę w trybie 24x7, musisz znaleźć optymalną równowagę między wymaganiami dotyczącymi obsługi komponentów IT a stratami biznesowymi wynikającymi z przestojów usługi. Zatwierdzone harmonogramy usług muszą być udokumentowane w umowach o gwarantowanym poziomie usług (SLA).

Poprawa dostępności usług IT

Po co poprawiać dostępność? Przyczyn może być wiele: niedopasowanie jakości usług IT do wymagań SLA; niestabilność w świadczeniu usług IT; spadkowe tendencje w dostępności usług IT; niedopuszczalnie długie czasy powrotu do zdrowia; prośby biznesowe o zwiększenie dostępności.

Poprawa dostępności wymaga rozsądnych dodatkowych wydatki finansowe niektóre techniki i technologie są wykorzystywane do identyfikowania możliwości poprawy usług IT, w tym analizy drzewa błędów (FTA) i analizy awarii systemów (SOA).

Analiza drzewa błędów identyfikuje łańcuch zdarzeń prowadzących do awarii komponentu IT lub usługi IT. Graficznie drzewo błędów (patrz rys.) Jest sekwencją zdarzeń, która rozpoczyna się od zdarzenia inicjującego, po którym następuje jedno lub więcej zdarzeń funkcjonalnych i kończy się stanem końcowym. W zależności od zdarzeń sekwencje mogą logicznie się rozgałęziać.

Analiza przestojów systemu to ustrukturyzowane podejście do identyfikowania pierwotnych przyczyn przerw w świadczeniu usług IT i wykorzystuje wiele źródeł danych w celu określenia lokalizacji i przyczyny przerw. Cele tej analizy:

    Ustalenie pierwotnych przyczyn zakłóceń w świadczeniu usług IT;

    Określanie efektywności wsparcia usług IT;

    Przygotowywanie raportów;

    Rozpoczęcie programu realizacji przyjętych rekomendacji;

    Przeanalizuj poprawę dostępności na podstawie analizy przestojów systemu.

Wykorzystanie analizy przestojów systemu pozwoli zwiększyć poziom dostępności bez zwiększania kosztów, poprawić własne umiejętności i zdolności personelu, aby uniknąć kosztów doradztwa w zakresie poprawy dostępności oraz wskazać konkretny program poprawy.

Efektem działań na rzecz poprawy dostępności usług jest długofalowy plan proaktywnej poprawy dostępności usług IT, z uwzględnieniem ograniczeń finansowych. Plan dostępności opisuje obecny i planowany poziom dostępności, a także działania, które należy podjąć, aby go poprawić. Przygotowanie planu wymaga udziału przedstawicieli biznesu, kierowników wdrożonych procesów ITSM, przedstawicieli zewnętrznych dostawców usług IT, specjalistów wsparcia technicznego odpowiedzialnych za testowanie i utrzymanie. Plan sporządzany jest na okres do dwóch lat, a na kolejne sześć miesięcy powinien zawierać szczegółowy opis zajęcia. Plan jest weryfikowany co kwartał z minimalnymi korektami i co pół roku z możliwością większych zmian.

Mierzenie dostępności usług IT

Usługę IT, z perspektywy konsumenta, można uznać za przystępną cenowo, gdy ważne funkcje biznesowe, które z niej korzystają, działają dobrze. W tym przypadku głównymi wskaźnikami ilościowymi są dostępność - stosunek czasu rzeczywistej dostępności komponentu IT do czasu dostępności określonego w umowach SLA oraz niedostępność (w %) - odwrotność dostępności. Parametry te są wykorzystywane przez służby IT i z biznesowego punktu widzenia nie są zbyt orientacyjne, gdyż nie odzwierciedlają wartości dostępności dla biznesu czy użytkowników – mogą wykazywać wysoki poziom dostępności komponentów IT, natomiast obecny poziom dostępności usług IT będzie niski...

Biznes może zrozumieć takie wskaźniki jak: częstotliwość przestojów usług IT, łączny czas przestojów, obszar wpływu przerwy w świadczeniu usług IT.

Role i obowiązki

Proces określa rolę kierownika procesu, który jest odpowiedzialny za kierowanie procesem i podejmowanie niezbędnych działań. Kierownik procesu jest odpowiedzialny za działanie i rozwój procesu zgodnie z przepisami i planami. Do roli procesu zaleca się zatrudnienie pracownika z praktycznym doświadczeniem w zarządzaniu procesami, znajomością ITSM, metodami statystycznymi i analitycznymi stosowanymi w IT, zasadami zarządzania kosztami, doświadczeniem w pracy z personelem, znajomością metod negocjacji itp. menedżer.

Realizacja procesu

Wdrożenie dowolnego procesu ITSM to długi i złożony projekt z określonymi celami i terminami. Wdrożenie we własnym zakresie jest trudne: wdrożenie procesu równolegle z codziennymi czynnościami operacyjnymi nie pozwala w pełni skupić się na projekcie; ciągłe „wyciąganie” zasobów na zadania poza projektem w efekcie końcowym prowadzi do wzrostu kosztów finansowych, przesunięcia w czasie realizacji projektu na czas nieokreślony, stopniowej utraty uwagi lub nawet ewentualnego zatrzymania projektu . Ponadto wdrożenie wewnętrzne wymaga wiedzy z danego obszaru tematycznego, co pociąga za sobą konieczność kosztownych szkoleń.

Jak każdy projekt, wdrożenie procesu rozpoczyna się od zbudowania zespołów projektowych, opracowania dokumentów zarządzania projektami, sporządzenia planu projektu i nie tylko. Na etapie prac „przedprojektowych” prowadzone są działania marketingowe mające na celu zapoznanie przedstawicieli biznesu z technologiami i zaleceniami ITIL oraz uzasadnienie potrzeby wdrożenia przez firmę procesu zarządzania dostępnością usług IT.

Po uzgodnieniu i otrzymaniu pozytywnej odpowiedzi na temat realizacji procesu ustalane są cele i granice obszaru tematycznego procesu.

Efekt i problemy

Głównym efektem wdrożenia procesów jest to, że usługi IT są projektowane z myślą o dostępności oraz są obsługiwane i zarządzane na uzgodnionym poziomie dostępności i kosztów. Pozytywnymi czynnikami są również: jedna osoba odpowiedzialna za dostępność usług IT; optymalne wykorzystanie wydajności infrastruktury informatycznej w celu zapewnienia wymaganego poziomu dostępności usług informatycznych; zmniejszenie częstotliwości i czasu trwania przestojów usług IT w czasie; jakościowe przejście w działalności dostawców usług IT od wyeliminowania błędów w świadczeniu usług do zwiększenia poziomu ich dostępności.

Potencjalne problemy, które mogą negatywnie wpłynąć na podejmowanie decyzji dotyczących realizacji i funkcjonowania procesu mają zwykle charakter organizacyjny:

    Istnienie sytuacji, w której każdy menedżer IT odpowiada za dostępność systemów IT lub komponentów znajdujących się w jego obszarze odpowiedzialności, natomiast ogólna dostępność usług IT nie jest monitorowana i może być niezadowalająca;

    Odmowa realizacji procesu, ponieważ obecna dostępność usług IT jest uznawana za akceptowalną;

    Założenia, że ​​w przypadku istnienia innych procesów TSM proces zarządzania dostępnością będzie wykonywany automatycznie;

    Opór wobec centralizacji zarządzania infrastrukturą IT przez menedżerów IT;

    Niewystarczający autorytet kierownika procesu, prowadzący do niemożności prawidłowego wykonywania obowiązków.

Evgeny Bulychev (Bulychev@i-teco.ru) - Konsultant działu I-Teco Business Consulting (Moskwa).

Pomysł napisania tego artykułu pojawił się po rozmowie z jednym z dużych klientów – kolega opowiedział historię wyboru dostawcy chmury IaaS dla swojej firmy.

Pierwszy zestaw kryteriów oceny usługodawcy wyglądał mniej więcej tak: dobrze znana nazwa (marka), pozytywna historia biznesowa w zakresie usług w chmurze, odpowiednia wartość. Na podstawie wyników analizy potencjalni kandydaci zostali wybrani spośród kilku firm, które według powyższych kryteriów były prawie takie same i każda starała się udowodnić swoje zalety, odwołując się do odmiennej charakterystyki swoich usług w chmurze.

Władimir Kuriłow, firma Onlanta.

Tak więc rozmowa dotarła do wskaźników niezawodności. I kręciło się wokół porównywania poziomów dostępności centrów danych, w których znajdowały się chmury. Szybko stało się jasne, że tylko dwóch kandydatów posiada centra danych z 99,98% dostępnością. Wybór został dokonany na korzyść zagranicznego dostawcy usług w chmurze – wygrała cena. Kolega wyjaśnił wszystko po prostu: „Po co płacić więcej za te same wskaźniki niezawodności?”

Biorąc pod uwagę istnienie różne opcje, zdefiniujmy interpretację terminu „Dostępność” w ramach tego artykułu. Zdefiniujmy dostępność jako czas pracy systemu w określonym przedziale czasu, wyrażony jako procent tego przedziału. Lub w klasycznej formie: „Właściwość obiektu do wykonywania wymaganej funkcji w określonych warunkach przez określony przedział czasu”. To generalnie jest bliższe ugruntowanej już koncepcji „gotowości” systemu.

Rok działalności, który nastąpił po tej decyzji, wykazał, że dostawca ma niewielkie zakłócenia w pracy systemów inżynieryjnych centrum danych podczas planowanych przełączeń. Jednocześnie dostępność centrum danych pozostała w ramach umowy SLA, ponieważ przełączenie trwało kilka sekund. Jeśli jednak System informacyjny Klient nie zatrzymał się z góry przed takimi przełącznikami, wówczas baza danych w przypadku awarii wymagała odtworzenia z kopii zapasowej, co wstrzymywało pracę pracowników na kilka godzin. Wyłączenie/włączenie systemów przed przełączeniem nieznacznie poprawiło sytuację, ale jednocześnie nastąpił przestój pracowników na 25-30 minut, który również powodował skargi ze strony użytkowników.

Minął rok i teraz Kolega wynajmuje pojemność w innej chmurze, gdzie dostępność jednego z data center jest niższa od powyższej, a przestoje znacznie się skróciły. Jak można to osiągnąć i co jest ważne przy ocenie niezawodności rozwiązań chmurowych, a co nie jest bardzo ważne? Jakie są możliwości oszczędzania, zmniejszające ryzyko nadpłaty „za ładne liczby”, a nie za rzeczywistą niezawodność? Jak podkreślić krytyczne parametry usług w chmurze dla niezawodności Twojej aplikacji?

Spróbuję dalej sformułować odpowiedzi na te pytania.

Niezawodność aplikacji — jak układa się w chmurze

Niezawodność obsługi aplikacji

Jeśli spróbujemy sformułować definicję niezawodności aplikacji, będzie to brzmiało tak: „Niezawodność jest właściwością aplikacji, która utrzymuje wydajność w czasie z całą włączoną w nią funkcjonalnością”.

Od czego zależy wydajność aplikacji iw jaki sposób niezawodność aplikacji jest powiązana z dostępnością centrum danych?

Aplikacja oparta jest na platformie programowej, która z kolei znajduje się na platformie infrastrukturalnej z wykorzystaniem platformy inżynierskiej, patrz rys. Łącznie te cztery poziomy zapewniają „Usługę aplikacji”.


Ryż. Uproszczony przykład obliczania dostępności usługi aplikacji

Jak widać na rysunku, mamy do czynienia z systemem elementów sekwencyjnych, w którym awaria dowolnego elementu prowadzi do awarii systemu jako całości.

Dostępność takiego systemu (As) definiuje się jako iloczyn wskaźników dostępności wszystkich elementów:


A i - dostępność każdego elementu połączonego szeregowo.
A s = 0,99995 0,99995 0,993 0998 ≈ 0,99091 lub 99,091

Jak widać, dostępność Application Service ma znaczenie daleko od dostępności platformy inżynieryjnej centrum danych. Możliwe jest przekształcenie wartości dostępności na wartości przestojów systemu. Okazuje się, że pomimo dopuszczalnego rocznego przestoju platformy inżynierskiej co 1 godzina. 45 minut, dla serwisu aplikacji roczny przestój wyniesie 86 godzin 22 minuty.

W związku z tym wysoka dostępność centrum danych nie oznacza równie wysokiej niezawodności usług aplikacyjnych działających w tym centrum danych.

Niezawodność aplikacji sieciowej

Dlatego przy wyborze dostawców usług słuszne byłoby skupienie się na zagregowanej dostępności usług aplikacyjnych? Niestety tutaj sprawy nie są takie proste.

Okazuje się, że programista jest w stanie wpłynąć na zapewnienie niezawodności (odporności na awarie, obciążenia) konkretnej aplikacji. Np. niezawodność aplikacji w chmurze można znacząco poprawić poprzez zastosowanie specjalistycznych bibliotek skoncentrowanych na obsłudze opóźnień wykonywanych żądań. Aplikacje napisane w standardowy sposób będą miały porównywalnie niższe wskaźniki niezawodności.

Jedną z opcji implementacji użycia specjalistycznych bibliotek przez firmę Microsoft jest blok aplikacji do obsługi błędów przejściowych (patrz http://msdn.microsoft.com/en-us/library/hh680934(v=pandp.50).aspx).

Niezawodność platformy oprogramowania

Niezawodność platformy oprogramowania, w tym system operacyjny, sterowniki, biblioteki ponownie pozostają „po stronie programistów” i jak na razie nie są mocno uzależnione od usługodawcy. Jeśli jednak usługodawca pomyślał o odpowiedniej polityce pomocy technicznej, może to pośrednio wpłynąć na dostępność.

Mowa o „higienicznym” sprzęcie bezpieczeństwa. Przede wszystkim o usłudze aktualizacji oprogramowania systemowego. Powinien znaleźć się w portfolio usług usługodawcy, a jeszcze lepiej, powinien być zawarty w „domyślnej” cenie usługi. Po drugie, jest to usługa ochrony antywirusowej z wyborem programów antywirusowych. I po trzecie, utworzyć kopię zapasową serwery wirtualne klienta. To nie wszystkie, ale najważniejsze sposoby na poprawę dostępności usługi aplikacji.

Niezawodność platformy infrastruktury

Ten składnik niezawodności jest całkowicie zależny od dostawcy usług i powinien być oceniany przez Ciebie na równi z dostępnością platformy inżynierskiej centrum danych. Powinieneś poprosić swojego dostawcę o ten parametr, ponieważ zwykle nie jest on wymieniony w materiałach marketingowych. Jednocześnie konieczne jest wyjaśnienie sposobu obliczania tego parametru.

Chociaż należy mieć na uwadze, że nie wszyscy usługodawcy będą chcieli takie dane przedstawiać, ponieważ z obliczeń wynika schemat strukturalny rozwiązania infrastrukturalnego i wykorzystywanego sprzętu – a to jest pewien know-how.

Jednakże:

  • Poproś o schemat struktury funkcjonalnej platformy infrastruktury do obsługi usługi aplikacji. Powinien zawierać:
    • Infrastruktura sieci;
    • Sieć pamięci masowej;
    • Infrastruktura obliczeniowa.
  • Poproś o wskazanie na tym schemacie miejsc rezerwacji sprzętu. Nie jest konieczne wskazanie rodzaju używanego sprzętu.
  • Zapytaj o dostępność (lub gotowość) na każdym poziomie.
  • Policz dostępność jako iloczyn dostępności elementów platformy infrastrukturalnej.

Teraz masz możliwość jak najdokładniejszego określenia dostępności Twojej usługi aplikacyjnej. Z naszego doświadczenia wynika, że ​​90% wspólnych przedsięwzięć w Rosji ma całkowitą dostępność nie większą niż 99%. A to jest ryzyko przestojów do 87 godzin rocznie. Są to normalne stawki dostępności, chyba że masz aplikacje o znaczeniu krytycznym dla firmy, które kosztują miliony dolarów w ciągu jednej godziny przestoju. A jeśli godzinny postój to katastrofa dla Twojego biznesu, to pozostałe 10% dla Ciebie, joint ventures świadczące usługi na poziomie przedsiębiorstwa z dostępnością Application Service na poziomie 99,99%. Jak to osiągnąć w następnej sekcji.

Rozwiązania dla wysokiej dostępności usług aplikacyjnych

Dzięki temu klient nie dba o to, jak przestrzegana jest umowa SLA na systemy inżynierskie, ważne jest dla niego, jaka jest dostępność serwisowa jego aplikacji, czyli - gwarantowany czas odzyskiwania aplikacji.

Omówione wcześniej systemy miały strukturę sekwencyjną. Dostępność, którą uznaliśmy powyżej za iloczyn poszczególnych elementów, jest technicznym ograniczeniem, jakie dają takie systemy. W rzeczywistości, ze względu na pojawienie się różnych dodatkowych czynników, dostępność jest jeszcze niższa. Pamiętasz na początku artykułu historię o drugiej przerwie w dostawie prądu i pięciu godzinach przestoju?

Czy można zwiększyć dostępność aplikacji, jeśli parametry dostępności danego centrum danych są ustawione i nie można ich zmienić?

Odpowiedź brzmi: możesz.

Na przykład, oto dwa podejścia, które pozwalają to zrobić:

  • Rozproszony geograficznie klaster wysokiej dostępności;
  • Odzyskiwanie przetwarzania w geograficznie zdalnym zapasowym centrum danych (odzyskiwanie po awarii).

Ryż. Schemat blokowy geograficznie rozproszonego klastra wysokiej dostępności


Ryż. Schemat blokowy przywracania przetwarzania w geograficznie odległym, zapasowym centrum danych

Pierwsze podejście jest idealne z punktu widzenia dostępności (odzyskiwanie wydajności następuje w kilka sekund), ale traci na cenie i jest raczej trudne do wdrożenia. Drugie podejście przywraca usługę z kopii roboczej - nie jest to tak szybkie i niewielka część danych w przypadku awarii będzie musiała zostać przywrócona ręcznie, ale ta opcja jest tańsza i łatwiejsza do wdrożenia.

W obu przypadkach należy mówić o geograficznym oddaleniu centrów danych, aby maksymalnie uniknąć możliwości połączenia zasobów. Na przykład wykorzystanie tych samych podstacji, które zasilają centra danych. Przypominamy sobie przerwę w dostawie prądu na południowym wschodzie Moskwy w maju 2008 roku spowodowaną pożarem podstacji Chaginskaya w Nowym Jorku w 2003 roku. Dlatego zapasowe centrum danych powinno znajdować się dalej od głównego.

Podejście z dwoma centrami danych pozwala nam mówić o stworzeniu systemu z równoległymi elementami. Jednocześnie z jednej strony główne i zapasowe centra danych są niezależnymi systemami, z drugiej strony stanowią wspólną platformę dla obsługi aplikacji - bez względu na to w jakim data center aplikacja aktualnie pracuje, może się ona przemieszczać z jednego centrum danych do drugiego.

Podstawowa różnica między systemem równoległym polega na tym, że niezawodność rośnie wraz ze wzrostem liczby równoległych elementów systemu. Obliczenie dyspozycyjności systemu składającego się z elementów równoległych można przeprowadzić za pomocą wzoru:

Gdzie: A s - Całkowita dyspozycyjność, dyspozycyjność całego systemu,
A i - dostępność każdego komponentu połączonego równolegle.

Na przykład, obliczmy system geograficznie rozproszonego klastra wysokiej dostępności, składającego się z dwóch centrów danych o dostępności 99%, każde.

A s = 1- (1-0,99) * (1-0,99) = 0,9999 lub 99,99

Oznacza to, że dwa nie najbardziej niezawodne centra danych mogą zapewnić dostępność na poziomie systemów o znaczeniu krytycznym.

Aby określić dostępność usługi aplikacji w opcji przywrócenia przetwarzania w oddalonym geograficznie zapasowym centrum danych z 15-minutowym interwałem synchronizacji dla przypadku pojedynczej awarii, oblicza się ją w następujący sposób: należy zażądać czasu przywrócenia serwis aplikacyjny, gwarantowany przez joint venture; następnie obliczamy procent przedziału rocznego - i odejmujemy wynik od jednego. Dostępność uzyskujemy po pierwszej awarii. Na przykład w przypadku systemu z 15-minutowym interwałem synchronizacji:

Całkowita liczba godzin w roku to 365 * 24 = 8760
Gwarantowany czas przestoju = maksymalny czas przestoju
15 minut lub 0,25 godziny, czyli 0,003 czasu rocznego

Tych. każda awaria będzie miała wagę 0,003%. Tym samym system przed awarią systemu ma dostępność równą 100%, po pierwszej awarii 99,997%, po drugiej awarii 99,994%. Obliczmy to samo dla systemu z godzinowym interwałem synchronizacji:

Gwarantowany czas przywracania = Maksymalny czas przestoju = 1 godzina, czyli ≈ 0,01 czasu rocznego

Każda awaria będzie miała wagę 0,01%. Tym samym system przed awarią systemu ma dostępność równą 100%, po pierwszej awarii 99,99%, po drugiej awarii 99,98%. Ponadto zwolennicy teorii prawdopodobieństwa mogą ćwiczyć ocenę prawdopodobieństwa wystąpienia pierwszego, drugiego, trzeciego niepowodzenia. Wynik przekona Cię, że wpływ tego czynnika na uzyskane wyniki jest znikomy. To pozwala mi zarekomendować sugerowaną metodologię oceny dostępności usług dla Twoich aplikacji w chmurze.

W podsumowaniu ...

  • Zacznij od oceny krytyczności biznesowej aplikacji, którą planujesz hostować w chmurze. Oszacuj koszt przestoju aplikacji. Ile będzie Cię kosztować brak obsługi aplikacji?
  • Stąd oszacuj dopuszczalną wartość przestojów w ciągu dnia w ciągu roku. Oblicz krytyczną dostępność usługi aplikacji.
  • Porównaj potencjalny koszt przestojów z cenami JV, które zapewniają rozsądną dostępność Twoich aplikacji.
  • Wybierając joint venture, preferuj kogoś, kto może zapewnić nie tylko aktualny poziom dostępności, ale również, jako dodatkową usługę/usługę, zapewnić poprawę dostępności. Zwłaszcza jeśli Twoja firma rośnie i rozwija się.
  • I trzymaj się praktyki. Weź to, co dają, aby dotknąć = test. Teoria bez praktyki nie jest zbyt przydatna w biznesie.