Yüksek kullanılabilirlik nedir? IaaS için SLA: sanal BT altyapısı için gerçek garantiler Hizmet olarak yüksek kullanılabilirlik.

Hizmetler "Hizmet olarak BT altyapısı", IaaS ile giderek daha popüler hale geliyor. kurumsal müşteriler ve zaten kullanılıyorlarve kritik görevler için. Bunu çözmenin zamanı geldisanal BT altyapısının çalışmayı yavaşlatması veya tamamen kullanılamaz hale gelmesi durumunda bu hizmetlerin sağlayıcılarının neyi garanti ettiğini ve ne gibi sorumluluklara sahip olduklarını.

Önde gelen kurumsal düzeyde IaaS altyapı hizmeti sağlayıcılarıyla görüştük ve tekliflerini analiz ettik. Aynı zamanda, "kurumsal düzey" şu anlama gelir: bulut platformu, Katman III'ün gereksinimlerini karşılayan bir veri merkezinde konuşlandırılır (Uptime Institute'tan bir sertifikanın varlığı,gereklidir) ve bir felaket durumunda Yüksek Kullanılabilirlik (HA) mekanizmaları ve sanal makinelerin yeniden konumlandırılması yoluyla yüksek düzeyde hata toleransı sağlar.

KULLANILABİLİRLİK VE YANIT SÜRESİ

Genellikle SLA sözleşmesinde belirtilen IaaS hizmetinin ana parametreleri, kullanılabilirlik düzeyi, çeşitli olaylara yanıt süresi ve çözümlerinin süresi ile kesinti durumunda tazminat şeması ve parametreleridir. .

Sanal bir BT altyapısı kullanmaya karar verdikten sonra, %99,5 ve üzeri kullanılabilirliğe güvenle güvenebilirsiniz. En azından, görüştüğümüz sağlayıcıların hiçbiri daha düşük bir rakam vermedi. Ayrıca, birçok şirketin temsilcisi, cevaplarında belirtilen değerin (bkz. Tablo 1) tipik olduğunu ve müşterinin talebi üzerine çeşitli teknik araçlar kullanılarak bulunabilirlik seviyesinin artırılabileceğini vurguladı.

Tipik olarak, kurumsal düzeyde IaaS platformları, %99,98 kullanılabilirlik sunduğu bilinen Katman III hata toleransını karşılayan veri merkezlerinde (kendi veya harici) barındırılır. Sağlayıcılar tarafından belirtilen IaaS sanal altyapılarının kullanılabilirlik değerleri, oldukça doğal olan fiziksel sitenin karşılık gelen özelliklerini aşmamaktadır.

Bunun istisnası, Dataline tarafından metro küme modunda sağlanan %99,99 kullanılabilirliktir. Felaketin bu versiyonu Bulut, şirketin veri merkezlerinden ikisini kapsıyor - metro kümesi hakkında daha fazla bilgi için, Journal of Networking Solutions / LAN'ın Ekim 2013 sayısında yayınlanan "Afete dayanıklı bulut" "bulutsuz" bir fiyata" materyaline bakın ( ).

Prensip olarak, tedarikçi SLA'da keyfi olarak yüksek kullanılabilirlik, en az %100 belirtebilir, ancak daha sonra kazanmaktan daha fazlasını kaybetme riskiyle karşı karşıyadır, çünkü aklı başında herhangi bir alıcı, sözleşmeye uyulmaması durumunda katı bir tazminat planının sözleşmeye dahil edilmesini talep edecektir. mutabık kalınan şartlar. Henüz standart bir plan geliştirilmemiş olsa da - her tedarikçi farklı bir şey sunar, bu nedenle alıcı, BT hizmetlerinin kesintisi durumunda olası mali kayıpları hesaba katarak önerilen tazminatı değerlendirmelidir.

Birçok şirket, hizmetin kullanılamadığı her ek (SLA'nın ötesinde) bir saat için belirli bir miktarda (yüzde olarak) aylık ödeme geri ödemesi sunar. Örneğin, SLA'da %99,95 olarak belirtilen kullanılabilirlik düzeyi (ayda 1 saatten fazla olmayan kesinti) ile, Inoventica, hizmetten kopan her ek saat için aylık ödemenin %2'sini geri ödemeye hazırdır. Standart sürümdeki Cloud4Y, 1 saatlik kesinti süresini %1 oranında telafi eder (hesaplamalar toplam tutar tam için hizmetler aylık takvim bundan önce), ancak hizmetin maliyetinin %50'sinden fazla değil.

Bir dizi sağlayıcı, tazminatın mevcudiyet düzeyine göre nasıl değiştiğine dair ayrıntılı hesaplamalar sağlamıştır (bkz. Tablo 2). Bu seviyede önemli bir azalma olması durumunda, çok önemli bir tazminat teklif edilir. Örneğin, değer %95'in altındaysa Onlanta (Lanit Şirketler Grubu), hizmet için ödeme seviyesinin %40'a düşürülmesine izin verir. Ve IT-Grad şirketi, kullanılabilirlik seviyesi %96,71'in altına düşerse, %50 tazminat vaat ediyor. Hizmet kalitesindeki böyle bir bozulmanın sağlayıcılar tarafından olası görülmediği açıktır.

Servionika'da (I-Teco Group) Bulut Hizmetleri ve Altyapı Çözümleri Başkanı Vitaly Mzokov, “İki bağımsız ücretlendirme ilkesi getirdik: hizmet parametrelerinin hedef göstergelerini ve taleplerin işlenmesi için hedef göstergeleri ihlal etmek için” diyor. - Hizmet parametrelerinin hedef göstergelerinin ihlali, aşamalı bir ölçekte telafi edilir. Gerçek kullanılabilirlik düzeyine bağlı olarak, hizmeti kullanmak için fatura tutarının yüzdesi olarak ifade edilen bir tazminat göstergesi hesaplanır. Taleplerin işlenmesine yönelik hedeflerin ihlali için tazminat, müşterinin bekleme süresine göre bir dakikaya kadar doğrulukla hesaplanır.

Servionika tarafından benimsenen uygulamaya göre, müşteri taleplerinin türleri ve ayrıca taleplere maksimum yanıt süresi ve sorunu çözmek için maksimum süreye ilişkin genel hedefler, hizmet etkileşimi düzenlemelerinde açıklanmaktadır. Ve SLA sözleşmesinin kendisinde bu göstergeler belirli bir hizmet için belirtilir.

“Sözleşmeye göre müşteri bizden birkaç hizmet alabilir. Bu nedenle yönetmeliklerde genel göstergeler“Belirli bir hizmet için SLA'da tanımlanan hedefler, yönetmeliklerde belirtilen göstergelerle örtüşmektedir.” Bu, gerekirse reaksiyon süresini ve çözüm süresini netleştirmek (uzatmak veya azaltmak) için yapılır, - diye açıklıyor Vitaly Mzokov. - Her türlü talebe 15 dakika içinde cevap vermekle yükümlüyüz. Talebin türüne ve önceliğine bağlı olarak maksimum çözüm süresi 1 saat (1 numaralı önceliğe sahip olaylar için) ile 48 saat (müşterinin bilgi talebinin eksiksiz olarak işlenmesini gerektiren talepler için - örneğin, bilgi sağlama) arasında değişir. tarifeler ve diğer hizmetler, çeşitli açıklamalar ve talimatlar hakkında).

Bir uygulamaya yanıt süresi genellikle önceliğine bağlıdır. Örneğin, Linxdatacenter'ın uyguladığı öncelik seviyeleri şunlardır:

  • Kritik - hizmet tam olarak mevcut değil, geri yüklemek için acil önlemler almak gerekiyor, reaksiyon süresi 15 dakika, iyileşme süresi 4 saatten fazla değil;
  • Yüksek - hizmet kısmen kullanılamıyor, yanıt süresi 1 saate kadar, yüksek öncelik;
  • Normal - hizmetin parametreleri hakkında açıklama, mevcut acil olmayan sorular, yanıt hazırlamak için 1 saate kadar yanıt süresi, 24 saat ayrılmıştır.

Tablo 3 başka bir örneği göstermektedir - Cloud4Y tarafından kullanılan sorguların sınıflandırılması; reaksiyon süresi - en fazla 30 dakika.

Hemen T-Sistemlerinde çalışmaya çalışıyorum. T-Systems RUS'un ICT bölümünün Satış Direktörü Vsevolod Yegupov'a göre, bu şirketin uzmanları "vakaların %80'inde 30 saniye içinde yanıt veriyor" (!). Ancak, yanıtlayanlarımızın çoğu gibi, yanıt süresinin durumun kritikliğine bağlı olduğunu belirtti.

İZLEME ARAÇLARI

SLA anlaşmasında çekici bir kullanılabilirlik düzeyi ve katı tazminat planları belirtmek yeterli değildir, ayrıca müşteriye uygun ve etkili araç kontrol. Ve burada tedarikçilerin yaklaşımları önemli ölçüde farklılık gösteriyor.

Servionika uygulamasına atıfta bulunan Vitaly Mzokov, müşterilerin bağımsız izleme için bazı özel araçlarda ustalaşmaktan ziyade operatörden şeffaf ve doğru raporlama almakla daha fazla ilgilendiğini belirtiyor. Kural olarak, Servionika üzerinde anlaşılan bir dizi parametre hakkında aylık raporlar sağlar, ancak müşterinin talebi üzerine sözleşme daha sık raporlama sağlayabilir.

Birçok şirket, varsayılan olarak, ayda bir kez hizmet sağlık raporları sağlar, ancak müşterilerin talebi üzerine daha sık yapabilir. Onlanta tarafından sunulan bir rapor örneği Şekil 1'de gösterilmektedir. Bulut bölümü başkanı Mikhail Lyapin'e göre Onlanta, Rusya'da müşterilere bulut kaynaklarının kullanılabilirliği hakkında bu düzeyde ayrıntılı bir rapor sunan tek şirkettir. Ona göre, çoğu hizmet sağlayıcı sanal makinelerin kullanılabilirlik düzeyine ilişkin istatistiklerle geçiniyor.

Bir dizi şirket, müşterilere çevrimiçi bir self-servis konsolu sunar. Croc'ta Genel Müdür Yardımcısı, Veri Merkezi ve Bulut Bilişim Başkanı Ruslan Zaedinov'a göre, her IaaS hizmeti tüketicisi, belirli bileşenlerin çevrimiçi olarak çalışmasını izlemek için yerleşik bir yeteneğe sahip böyle bir konsola erişebilir. Örneğin, sanal makineler söz konusu olduğunda müşterinin BT uzmanları işlemcinin ne kadar meşgul olduğunu, G/Ç'nin nasıl çalıştığını, ne kadar bellek kullanıldığını vb. istek - herhangi bir dönem için istatistik şeklinde.

PERFORMANS GARANTİLİ OLMALI

Açıkçası, sağlayıcının IaaS platformundaki yükün artmasıyla sanal makinenin performans düzeyi düşebilir. Servis sağlayıcılar bunun olmasını önlemek için ellerinden geleni yapıyorlar. Tüm firmalar bu konuda hemfikirdir. Bununla birlikte, bazıları SLA'da performans parametrelerini içerirken, diğerleri böyle bir önlemi gereksiz görmektedir.

Inoventica yönetim kurulu üyesi Vitaly Slizen bu konuda şunları söylüyor: tam vaktinde. Ayrı olarak, SLA'da bu parametreler (VM ve depolama performansı) yansıtılmaz, çünkü müşteri taleplerinden bağımsız olarak bunlara uyulması birincil sorumluluğumuzdur. Inoventica uzmanları, kiralanan altyapı tesislerinin tüm ana parametrelerini sürekli olarak izleyerek, hakkında hızlı bir şekilde bilgi almalarını sağlar. potansiyel problemler ve bunları zamanında tahmin edin.

Yönetici Igor Drozdov da bozulmanın olmamasından bahsediyor teknik Destek Linxdatacenter satışları: “Şirketimiz kullanım için garantili bilgi işlem kaynakları sağlıyor. Bulutta ayrılırlar ve istemci sayısı arttıkça büyürler, böylece sanal makinelerin ve depolamanın performansı sürekli olarak yüksek bir seviyede kalır. Ayrıca, özel VMware ürünlerini kullanarak zamanında sunucu yükseltmeleri gerçekleştiriyor ve performans izleme gerçekleştiriyoruz.”

Orange Business Services de standart SLA'da performans parametrelerini düzenlemeyen hizmet sağlayıcılardan biridir. Aynı zamanda, Rusya ve BDT'deki Orange Business Services Birleşik İletişim ve BT Ürünleri Geliştirme Başkanı Dmitry Dorodnykh tarafından belirtildiği gibi, "bir müşteri kendi sanal makineleri için belirli bilgi işlem kaynaklarının garanti edilmesini gerektiriyorsa, standart araçlar kaynaklar için çekişme durumunda sanal makineleri diğer sunuculara taşımanıza izin veren modern sanallaştırma platformları.

Vsevolod Egupov, bozulma, sözleşme tarafından düzenlenen hizmet kullanılabilirliği düzeyini etkilediğinden, performans özelliklerini SLA'ya dahil etmenin bir anlamı olmadığına inanmaktadır. T-Systems'te, sanal makinelerin ve depolama sistemlerinin performansı, uzmanların bozulmasını önlemekten sorumlu olan kapasite yönetimi departmanı tarafından kontrol edilir.

SLA'lara performans özellikleri eklemenin mantıklı olduğuna inanan birçok şirket de var. darboğaz Sanallaştırılmış bir BT ortamında, birçok uzman depolama performansını dikkate alır; bu nedenle çoğu satıcı, saniyede giriş/çıkış işlemleri (IOPS) gibi depolama özelliklerine en çok dikkat eder.ve disk erişim süresi (gecikme).

Veri hattı, her bir SLA'daki depolama ve sanal makineler için performans ölçümlerini listeler (bkz. Tablo 4). Aynı zamanda, bu şirketin hizmet geliştirme departmanı başkanı Dmitry Tishin'in belirttiği gibi, "müşteri tarafından sistem ortamına yönelik olarak ortaya konan gereksinimlere bağlı olarak, metrikler değiştirilebilir." IOPS değerleri NetApp DFM izleme sistemi ile ölçülmekte ve disk erişim süreleri ile ölçülmektedir. düzenli araçlar Sanallaştırma yazılımı (vCenter). Bir sanal makine ile ilgili bir sorun olması durumunda, görev vardiyası ve sanallaştırma ekibinin mühendisleri uygun bir uyarı alır. Ayrıca Dataline, işletim sistemi ve içinde çalışan servisler düzeyinde çeşitli parametrelerin izlenmesini sağlar. İstemci şirketin işletim sistemini ve hizmet yönetimi hizmetini kullanıyorsa, bu tür izleme varsayılan olarak gerçekleştirilir.

Sanal makinelerin performansının düşmesini önlemek için Dataline uzmanları bir dizi önlem uygular. Bu nedenle, bir küme için, fiziksel sunucuların yükünü ana parametrelere göre izleyen Dağıtılmış Kaynak Zamanlayıcı (DRS) mekanizması kullanılır - sunucuda belirli bir yüke ulaşılırsa, bazı sanal makineler otomatik olarak diğerine taşınır. . Küme, tüm küme üzerindeki yükün %70'ten fazla olmaması için sunucu yedekliliğini korur. Ekipman tedarikçileri ile yapılan hizmet sözleşmeleri çerçevesinde, kümelerin kaynak kapasiteleri programa göre artırılabilir.

Safedata ayrıca SLA'daki IOPS ve MIPS gibi performans özelliklerini de düzenler. Safedata satış departmanı başkanı Anton Antonov, “Performansı SLA'da belirtilen değerlerin altına düşüremeyiz” diyor. “Fiziksel sunucular üzerindeki yük arttığında hizmet bozulması meydana gelirse, ek yedek EXSi ana bilgisayarları devreye alınır.”

SLA Cloud4Y'de düzenlenen depolama disk sisteminin performans özellikleri Tablo 5'te gösterilmektedir. Cloud4Y pazarlama departmanı başkanı Evgeny Bessonov'a göre, garanti edilen ihlal durumunda ayrı olarak müzakere edilen veya standart koşullara göre ödenen tazminat öngörülmektedir: 1 saat için aylık maliyetin %1'i.

Ruslan Zaedinov, "Sanal makinelerin performansını yukarıdan sınırlamadan alt sınırda garanti ediyoruz" diyor. “Dolayısıyla, sanal makinenin bulunduğu sunucu, garanti edilenden fazla ücretsiz bilgi işlem kaynaklarına sahipse, bunlar müşterinin kullanımına sunulacaktır.” Depolama sistemlerine gelince, şu anda tüm Croc müşterileri depolama sistemleriyle ortak bir iletişim kanalı kullanıyor. Uzun bir süre bu sorun yaratmadı, ancak şimdi, müşterilerin artan ihtiyaçlarını karşılamak için şirket, bulut depolamayı Fiber Kanal ve SATA disklerinden Infiniband ağı üzerinden sanal makinelerden doğrudan erişime sahip flash sürücülere taşıyor. Paralel olarak, bulutta veri depolama sisteminin garantili verimini sağlamak için yazılım uygulanmaktadır. SLA'da ilgili değişiklikler bu sonbaharda yapılacaktır.

Servionika, müşteriyle anlaşarak, her projenin SLA'sında bulut platformunun ayrı bileşenlerinin performans göstergelerini düzeltir. Ayrıca anlaşma, bu göstergelerin ölçülmesine yönelik yöntemleri ve ölçümlerin sıklığını belirtir. Herhangi bir operatör “1 GB disk alanı başına garantili 100.500 OP” yazabilir, ancak herkes bu kriterin karşılandığını kanıtlayamaz. Bulut platformunun operatörü ile tüketicisi arasındaki en şeffaf ilişkiden yanayız,” diye vurguluyor Vitaly Mzokov. Sanal makinelerin ve depolama sistemlerinin performansı, Servionika SLA'da IOPS ve Gecikme göstergeleri tarafından belirlenir.

Maxim Zakharenko'nun dediği gibi, CEO servis sağlayıcı "Oblakoteka", yaptıkları sözleşmelerde, tepe performans göstergeleri, G / Ç bant genişliği ve ağ üzerindeki yük %80'i geçmeyecek şekilde düzenlenir. İzleme, Microsoft SCOM sistemi kullanılarak gerçekleştirilir. için şunu not eder: farklı sistemlerçeşitli göstergeler önemlidir: Web siteleri için - yanıt süresi, BT altyapılarını barındırmak için - en yüksek CPU, bellek, sanal ağ vb. göstergeleri. Bu şirket ayrıca garantili yedekleme parametreleri, yöntemleri ve tedarik ve depolama kullanıcı verilerini içerir ("Dürüst ayrılık").

UÇTAN UCA SLA

Hataya dayanıklı bir veri merkezinde bulunan IaaS platformunun güvenilirliği ne kadar yüksek olursa olsun, bu platforma erişim kanalları müşteri için bir darboğaz haline gelebilir. İyi haber şu ki, görüştüğümüz sağlayıcıların çoğu hem IaaS hizmetinin kendisini hem de erişim kanallarını kapsayan uçtan uca SLA'lar uyguluyor. Aynı zamanda onlara göre, uygun organizasyon ve kanal yedekliliği, iletişim kullanılabilirliği seviyesi SLA platformununkinden daha düşük değildir ve bu nedenle bu önemli özellik, uçtan uca SLA'larda azalmaz.

Ancak, Vsevolod Yegupov'un belirttiği gibi, kullanılabilirlik düzeyinin azaltılması veya korunması, iletişim kanallarının düzenlenme biçimine bağlıdır - kanal rezerve edilmişse, kullanılabilirlik bozulmaz. Aksi takdirde, uçtan uca SLA'daki kullanılabilirlik düzeyi, kanal kullanılabilirlik düzeyine düşürülür. T-Systems RUS, dünya çapında kendi veri merkezleri ağına sahiptir. Rus müşterilere ağırlıklı olarak Almanya ve Avusturya'da bulunan veri işleme merkezlerinden hizmet verilmektedir. Şirket, Rostelecom, Beeline ile bir SLA imzaladı ve diğer telekom operatörleriyle de işbirliği yapıyor.

Aynı zamanda telekom operatörü olan IaaS servis sağlayıcıları bundan yararlanır. Bu nedenle, uluslararası bir telekom operatörü olan Orange Business Services, IaaS ve telekom hizmetlerini kapsayan uçtan uca SLA'lar uygular. Bu tür SLA'lardaki kullanılabilirlik düzeyi %99,95'tir. Ancak, Dmitry Dorodnykh'in açıkladığı gibi, bu özellik müşterinin coğrafi konumuna bağlıdır - örneğin, Orta bölgede bu seviye Uralların ve Sibirya'nın ötesinden daha yüksektir. Son mil kendi SLA parametrelerine sahip olabilir. İletişim kanallarındaki SLA kontrol şemaları ve mekanizmaları zaten onlarca yıldır üzerinde çalışılıyor, bu nedenle izleme sorunu Orange Business Services için bir sorun değil.

Vitaliy Slizen'in belirttiği gibi, Inoventica'nın kendi omurga iletişim kanalları ve coğrafi olarak dağıtılmış bir veri merkezi ağı vardır, bu da coğrafi kümeleri uygulamayı mümkün kılar. Bu, veri merkezlerinden birinin fiziksel olarak tahrip olması durumunda bile veri ve hizmet performansından tasarruf etmenizi sağlar. Ona göre, Inoventica “dünyadaki tek şirkettir. Rus pazarı SLA'ya uygun olarak "DPC - kanal - hizmet - istemci (AWP)" hizmetlerinin tam bir zincirini sağlayan , en az miktarpaket iletim gecikmesi (gidiş dönüş gecikmesi) 10 ms'den az ve neredeyse sıfır paket kaybı. Şu anda, Inoventica kompleksi çözümü, Rusya Federasyonu'nun beş federal bölgesindeki müşterilere sunulmaktadır.

Taşıyıcı olmayan IaaS hizmet sağlayıcıları, onlarla aktif olarak işbirliği yapmaktadır. Böylece Servionika, veri merkezine hizmet veren telekom operatörleri (10'dan fazla büyük telekom sağlayıcısı) ile çalışmak için bir SLA oluşturdu. Şirket, iletişim hizmetlerini kullanan müşterilerle yaptığı sözleşmelerde bu SLA'ların şartlarını yayınlar. Ve SLA ile uyumluluk üzerindeki kontrol, TrustInfo veri merkezinin teknik servisleri tarafından sağlanır. Vitaly Mzokov, “Sözleşmelerimizde operatörlerinkiyle aynı SLA parametrelerini belirtiyoruz, yani çalışmalarının kalitesi ve kesintisiz iletişim kanalları sağlanması konusunda sorumluluk alıyoruz” diyor.

Müşterilere iletişim kanalları sağlamak için Dataline, bir taşeronluk planı kapsamında telekomünikasyon operatörlerinin hizmetlerini kullanır. Bu şema ile şirket, işletmeci ile yaptığı sözleşme çerçevesinde kaliteyi kontrol ederken, müşteri ondan kapsamlı bir hizmet alır ve sadece bir karşı tarafla ilgilenir. Erişilebilirlik düzeyi karmaşık hizmet azalmaz. Dataline, Moskova'da aşağıdaki özelliklerin garanti edildiği kendi veri iletim ağına sahiptir: kayıp paketlerin yüzdesi% 0,2'den fazla değildir, ağdaki ortalama gecikme 5 ms'den fazla değildir.

Ruslan Zaedinov'a göre Croc, bant genişliği buluttaki tüm müşteriler için yeterli olan geniş kanallar kullanıyor. Teknik olarak etkili garantiler, kendi optik halkasını kullanarak farklı Croc veri merkezleri arasındaki kanalların çapraz rezerve edilmesiyle sağlanır. İletişim kanalının sabit bir bant genişliğinin kritik olduğu kuruluşlar için, şirket, garantili bir garanti ile ayrı kanallar aracılığıyla buluta bireysel bir bağlantı uygular. verim hatta "karanlık" optiklerde. Böyle bir bağlantı çoğunlukla donatılmıştır bireysel yollarla Sertifikalı olanlar da dahil olmak üzere şifreleme.

Bu nedenle, IaaS hizmetleri Rusya'da oldukça fazla sayıda şirket tarafından ve oldukça anlaşılır ve belgelenmiş (SLA'da) kurallara göre sunulmaktadır. Sektör, SLA'ların sanallaştırılmış BT altyapılarının performans özelliklerini ele alması gerekip gerekmediği konusunda henüz anlaşmaya varmadı, ancak garantili kullanılabilirlik oranları, en talepkar kurumsal müşteriler için bile yeterince iyi görünüyor. Ayrıca sağlayıcılar, müşterilerin uçtan uca SLA'lara olan ihtiyacını anlıyor ve bunları geliştirmek için çalışıyor.

Alexander Barskov- Journal of Network Solutions / LAN'ın önde gelen editörü. Onunla iletişime geçilebilir:

, yazar Stuart Renler(Stuart Rance).

BT hizmetlerinin kullanılabilirliği büyük önem taşımaktadır. Müşterinin ihtiyaç duyduğu hizmetler mevcut olmadığında, memnuniyetsiz olacaktır. Bir müşteri, ihtiyaç duyduğunda gerçekten mevcut olmayan bir hizmet için neden ödeme yapsın? Bu nedenle, üzerinde anlaşmaya varılan hizmet kullanılabilirliği ölçüsü genellikle KPI'lara dahil edilir.

BT personeli, belirtilen hedefe ulaşıldığından emin olmak için çok çaba sarf ediyor ve müşterilere bunu doğrulayan raporlarda rakamlar gösteriyor. Genellikle BT şirketleri bunun için yüzdeler kullanır, örneğin %99,999. Ne yazık ki, bu genellikle yalnızca yüzdelere odaklandıkları ve gerçek amaçlarını gözden kaçırdıkları anlamına gelir - müşteriye değer sağlamak.

Yüzde kullanılabilirliği ile ilgili sorun

Kullanılabilirliği hesaplamanın en basit yollarından biri iki kısma dayanmaktadır. Hizmetin mevcut olması gereken zaman aralıklarını kabul edersiniz. raporlama dönemi. Bu, kararlaştırılan hizmet süresidir (AST). Bu süre boyunca arıza süresini (DT) ölçersiniz. Kesinti süresini kararlaştırılan hizmet kullanılabilirlik süresinden çıkarın ve bunu bir yüzdeye dönüştürün.

AST 100 saat ve aksama süresi 2 saat ise, kullanılabilirlik şu şekilde olacaktır:

Sorun şu ki, bu hesaplama oldukça basit olmasına rağmen, bunun için veri toplama olduğu gibi, hesaplama sonucunda aldığınız rakamın tam olarak hangi göstergeyi temsil ettiği tam olarak net değil. Bu konudan biraz sonra bahsedeceğim.

Daha da kötüsü, müşterinin bakış açısından, üzerinde anlaşmaya varılan hedeflere ulaştığınızı bildirebilir ve müşteriyi tamamen tatminsiz bırakabilirsiniz.

Anlamlı Kullanılabilirlik raporu, gönderme ve alma yeteneği gibi müşterinin ilgilendiği şeyleri açıklayan ölçümlere dayanmalıdır. e-postalar veya ATM'lerden nakit çekme ve genel yüzde görünüşe göre yapamıyor.

Erişilebilirlik hedefleri belirleme

Kullanılabilirliği kuruluşunuz ve müşterileriniz için yararlı olacak şekilde ölçmek, belgelemek ve raporlamak istiyorsanız, iki şey yapmanız gerekir. İlk olarak, bağlamı tanımlayın ve siz ve müşterileriniz için "erişilebilirlik" anlamını güçlendirin. Bunu yapmak için onlarla konuşmanız gerekir.

İkinci olarak, bir dizi pratik soru üzerinde dikkatlice düşünmeniz gerekir: neyi ölçeceksiniz, nasıl veri toplayacaksınız, sonuçları nasıl belgeleyecek ve rapor edeceksiniz.

müşterilerle iletişim

Herhangi bir işlem yapmadan önce müşterileriniz için neyin önemli olduğunu ve kullanılabilirlik kaybının onlar üzerinde ne gibi etkileri olacağını anlamanız gerekir. Bu, teknolojik, bütçe ve personel kısıtlamalarını hesaba katan gerçekçi hedefler belirlemenize olanak tanır.

Ancak müşterilerinize tam olarak ne söylemelisiniz? Bir konuşma için harika bir başlangıç ​​noktası, kesinti süresinin etkisi olabilir. Aşağıda sormanız gereken beş soru bulunmaktadır:

  1. Hangi iş işlevleri kritiktir ve kesinti koruması için en yüksek önceliğe sahiptir?
  2. Arıza süresi işletmeyi nasıl etkiler?
  3. Arıza süresinin sıklığı işletmeyi nasıl etkiler?
  4. Kesinti süresinin kurumsal performans üzerinde nasıl bir etkisi vardır?
  5. Kuruluşun müşterileri bu zorunlu kesintileri nasıl algılıyor?

Kritik İş Fonksiyonları

Çoğu BT hizmeti, bazıları kritik ve diğerleri daha az önemli olan birden çok iş sürecini destekler. Örneğin, bir ATM nakit verme ve çek yazdırmayı destekleyebilir. Nakit verme yeteneği kritik öneme sahipken, çek yazdıramama çok daha az etkiye sahiptir.

Müşterilerle konuşmanız ve farklı özelliklerin işletme için ne kadar önemli olduğunu belirlemeniz gerekir. Bu işlevlerin her biri için kapalı kalma süresinin işle ilgili sonuçlarını listeleyen bir tablo oluşturabilirsiniz. Örnek vermek:

Tablo 1 - Hizmetlerin yüzde olarak önemi

not: Rakamların toplamı %100'ü geçmemelidir

Bu tablodan, e-posta göndermek ve almak mümkün değilse bu hizmetin hiçbir değeri olmadığı, ortak klasörler okunamıyorsa değerinin normal düzeyin yarısına düştüğü görülmektedir. Bu, BT'ye posta hizmetinin kalitesine odaklanmasını söyler.

Kesinti süresi ve sıklığı

Kesinti süresinin sıklığı ve süresinden müşterinin işinin nasıl etkilendiğini bulmanız gerekir.

Yüzde mevcudiyetinin yeterli olmayabileceğini daha önce belirtmiştim. 100 saat boyunca kullanılabilir olması gereken bir hizmetin kullanılabilirliği %98 olduğunda bu, iki saatlik kesinti olduğunu gösterir. Ancak bu, iki saatlik bir olay veya birkaç daha kısa olay anlamına gelebilir. Tek bir uzun olayın veya bir dizi kısa olayın göreceli etkisi, iş ve iş süreçlerinin doğasına bağlı olarak değişecektir.

Örneğin, iki gün süren ve herhangi bir arızadan sonra yeniden başlatılması gereken bir faturalandırma, her kısa kesintiden ciddi şekilde etkilenecektir, ancak uzun süren bir zorunlu kesinti çok daha az fark yaratabilir. Öte yandan, bir dakikalık kesinti, çevrimiçi mağazanın çalışmasını hiçbir şekilde etkilemeyebilir, ancak iki saat sonra önemli bir müşteri kaybına neden olabilir. Arıza süresinin olası iş etkisini anladıktan sonra, müşteriye gerçekten yardımcı olacak çok daha verimli altyapı, uygulamalar ve süreçler oluşturabilirsiniz.

Kesinti süresinin etkisinin değişiklik gösterdiği gerçeğini yansıtmak için kullanılabilirliğin nasıl ölçülebileceği ve belgelenebileceğine ilişkin bir örnek:

Tablo 2 - Açma süresi ve maksimum frekans

Müşterilerle kesinti sıklığı ve süresini tartışırken böyle bir tablo kullanırsanız, bu sayıların kullanılabilirlik yüzdesinden çok daha yararlı olması muhtemeldir ve kesinlikle daha fazla değer müşterileriniz için.

Kesinti süresi ve performans

Kesinti süresinin sıklığı ve süresi hakkında müşterilerle iletişim kurmak için kullanılabilirlik yüzdesinin çok yararlı olmadığından bahsetmiştim. Öte yandan, kesinti süresinin performans üzerindeki etkisini tartışırken, yüzdeler çok kullanışlı olabilir.

Çoğu olay, tüm kullanıcılar için tam bir hizmet kaybına neden olmaz. Bazıları tamamen devre dışı bırakılırken bazı kullanıcılar etkilenmeyebilir. Belki de herhangi bir servise erişemeyen, bozuk bir PC'ye sahip tek bir kullanıcı vardır. Bunu %100 hizmet kaybı olarak bile sınıflandırabilirsiniz, ancak bu BT için tamamen ulaşılamaz bir hedef olur ve adil bir kullanılabilirlik ölçüsü olamaz.

Öte yandan, bir başkası ona erişebildiği sürece bir hizmetin kullanılabilir olduğunu söyleyebilirsiniz. Bununla birlikte, bir hizmet birçok kişi onu kullanamadığında kullanılabilir olarak listelenirse müşterilerin nasıl hissedeceğini anlamak çok fazla hayal gücü gerektirmez.

Etkiyi belirlemenin bir yolu, kaybedilen kullanıcı dakikalarının yüzdesini hesaplamaktır. Bunu yapmak için:

  • PotentialUserMinutes hesaplayın. Bu toplam tutar birim zaman başına çalışan kullanıcılar. Örneğin, 8 saat çalışan 10 çalışanınız varsa, PotentialUserMinutes 10 x 8 x 60 = 4800 olur.
  • UserOutageMinutes hesaplayın. Bu, çalışamayan toplam kullanıcı sayısının, çalışamadıkları süre ile çarpımıdır. Örneğin, bir olay 5 çalışanın 10 dakika çalışmasını engellediyse, UserOutageMinutes 50'dir.
  • Daha önce gördüğümüze çok benzer bir formül kullanarak kullanılabilirlik yüzdesini hesaplayın.

Yukarıdaki örnekte, aşağıdaki erişilebilirliğe sahibiz:

PotentialAgentPhoneMinutes ve LostAgentPhoneMinutes açısından bir çağrı merkezinde kaybolan VoIP kullanılabilirliğinin etkisini hesaplamak için aynı metodolojiyi kullanabilirsiniz; işlemler veya üretimle ilgilenen uygulamalar için, bir olayın iş üzerindeki etkisini ölçmek için benzer bir yaklaşım kullanabilirsiniz. Kesinti süresi olmadan gerçekleşmesi beklenen işlem sayısı ile fiili işlem sayısı veya beklenen üretim miktarı ile fiili işlemi karşılaştırıyorsunuz.

Kullanılabilirlik ölçümü ve raporlama

Erişilebilirlik hedeflerini kabul edip belgeledikten sonra, erişilebilirliği nasıl ölçebileceğiniz ve raporlayabileceğinizin pratik yönleri hakkında düşünmeniz gerekir. Örneğin:

  • Neyi ölçeceksiniz?
  • Verileri nasıl toplayacaksınız?
  • Bulgularınızı nasıl belgeleyecek ve ileteceksiniz?

ne ölçtüniolmak

Kullanılabilirliği, müşterilerle mutabık kalınan hedefleri tanımlayan ve müşteri erişilebilirliğinin gerçekte ne olduğuna dair ortak bir anlayışa dayanan aynı terimlerle ölçmek ve raporlamak çok önemlidir. Hedefler onun için anlamlı olmalı ve BT çabalarının işini desteklemeye odaklanmasını sağlamalıdır.

Tipik olarak, bu hedefler BT ile müşteri arasındaki bir hizmet düzeyi sözleşmesinin (SLA) parçasıdır, ancak SLA'daki sayıların hedefiniz haline gelmemesine dikkat etmeniz gerekir. Gerçek hedefiniz, müşterilerinizin beklentilerini karşılayan hizmetler sunmaktır.

Veri nasıl toplanır

BT hizmetlerinin kullanılabilirliği hakkında veri toplamanın birçok farklı yolu vardır. Bazıları basit ama çok doğru değil, bazıları oldukça pahalı. Kendi raporlarınızı oluşturmak için yalnızca bir yaklaşım kullanabilir veya birkaçını birleştirebilirsiniz.

Teknik destekte veri toplama

Kullanılabilirlik verilerini toplamanın bir yolu yardım masasıdır. Olay yönetiminin bir parçası olduğu için, tipik olarak servis personeli, her bir olayın işletme üzerindeki etkisini ve süresini belirler. Bu veriler, olayların süresini ve etkilenen kullanıcıların sayısını belirlemek için kullanılabilir.

Bu yaklaşım genellikle oldukça ucuzdur. Ancak, kullanılabilirlik verilerinin doğruluğu konusunda anlaşmazlıklara yol açabilir.

Ölçme Altyapısı ve Uygulama Kullanılabilirliği

Bu yaklaşım, bir hizmet sağlamak için gereken tüm bileşenler için bir araç takımı ve her bir bileşenin nasıl katkıda bulunduğuna dair bir anlayışa dayalı bir kullanılabilirlik hesaplaması içerir.

Çok verimli olabilir, ancak küçük çökmeleri kaçırabilir. Örneğin, Küçük hasar veritabanı, bazı kullanıcıların belirli işlem türlerini gerçekleştirememesine neden olabilir. Bu yöntem de etkiyi kaçırabilir ortak bileşenlerörneğin, müşterilerimden biri düzenli olarak çalışmadı E-posta karargahlarındaki güvenilmez DHCP sunucuları nedeniyle, ancak BT bunu e-posta kesintisi olarak kaydetmedi.

hayali müşteriler

Bazı şirketler, kullanılabilirliği test etmek için ağdaki belirli noktalardan bilinen işlemleri göndermek için sahte müşteriler kullanır.

Aslında bu, uçtan uca kullanılabilirliğin bir ölçüsüdür. Ağın boyutuna ve karmaşıklığına bağlı olarak, bu yaklaşımın uygulanması oldukça pahalı olabilir ve yalnızca belirli sahte müşterilerden gelen kullanılabilirliği bildirir. Bu, örneğin bir olay belirli bir web tarayıcısının yanlış çalışmasına neden olurken, sahte müşteri farklı bir tarayıcı kullanırken küçük arızaların gözden kaçabileceği anlamına gelir.

Bu veri toplamayı destekleyen araçlar da genellikle hizmet verimliliğini ve kullanılabilirliğini bildirir ve bu da yararlı bir ek olabilir.

Uygulama geliştirme

Bazı şirketler uygulamalarına ekler özel kod uçtan uca kullanılabilirliği izlemek için. Bu, uygulama geliştirme sırasında bu hedefin belirlenmiş olması koşuluyla, hizmetlerin uçtan uca kullanılabilirliğini gerçekçi bir şekilde ölçmeye yardımcı olacaktır. Kural olarak, bu iyileştirme hem istemci uygulamasında hem de sunucu bölümünde kodu içerir.

İyi uygulanırsa, yalnızca kullanılabilirlik verilerini toplamakla kalmaz, aynı zamanda bir arızanın tam olarak nerede meydana geldiğini saptamaya da yardımcı olur, bu da olayları çözmek için gereken süreyi azaltarak kullanılabilirliği iyileştirmeye yardımcı olabilir.

Bulgularınızı nasıl belgeleyebilir ve iletebilirsiniz?

Müsaitlik verilerini topladıktan sonra, sonuçları müşterilerinize nasıl ileteceğinizi düşünmeniz gerekir.

Kesinti için plan yapın

Kullanılabilirlik ölçümü ve raporlamasının genellikle gözden kaçan bir yönü, kesinti süresidir. Kullanılabilirlik raporlarınızı tasarlarken planlı kapalı kalma süresini dikkate almazsanız, doğru olmayan metrikleri dahil etme riskiyle karşı karşıya kalırsınız.

Planlanmış kapalı kalma süresinin istatistikleri şişirmediğinden emin olmanın birkaç yolu vardır. Bunlardan biri, kullanılabilirlik hesaplamasına dahil edilmeyen belirli bir süre için planlanmış kapalı kalma süresine sahip olmaktır. Diğeri ise planlanmış bir arıza süresi atamak. Örneğin, bazı kuruluşlar, gelecek için bir ay önceden planlanan kapalı kalma süresini hesaba katmayabilir.

Ne yapmaya karar verirseniz verin, SLA'nızın planlı arıza süresinin nasıl hesaplanacağını açıkça tanımlaması önemlidir.

Hesap dönemi sözleşmesi

Daha önce, kullanılabilirlik yüzdesinin gizlediği sınırlamalardan bahsetmiştim. Bununla birlikte, uygulanmaktadır ve yaygın olarak kullanılmaya devam etmektedir. Bu nedenle, raporlarınızda yer alacak sayılar için kritik olabileceğinden, hesaplamaların gerçekleştirildiği ve raporların sunulduğu süreyi belirtmeniz gerektiğini anlamanız önemlidir.

Örneğin, 7/24 hizmet ve %99 kullanılabilirliği kabul eden bir BT şirketini düşünün. Diyelim ki sekiz saatlik bir ara var:

  • Kullanılabilirliği haftalık olarak bildirirsek, AST (Kabul Edilen Hizmet Süresi) 24 x 7 saat = 168 saat olur
  • aylık AST (24 x 365) / 12 = 730 saat
  • üç ayda bir AST (24 x 365) / 4 = 2190 saat

Bu sayıları kullanılabilirlik denklemine koymak şunları verir:

  • Haftalık Kullanılabilirlik = %100 x (168-8) / 168 = %95,2.
  • Aylık Kullanılabilirlik = %100 x (730 - 8) / 730 = %98,9
  • Üç Aylık Kullanılabilirlik = %100 x (2190-8) / 2190 = %99,6

Bunların her biri, hizmet kullanılabilirliğinin geçerli bir göstergesidir, ancak bunlardan yalnızca biri hedefe ulaşıldığını gösterir.

Gözaltında

Çalıştığım hemen hemen her BT şirketi, hizmetlerinin kullanılabilirliği hakkında önlemler ve raporlar. Gerçekten etkili BT departmanları, optimize etmek için müşterileriyle birlikte çalışır kendi yatırımları ve mükemmel erişilebilirlik sağlar. Ancak ne yazık ki birçok BT şirketi SLA'daki sayılara odaklanıyor ve raporlarında tutarlı sayılar gösterseler bile müşterilerinin ihtiyaçlarını karşılayamıyor.

Bu uzun bir makaledir, aşağıda kapsanan önemli noktalar bulunmaktadır:

  • %2 kesinti süresinin etkisini anlamıyorsanız, müşteriye %98 kullanılabilirlik sağladığınızı söylemenize gerek yok
  • Müşterilerinizle konuşun ve herhangi bir kesinti süresinin onlar ve son müşteriler üzerindeki etkisini anladığınızdan emin olun.
  • Müşterilerinizin kritik iş süreçlerini korumanın yollarını düşünün
  • Müşterilerinizin ihtiyaçlarını karşılayan kesinti süresinin sıklığı ve süresinin yanı sıra kesinti süresinin performans üzerindeki etkisini ölçmenin yollarını bulun
  • Kullanılabilirlik ölçümlerini müşterileriniz için anlamlı olacak ve planlamaya yardımcı olacak şekilde kabul edin, belgeleyin ve belirtin
  • Kullanılabilirliği doğru bir şekilde değerlendirmek ve raporlamak için uygun araçları kullanın.

Tavsiyeme başka neler eklemek istersiniz? Lütfen yorumlara yazın.

"Kullanılabilirlik", "ondalık noktadan sonra üç dokuz" - bu terimler genellikle yeni BT çözümleri tartışılırken kullanılır. BT mimarları müşteriye bir proje öneriyor yeni sistem, özellikle çok yüksek kullanılabilirliğe sahip olmasına dikkat ederek. Sözleşme imzalandı, sistem kuruldu, kompleksin işletmeye alma sertifikaları imzalandı ve işletmeye başlandı... Oluşturulan sistemin “kalitesi” kontrol edilebiliyor ve işletme aşamasındadır. işte o zaman hayal kırıklığı baş gösterebilir. Büyülü "dokuzların" arkasında ne gizlidir? Tasarım aşamasında gerçekte ne vaat ediliyor? Ve erişilebilirlikten kim sorumlu?

Erişilebilirlik: konuya giriş

Erişilebilirliği anlamanın en iyi yolu, neden gerekli olduğunu anlamaktır. Kullanılabilirlik, bir işletmenin bir BT hizmetinden ne beklediğinin bir ölçüsüdür. Ne yazık ki, bazı iş temsilcilerine bir BT hizmetinin istenen kullanılabilirliği sorulduğunda şuna benzer bir yanıt veriyor: "Her şeyin her zaman çalışmasını istiyorum." Bu durumda, kullanılabilirlik parametrelerinin belirlenmesi de dahil olmak üzere hizmet için görev tanımlarını yazmak BT yöneticisine kalmıştır. Dolayısıyla kullanılabilirlik, işletmenin tükettiği ve BT hizmetinin sağladığı BT hizmetinin bir parametresidir. Kullanılabilirliği hesaplama formülü:

Kullanılabilirlik = (AST - DT)/AST×100 = Hizmet veya Bileşen Kullanılabilirliği (%)

nerede
AST (kabul edilen hizmet süresi)- hizmetin sağlanması için kararlaştırılan zaman;
DT (kabul edilen hizmet süresi boyunca fiili duruş süresi)- Hizmetin sağlanmasının kararlaştırılan süresi boyunca hizmetin kullanılamadığı gerçek zaman.

Kullanılabilirlik hesaplamasının özellikleri, belirli bir örnekle anlaşılması daha kolaydır. Moskova'da bulunan ve kitap satan AAA şirketi için BT hizmeti "çevrimiçi mağazanın" kullanılabilirliğini belirlemeye çalışalım. Aynı zamanda, örneğin bir kredi kartı kullanılarak kitaplar ve herhangi bir şehre teslimatı için ödeme yapılabilir. Açıkçası, teslimat siparişleri yalnızca hafta içi sabah 9'dan akşam 6'ya kadar işlenecektir.

Ancak AST, Mutabık kalınan Hizmet Süresi ne olacak? Bu soruyu cevaplamak için, insanların sipariş verebileceğini hesaba katmak gerekir. çalışma dışı zaman ve Rusya'nın 11 saat dilimine sahip olduğu gerçeğini dikkate aldığınızdan emin olun. Bu nedenle hizmetin 7 gün 24 saat kesintisiz verilmesi gerekmektedir.

Şimdi DT ile ilgilenmemiz gerekiyor - hizmetin kullanılamadığı zaman. Burada, iş dünyası ile müzakereler vazgeçilmezdir. Bu örnek için hizmetin ayda bir kez dört saat kullanılamaması yeterli bir seçim olabilir. Bununla birlikte, bir nüans dikkate alınmalıdır - DT parametresinin değerlendirildiği süre, yani hizmetin sağlanması için gerçek kabul edilen süre (AST). AST döneminin seçimi, sözleşme tarafları için özel bir konudur: iş ve BT hizmeti. Bir ay veya bir yıl sabit değerler olmadığından (farklı sayıda gün içerirler) böyle bir süre olarak bir hafta veya birkaç hafta almak daha iyidir. Ancak psikolojiye dikkat etmeniz gerekiyor: Daha kısa süreler iş dünyası tarafından olumsuz algılanabilir. Örneğimizde, aynı kullanılabilirlik değeri, haftada yaklaşık bir saatlik kesinti süresine karşılık gelir. Bununla birlikte, işletmeler, ayda dört saat kesintiyi kabul etmelerine rağmen, çevrimiçi mağazanın her hafta bir saat kullanılamaması gerçeğinden hoşlanmayabilir. Öte yandan, bazen bir BT sistemini planlı bakım için birkaç saat durdurmadan çalıştırmak mümkün olmayabilir. Bu tür planlı duruş süresi, bir DT seçerken de dikkate alınmalıdır, bu da AST parametresinin revizyonuna yol açabilir.

Yukarıdakilere dayanarak, her dört haftada bir 4 saatlik hizmetin kullanılamaması durumunu seçiyoruz. Yani AST = 4 hafta, DT = 4 saat. O zaman kullanılabilirlik:

Kullanılabilirlik = (24×7×4–4)/(24×7×4)×%100 = %99,40

İşletmenin aynı fikirde olmaması mümkündür. Bu durumda, hangi seçeneği kabul edeceğini bulmanız gerekir. Gelecekte, farklı kullanılabilirliğe sahip donanım ve yazılım sistemleri için iki seçenek hesaplayabilir ve her iki seçeneğin maliyetini karşılaştırarak işletmelerle pazarlık yapabilirsiniz. Genel olarak, iş ve BT hizmeti bütçelemesi ile müzakereler, belki de birden fazla kitabın kapsanmasını gerektirecek ayrı bir konudur. Bu nedenle, örneğimizde kullanılabilirliğin hesaplandığını ve kabul edildiğini varsayalım ve sistemin oluşturulmasına geçebiliriz.

Lütfen gerekli kullanılabilirliği, onu sağlayan bir çözüm üzerinde çalışmaya başlamadan önce belirlediğimizi ve bunun tersini değil - önce bir çözüm seçtik ve kullanılabilirliğini düşünmeye başladığımızı unutmayın. Referans şartları birincildir ve gerekli kullanılabilirlik, içinde sabitlenen parametrelerden biridir. Sistem devreye alındığında, kullanılabilirlik gerekli değere karşılık gelmelidir. Bu nedenle, işletme ile yapılan sözleşmede (SLA - Hizmet Düzeyi Sözleşmesi) kullanılabilirlik rakamının ne anlama geldiğini ayrıntılı olarak deşifre etmenizi tavsiye ederiz (örneğimizde: “4 saat içinde hizmetin bir (1) kez kullanılamaması dört (4 ) hafta”), böylece tüm taraflar sayıların ardında gerçekte neyin gizlendiğini açıkça anladılar.

Erişilebilirliğin Üç Sütunu

Bir çözüm seçerken göz önünde bulundurulması gereken ilk şey, bir BT hizmetinin kullanılabilirliğini oluşturan şeydir. İşletmenin almak istediği hizmetin mevcudiyeti, ekipmanın mevcudiyeti ile doğrudan ilişkili olduğu için, operasyon sırasında çok fazla hayal kırıklığı yaşanır. Ancak, bir BT hizmetinin kullanılabilirliği üç bileşenin birleşimidir:
1) Güvenilirlik - genellikle güvenilirlik olarak tercüme edilir;
2) Bakım - "bakım" olarak tercüme edilmiştir;
3) Servis kolaylığı - bakım kolaylığı.
Bu noktaların her birini inceleyelim.

Güvenilirlik

Güvenilirlik, iletişim de dahil olmak üzere bir bütün olarak bir altyapının veya bir donanım ve yazılım kompleksinin mevcudiyetidir. Örneğin, bir çevrimiçi mağaza için bir web sunucusuna, bir uygulama sunucusuna, bir DBMS'ye, disk depolama alanına ve İnternet erişimine ihtiyacımız var. Basitlik için, “uygulama sunucusu” yazılımının bir web sunucusu içerdiğini ve bir donanım sunucusuna, DBMS'nin ikincisine ve disk depolamanın bir harici disk dizisine kurulacağını varsayacağız.

Yaratmaya başlıyoruz - bir altyapı projesi inşa ediyoruz. Her bileşenin altına erişilebilirlik parametrelerini yazacağız. Her bir bileşenin mevcudiyeti - bundan böyle "güvenilirlik" terimini kullanacağız - bileşenin tedarikçisinden (ekipman, yazılım veya hizmetler). Herhangi bir nedenle bu mümkün değilse (örneğin, yazılım bileşenleri için güvenilirlik değeri genellikle bilinmiyorsa), gerekli değerin bağımsız olarak tahmin edilmesi ve atanması gerekecektir. Her bileşen tek bir arıza noktasıdır, bu nedenle güvenilirliği hesaplamak için çalışma devresinde seri olarak bağlanırlar (Şekil 1). Bunun altyapı bileşenlerini bağlamak için bir şema olmadığını, yalnızca güvenilirliği hesaplamak için bir şema olduğunu unutmayın.

O halde güvenilirliğe bakalım. Bileşenlerin seri bağlantısına sahip olduğumuz için güvenilirlik değerleri çarpılır:

Güvenilirlik = (0.985×0.97×0.975×0.98×0.999×0.9999×0.99)×100%= %89.47

Bu, gerekli olan %99,40 değerine kıyasla açıkça yeterli değildir. Sonra kararı değiştireceğiz - sisteme alternatif bir İnternet erişim hizmetleri sağlayıcısı dahil edeceğiz (Şekil 2) ve güvenilirliğini hesaplayacağız. İnternet erişimi açısından paralel bir bağlantımız olduğundan, genel güvenilirlik şu şekilde tanımlanır:

Genel Güvenilirlik =

Güvenilirlik = ×%100 = %91,72

Geleceğin sisteminin "güvenilir çalışma" ilkesinin ortaya konduğunu düşünüyorum. Dikkate alınan örnekte, ağ altyapısının bileşenlerinin ve bağlantıların güvenilirliğinin (örneğin, veritabanı sunucusu ve disk depolama arasındaki) yanı sıra teknik altyapının bileşenlerinin (güç kaynağı, klima, vb.), aynı zamanda başarısızlık noktalarıdır ve hesaplamaya dahil edilmelidir. Yazılım bileşenlerinin güvenilirliğinin değerlendirilmesi özel ilgiyi hak ediyor. Burada ana tavsiye makul bir muhafazakarlıktır: bu tür çözümlerde uzun süredir kullanılan ve kendilerini iyi kanıtlamış yazılım bileşenlerini kullanın.

Yukarıda kısaca tartışılan teknikleri kullanarak, gerekli kullanılabilirliğe sahip bir çözüm seçebilirsiniz.

Bakım ve Servis Kolaylığı

Kullanılabilirliğin diğer bileşenlerine geçelim -  sürdürülebilirlik ve servis verilebilirlik. "Bakım" ve "tamir edilebilirlik" çevirilerinin başarısız olduğunu not ediyorum, çünkü onlardan bunun ne anlama geldiği açık değil. Daha anlaşılır çeviriler kullanmak daha iyidir: sürdürülebilirlik - bir kuruluşun dahili BT hizmetinin etkinliği; hizmet verilebilirlik - harici sağlayıcılar tarafından sağlanan hizmetler.

Durumu netleştirmek için aşırı seçenekleri göz önünde bulundurun. Hangi durumda tam bir sürdürülebilirlik eksikliği var (bir kuruluşun dahili BT hizmetinin faaliyeti)? Bu, bir şirket kendi BT hizmetini dışarıdan sağladığında olur. Burada kullanılabilirlik yalnızca güvenilirlik ve harici sağlayıcılar tarafından sağlanan hizmetlerden oluşur.

Hangi durumda hizmet verme konusunda tam bir eksiklik var (dış sağlayıcılar tarafından sağlanan hizmetler)? Bu, örneğin, gizlilik nedeniyle, sistemi çalışır durumda tutmak için tüm faaliyetleri yalnızca BT departmanı tarafından yürütmek zorunda kalan FSB'de olur, yedek parçalar bile kendi başlarına satın alınır ve tedarik edilmez. teknik destek sözleşmesi kapsamında. Kullanılabilirlik, yalnızca sistemin güvenilirliğinden ve kuruluşun dahili BT hizmetinin faaliyetlerinden oluşur.

Sürdürülebilirlik ve servis verilebilirlik şemalarının geliştirilmesi ile aynı anda bir çözüm seçmenin gerekli olduğu açıktır. Genel olarak, güvenilirlik, bakım kolaylığı ve hizmet verilebilirlik, kullanılabilirliğin üç direğidir. Bunlardan birindeki değişiklik, diğer ikisindeki değişikliklerle telafi edilmelidir - aksi takdirde BT hizmet kullanılabilirliği parametresi değişecek ve bu da işletme için zararlı olabilir.

Erişilebilirlik bileşenlerini değiştirmenin yolları

Erişilebilirliğin tüm bileşenlerinin nasıl manipüle edilebileceğini anlamak için başka bir pratik örneğe bakalım. Rusya'nın iki şehrinde, Zelenograd (Moskova'nın uydu şehri) ve Irkutsk'ta veri merkezleri bulunan şirket, iki özdeş anahtar teslim sistem satın aldı. Sonuç olarak, güvenilirlikleri - güvenilirlikleri -  onlar için aynıdır. Her iki BT sistemine de donanım ve yazılım için aynı teknik destek sözleşmeleri sağlandı; bu, harici sağlayıcılar tarafından sağlanan hizmetlerin - servis edilebilirlik-  de aynı olduğu anlamına gelir. Ancak, sistemlerin kullanılabilirliği farklıydı. Ve şirket, çözümlerden birinin “kusurlu” olduğunu iddia ederek ve denetlenmesini talep ederek, sistemin Irkutsk'taki yetersiz kullanılabilirliği hakkında tedarikçiye şikayet etmeye başladı.

Bununla birlikte, bu durumda, çözümün denetimi büyük olasılıkla kullanılabilirlik "başarısızlığının" temel nedenini ortaya çıkarmayacaktır, çünkü yalnızca bir bileşen araştırılacaktır -  Güvenilirlik, her iki sistem için de aynı olmalıdır ve yalnızca iki diğer bileşen bileşenlerinin araştırılması gerekir. Onlara dikkat ederseniz, iki seçeneğin mümkün olduğu ortaya çıkıyor.

Seçenek 1: Donanım arızaları, kullanılabilirlik kaybına neden oldu. Veri merkezlerinin coğrafi konumu nedeniyle, aynı donanım destek sözleşmeleri aslında farklı olabilir. Örneğin, servis Merkezi dış tedarikçi Moskova'da bulunuyor ve teknik destek sözleşmesi sadece iş günlerinde geçerli olduğunu ve mühendisin ekipmanın kurulum yerine "ilk uygun demiryolu veya hava uçuşunda" geldiğini söylüyor. Açıkçası Moskova'dan yola çıkan bir mühendis için bu değer Zelenograd ve Irkutsk için farklı olacaktır.

Bu durumda erişilebilirlik sorununa olası çözümler:

  • Irkutsk'taki BT sisteminin güvenilirliğini değiştirin, örneğin kümeye ek bir düğüm ekleyin;
  • servis verilebilirlik parametresini değiştirin - Irkutsk'ta bir depo oluşturun, üreticinin kurallarına aykırı değilse, şirketin BT uzmanlarının hatalı bileşenleri bağımsız olarak değiştirme fırsatını yakalayın.

Ayrıca, çalışma koşullarını kontrol etmek mantıklıdır. Bu koşulların tipik ihlallerine örnekler:

  • tozlu olmalarına neden olan ve sunucu ekipmanı için toz çok tehlikeli olan sistemler açıkken tesislerde onarım çalışmaları yapmak;
  • sunucu odalarında ev tipi klimaların kullanılması, ancak her ekipmanın kendi nem gereksinimleri olmasına ve ev klimalarının ayarlanan seviyesini korumak için tasarlanmamasına ve tamamen kuru havanın ekipmana zarar vermesine rağmen.

Seçenek 2: Yazılım hataları, gerekli kullanılabilirlik düzeyinin düşmesine neden oldu. Bu durumda, sorun büyük olasılıkla Irkutsk'taki BT hizmetindedir. Yazılım teknik destek hizmetleri şu adreste verilmektedir: uzak mod. Bu nedenle, farklı saat dilimleri için yerel saate göre farklı hizmet dönemleri olması dışında hizmetlerde hiçbir fark yoktur, ancak bunun genellikle önemli bir etkisi yoktur. Buradaki erişilebilirliğin "başarısızlığının" olası nedeni, BT departmanlarının farklı profesyonellik düzeyidir - Irkutsk'ta muhtemelen Zelenograd'dan daha düşüktür. Olası çözümler:

  • sürdürülebilirliği gerekli seviyeye yükseltmek - Irkutsk'taki BT personelini BT sisteminin parçası olan yazılım ve donanım ürünleri konusunda eğitmek, BT ekibinin Zelenograd'dan deneyimlerini aktarmak, operasyon süreçlerini kopyalamak vb. için seminerler düzenlemek;
  • bakım yapılabilirliği hizmet verilebilirlik pahasına telafi edin - gelişmiş teknik destek hizmetleri, görev dışı bırakma hizmetleri vb. satın alın.

Örneğimize bir çevrimiçi mağaza ile dönersek, hangi güvenilirlik, bakım kolaylığı ve servis kolaylığı kombinasyonu optimal olacaktır? Bu sorunun cevabı her özel duruma göre değişir. Örneğin, tüm altyapıyı (BT ve teknik) tamamen kendiniz uygulamak yerine barındırma önerebilirsiniz. İÇİNDE Genel dava aşağıdaki tipik erişilebilirlik kontrol yöntemlerine sahibiz. 1. Güvenilirliği (güvenilirliği) değiştirin:

  • BT çözümünün yüksek kullanılabilirliğe (Yüksek Erişilebilirlik) doğru değiştirilmesi - kümelerin kullanımı, "sıcak" değiştirme desteğine sahip ekipman kullanımı, olası arıza noktalarının tekrar tekrar çoğaltılması, vb.;
  • tüm altyapıyı veya bir kısmını harici sağlayıcılardan kiralamak (barındırma, ortak yerleşim).

2. Sürdürülebilirlikteki değişiklik (şirketin BT hizmetinin faaliyetlerindeki değişiklikler):

  • BT yönetiminde kendi en iyi uygulamalarının organizasyon içinde dağıtımı;
  • BT departmanındaki süreçleri düzenlemeleri için harici danışmanları davet etmek;
  • BT personeli eğitimi.

3. Hizmet verilebilirlikte değişiklik - hizmet düzeyini artırma, hizmet hacmini artırma, harici hizmet sağlayıcıların sorumluluk alanını genişletme vb. yönünde harici sağlayıcılarla BT hizmet sözleşmelerinde değişiklik. Üç kaynağı manipüle etmenin tüm yöntemleri ve üç oluşturan parçalar erişilebilirlik tek bir makalede anlatılamaz, ancak erişilebilirliğin bazı bileşenlerini başkaları tarafından telafi etmeye yönelik ana yaklaşımlar gösterilmiştir. Bu alandaki becerilerinizi daha da geliştirmek için eğitim almalısınız. pratik tecrübe BT sistemlerinin tasarımı ve işletimi.

BT hizmetlerinin sağlanmasına ilişkin iş görüşlerinin değiştirilmesi, bunların kullanılabilirliğini yönetmek için bir süreç uygulama ihtiyacına yol açar.

ITIL'in üçüncü versiyonunda, BT hizmetlerinin kullanılabilirliğini ve sürekliliğini yönetme süreçleri birlikte ele alınmaktadır (bundan böyle süreç olarak anılacaktır). Bu işbirlikçi sürecin en önemli anahtar kavramları şunlardır:

kullanılabilirlik- bir BT hizmetinin veya bileşenlerinin işlevlerini belirli bir süre içinde yerine getirme yeteneği;

güvenilirlik- bir BT hizmetinin veya bileşenlerinin, belirli çalışma koşulları altında belirli işlevleri yerine getirme yeteneği;

geri kazanılabilirlik- bir BT hizmetinin veya bileşenlerinin, bir arıza sonucu kısmen veya tamamen kaybolan operasyonel özelliklerini geri kazanma yeteneği;

sürdürülebilirlik- kurulum, nakliye, bakım ve onarım sırasında personel eylemlerinin rasyonelliğini sağlamak için konumlarını ve parametrelerini belirleyen BT bileşenlerinin bir özelliği (bu kavram harici BT hizmet sağlayıcıları için geçerlidir).

İşletme, ihtiyaç duyduğu BT hizmetlerinin kullanılabilirliği ve maliyeti konusunda kendi fikrine sahiptir ve bu nedenle sürecin amacı, belirli bir maliyet düzeyini korurken gerekli kullanılabilirlik düzeyini sağlamaktır. Bu amaca ulaşmak için süreç aşağıdaki görevleri gerçekleştirmeyi amaçlar:

    Kullanılabilirlik düzeyi için iş gereksinimlerini dikkate alarak BT hizmetlerinin planlanması ve geliştirilmesi;

    Uygun maliyetli iyileştirmeler yoluyla BT hizmetlerinin kullanılabilirliğini optimize etmek;

    BT hizmetlerinin kullanılabilirliğini etkileyen olayların sayısını ve süresini azaltmak.

Bu sorunları çözme sürecinde, BT hizmetlerinin ve BT altyapı bileşenlerinin kullanılabilirliği için iş gereksinimleri sabitlenir; gerekli raporlar hazırlanır; BT hizmet kullanılabilirlik seviyeleri periyodik olarak gözden geçirilir; öncelikleri tanımlayan ve BT hizmetlerinin kullanılabilirliğini geliştirmeye yönelik önlemleri yansıtan bir kullanılabilirlik planı oluşturulur. Başka bir deyişle, süreç, BT hizmetlerinin sunumunu planlamaya, kullanılabilirlik düzeyini ölçmeye ve onu iyileştirmek için harekete geçmeye başlar.

Planlama

Planlama, BT hizmetlerinin kullanılabilirliği için iş gereksinimlerini formüle eder, BT hizmetlerinin kullanılabilirlik düzeyini ve kabul edilebilir kapalı kalma süresini belirlemek için kriterler geliştirir ve ayrıca bazı hususları dikkate alır. bilgi Güvenliği. İşletme, BT altyapısında bir arıza olması durumunda bir BT hizmeti için izin verilen kapalı kalma süresi gibi bir BT hizmetinin kullanılabilirliğini ve kullanılamazlığını tanımlayan bir sınır oluşturmalıdır.

BT hizmetlerinin kullanılabilirliği tasarlanırken, yedekliliği olmayan ve bir arıza durumunda hizmetin sağlanması üzerinde olumsuz bir etkisi olabilecek en savunmasız bileşenleri belirlemek için BT altyapısının bir analizi yapılır. BT hizmetleri. ITIL terminolojisinde bu tür bileşenlere Tek Nokta Arıza (SPOF) adı verilir ve bunları belirlemek için Bileşen Arıza Etki Analizi (CFIA) yöntemi kullanılır. Bu yöntem, BT bileşeni arızalarının bir BT hizmeti üzerindeki etkisini değerlendirmek ve tahmin etmek için kullanılır. CFIA'nın ana hedefleri şunlardır:

    Kullanılabilirliği etkileyen arıza noktalarını belirleyin;

    Bileşen arızasının iş ve kullanıcılar üzerindeki etkisinin analizi;

    Bileşenler ve personel ilişkisinin belirlenmesi;

    Bileşenlerin iyileşme süresinin belirlenmesi;

    Kurtarma seçeneklerini tanımlayın ve belgeleyin.

Risk analizi için, BT bileşenlerinin olası tehdit ve bağımlılıklarının analiz edildiği, standart dışı durumların veya acil durumların gerçekleşme olasılığının değerlendirildiği risk analizi ve yönetimi yöntemi (CCTA Risk Analizi ve Yönetim Metodu, CRAMM) kullanılır. .

Gerekli kullanılabilirlik düzeyini sağlamak için, bir bileşenin planlı veya plansız hizmet dışı kalma süresi, BT bileşenlerinin çoğaltılması nedeniyle olumsuz etkilerden maskeleme tekniklerinin yanı sıra aşağıdaki durumlarda bir bileşenin performansını iyileştirecek araçların kullanılması mümkündür. yükte bir artış, vb. Belirli iş fonksiyonlarının büyük ölçüde BT hizmetlerinin kullanılabilirliğine ve kayıplara bağlı olduğu durumlarda iş itibarı kapalı kalma süresi kabul edilemez olarak kabul edilir, belirli BT hizmetleri için daha yüksek kullanılabilirlik değerleri belirlenir ve ek kaynaklar tahsis edilir.

BT hizmet sunumu tasarımı, belirtilen kullanılabilirlik gereksinimlerinin karşılanmasını sağlar, ancak bu, BT hizmetlerinin istikrarlı, operasyonel durumunu ifade eder. Bununla birlikte, arızalar da mümkündür, bu nedenle, olay yönetimi süreci ve Hizmet Masası hizmeti ile etkileşimin organizasyonu dahil olmak üzere BT hizmetlerinin restorasyonu için planlama yapılır; arıza tespiti ve bunların zamanında bildirilmesi için izleme sistemlerinin planlanması ve uygulanması; donanım, yazılım ve verilerin yedeklenmesi ve kurtarılması için gereksinimlerin geliştirilmesi; bir yedekleme ve kurtarma stratejisi geliştirmek; kurtarma metriklerinin tanımı, vb.

Planlamanın bir başka yönü de duruş süresinin belirlenmesidir. Tüm BT bileşenleri bir bakım stratejisine tabi olmalıdır. Kullanılan BT'ye ve belirli bir BT bileşeni tarafından desteklenen iş işlevlerinin kritikliğine ve önemine bağlı olarak, hizmetin sıklığı ve düzeyi değişebilir. 24x7 modunda bir hizmet sağlanması gerekiyorsa, BT bileşenlerine hizmet verme gereksinimleri ile hizmet kesinti süresinden kaynaklanan iş kayıpları arasında en uygun dengeyi bulmak gerekir. Onaylanmış hizmet programları, Hizmet Düzeyi Sözleşmelerinde (SLA'lar) belgelenmelidir.

BT hizmetlerinin kullanılabilirliğini iyileştirme

Erişilebilirliği neden iyileştirmelisiniz? Bunun birçok nedeni olabilir: BT hizmetlerinin kalitesinin SLA gerekliliklerine uymaması; BT hizmetlerinin sağlanmasında istikrarsızlık; BT hizmetlerinin mevcudiyetinde aşağı yönlü eğilimler; kabul edilemez derecede uzun iyileşme süreleri; kullanılabilirlik düzeyini artırmak için işletmeden gelen talepler.

Erişilebilirliği iyileştirmek için makul ek Finansal maliyetler ve BT hizmetlerini iyileştirme olasılığını belirlemek için, hata ağacının analizi (Hata Ağacı Analizi, FTA) ve sistem kesintisi analizi (Sistem Kesintisi Analizi, SOA) gibi belirli yöntemler ve teknolojiler kullanılır.

Hata ağacı analizi, bir BT bileşeninin veya BT hizmetinin arızalanmasına yol açan olaylar zincirini tanımlar. Grafiksel olarak, bir hata ağacı (şekle bakınız), bir başlangıç ​​olayıyla başlayan, ardından bir veya daha fazla işlevsel olayla başlayan ve bir son durumla biten bir olaylar dizisidir. Olaylara bağlı olarak, diziler mantıksal olarak dallara ayrılabilir.

Sistem kesintisi analizi, BT hizmet sunumundaki kesintilerin temel nedenlerini belirlemeye yönelik yapılandırılmış bir yaklaşımdır ve kesintilerin yerini ve nedenini belirlemek için birden çok veri kaynağı kullanır. Bu analizin amaçları şunlardır:

    BT hizmetlerinin sağlanmasındaki başarısızlıkların temel nedenlerinin belirlenmesi;

    BT hizmet desteğinin etkinliğinin belirlenmesi;

    Raporların hazırlanması;

    Kabul edilen tavsiyeleri uygulamak için bir programın başlatılması;

    Sistem kesintisi analizi yoluyla elde edilen kullanılabilirlik iyileştirmelerinin analizi.

Sistem kesinti analizinin kullanılması, maliyetleri artırmadan kullanılabilirliği iyileştirecek, kullanılabilirliği iyileştirme konusunda danışmanlık maliyetinden kaçınmak için personelin kendi beceri ve yeteneklerini geliştirecek ve belirli bir iyileştirme programı belirleyecektir.

Hizmet kullanılabilirliği iyileştirme faaliyetinin sonucu, finansal kısıtlamalar dahilinde BT hizmetlerinin kullanılabilirliğini proaktif olarak iyileştirmeye yönelik uzun vadeli bir plandır. Kullanılabilirlik planı, mevcut ve planlanan kullanılabilirlik düzeylerinin yanı sıra bunu iyileştirmek için gerçekleştirilmesi gereken faaliyetleri açıklar. Planın hazırlanması, iş temsilcilerinin, uygulanan ITSM süreçlerinin yöneticilerinin, harici BT hizmet sağlayıcılarının temsilcilerinin katılımını gerektirir. teknik uzmanlar test ve bakımdan sorumlu destek. Plan iki yıla kadar bir süre için hazırlanır ve sonraki altı ay için şunları içermelidir: Detaylı Açıklama Etkinlikler. Plan, minimum düzeltmelerle üç ayda bir ve büyük değişiklikler yapma olasılığı ile altı ayda bir gözden geçirilir.

BT Hizmetlerinin Kullanılabilirliğini Ölçme

Bir BT hizmeti, onu kullanan hayati iş fonksiyonları normal bir şekilde çalıştığında, müşterinin bakış açısından kullanılabilir olarak kabul edilebilir. Aynı zamanda, ana nicel göstergeler kullanılabilirlik - bir BT bileşeninin gerçek kullanılabilirlik süresinin hizmet düzeyi anlaşmalarında tanımlanan kullanılabilirlik zamanına oranı ve kullanılamazlık (% olarak) - kullanılabilirliğin tersine çevrilmesidir. Bu parametreler BT hizmetleri tarafından kullanılır ve iş veya kullanıcı kullanılabilirlik değerlerini yansıtmadıkları için iş açısından çok temsili değildir - gerçek kullanılabilirlik düzeyi iken BT bileşenlerinin yüksek düzeyde kullanılabilirliğini gösterebilirler. BT hizmetlerinin sayısı düşük olacaktır.

BT hizmet kesintilerinin sıklığı, kesintinin toplam süresi, BT hizmetinin kesintiye uğramasından etki alanı gibi göstergeler işletme tarafından anlaşılabilir olabilir.

Görev ve Sorumluluklar

Süreç içinde, sorumluluğu süreci yönetmek ve gerekli eylemleri gerçekleştirmek olan süreç yöneticisinin rolü tanımlanır. Süreç yöneticisi, sürecin mevzuat ve planlara uygun olarak işletilmesinden ve geliştirilmesinden sorumludur. Bir süreç yöneticisi rolü için, süreç yönetimi konusunda pratik deneyime, ITSM bilgisine, BT'de kullanılan istatistiksel ve analitik yöntemlere, maliyet yönetimi ilkelerine, personelle çalışma deneyimine, müzakere yöntemlerine sahip olmasına vb. sahip bir çalışanın kabul edilmesi önerilir.

Süreç Uygulaması

Herhangi bir ITSM sürecinin uygulanması, belirli hedeflere ve son teslim tarihlerine sahip uzun ve karmaşık bir projedir. Kendi başınıza uygulamak zordur: süreci günlük işlemlere paralel olarak uygulamak, projeye tam olarak odaklanmanıza izin vermez; kaynakların proje dışındaki görevlere sürekli olarak “çekilmesi”, sonuçta finansal maliyetlerde bir artışa, proje zaman çizelgesinde belirsiz bir süre için bir kaymaya, kademeli bir dikkat kaybına ve hatta projenin olası bir şekilde durmasına yol açar. Ayrıca, kurum içi uygulama, maliyetli eğitim gerektiren alan bilgisi gerektirir.

Herhangi bir projede olduğu gibi, süreç uygulaması proje ekiplerinin oluşturulması, proje yönetimi belgelerinin geliştirilmesi, bir proje planının geliştirilmesi vb. ile başlar. "Ön proje" çalışması aşamasında, pazarlama etkinlikleri iş temsilcilerini ITIL teknolojileri ve tavsiyeleri ile tanıştırmak ve iş dünyasının bir BT hizmet kullanılabilirliği yönetim sürecini uygulama ihtiyacını doğrulamak.

Sürecin uygulanması konusunda mutabık kalınarak olumlu yanıt alındıktan sonra sürecin konu alanının amaçları ve sınırları belirlenir.

Etki ve sorunlar

Süreci uygulamanın birincil etkisi, BT hizmetlerinin kullanılabilirlik göz önünde bulundurularak tasarlanması ve kararlaştırılan bir kullanılabilirlik ve maliyet düzeyinde çalıştırılması ve yönetilmesidir. Olumlu faktörler ayrıca şunlardır: BT hizmetlerinin kullanılabilirliğinden sorumlu bir kişinin varlığı; BT hizmetlerinin gerekli düzeyde kullanılabilirliğini sağlamak için BT altyapısının performansının optimum kullanımı; zaman içinde BT hizmet arızalarının sıklığını ve süresini azaltmak; BT hizmet sağlayıcılarının faaliyetlerinde hizmetlerin sağlanmasındaki hataların ortadan kaldırılmasından kullanılabilirlik düzeylerinin artırılmasına yönelik niteliksel bir geçiş.

Süreci uygulama ve yürütme kararını olumsuz etkileyebilecek olası sorunlar genellikle örgütsel niteliktedir:

    Her BT yöneticisinin kendi sorumluluğu altındaki BT sistemlerinin veya bileşenlerinin kullanılabilirliğinden sorumlu olduğu ve BT hizmetlerinin genel kullanılabilirliğinin izlenmediği ve yetersiz olabileceği bir durumun varlığı;

    BT hizmetlerinin mevcut mevcudiyeti kabul edilebilir olarak kabul edildiğinden bir sürecin uygulanamaması;

    Uygulanan başka ITSM süreçleri varsa, kullanılabilirlik yönetimi sürecinin otomatik olarak gerçekleştirileceği varsayımları;

    BT yöneticileri tarafından BT altyapı yönetiminde merkezileşmeye direnç;

    Süreç yöneticisinin yetersiz yetkisi, görevlerin gerektiği gibi yerine getirilememesine yol açar.

Evgeniy Bulychev (Bulychev@i-teco.ru) - I-Teco Business Consulting (Moskova) danışmanı.

Bu makaleyi yazma fikri, büyük müşterilerden biriyle konuştuktan sonra geldi - bir meslektaş, şirketi için bir IaaS bulut hizmeti sağlayıcısı seçme hikayesini anlattı.

Bir hizmet sağlayıcıyı değerlendirmek için ilk kriter seti şuna benziyordu: iyi bilinen bir isim (marka), bulut hizmetleri alanında olumlu bir iş geçmişi, yeterli maliyet. Muhtemel başvuru sahiplerinin analizinin sonuçlarına dayanarak, yukarıdaki kriterlere göre neredeyse aynı olan birkaç şirket arasından seçim yaptılar ve her biri bulut hizmetlerinin farklı özelliklerine atıfta bulunarak avantajlarını kanıtlamaya çalıştılar.

Vladimir Kurilov, Onlanta şirketi.

Böylece konuşma güvenilirlik göstergelerine geldi. Ve bulutların bulunduğu veri merkezlerinin kullanılabilirlik düzeylerinin karşılaştırılması etrafında yapıldı. Yalnızca iki adayın %99,98 kullanılabilirliğe sahip veri merkezlerine sahip olduğu kısa sürede anlaşıldı. Seçim, yabancı bir bulut hizmeti sağlayıcısı lehine yapıldı - fiyat kazandı. Meslektaş her şeyi basitçe açıkladı, - “Aynı güvenilirlik göstergeleri için daha fazla ödemenin anlamı nedir?”

varlığı göz önüne alındığında Çeşitli seçenekler, "Erişilebilirlik" teriminin yorumunu bu makale çerçevesinde tanımlayalım. Kullanılabilirliği, belirli bir zaman aralığında, bu aralığın yüzdesi olarak ifade edilen sistem çalışma süresi olarak tanımlayalım. Veya klasik biçimde: "Bir nesnenin belirli bir zaman aralığı için belirli koşullar altında gerekli bir işlevi yerine getirme özelliği." Hangi, genel olarak, sistemin zaten oldukça iyi kurulmuş "Hazırlık" kavramına daha yakındır.

Bu kararı takip eden çalışma yılı, programlı anahtarlama sırasında sağlayıcının veri merkezinin mühendislik sistemlerinin çalışmasında küçük arızalar olduğunu gösterdi. Aynı zamanda, geçiş saniyeler sürdüğü için veri merkezinin kullanılabilirliği SLA içinde kaldı. Ancak, eğer Bilgi sistemi Müşteri, bu tür anahtarlardan önce durmadı, arıza durumunda veritabanı, çalışanların çalışmasını birkaç saat durduran bir yedek kopyadan geri yükleme gerektiriyordu. Sistemleri açmadan önce kapatıp açmak durumu biraz iyileştirdi, ancak aynı zamanda çalışanların 25-30 dakikalık bir kesinti süresi vardı ve bu da kullanıcılardan şikayetlere neden oldu.

Bir yıl geçti ve şimdi İş Arkadaşı, veri merkezlerinden birinin kullanılabilirliğinin yukarıdakinden daha düşük olduğu ve kesinti süresinin önemli ölçüde azaldığı başka bir bulutta kapasite kiralıyor. Bu nasıl başarılabilir ve bulut çözümlerinin güvenilirliğini değerlendirirken ne önemlidir ve ne çok önemli değildir? Gerçek güvenilirlik için değil de “güzel sayılar için” fazla ödeme risklerini azaltan tasarruf fırsatları nelerdir? Uygulamanızın güvenilirliği için bulut hizmetlerinin kritik parametrelerini nasıl vurgulayabilirsiniz?

Bu soruların cevaplarını daha fazla formüle etmeye çalışacağım.

Uygulama güvenilirliği - bulutta nelerden oluşur

Uygulama Hizmeti Güvenilirliği

Uygulamanın güvenilirliğinin bir tanımını formüle etmeye çalışırsanız, kulağa şöyle gelecektir: "Güvenilirlik, uygulamanın tüm işlevleriyle birlikte zaman içinde performansını koruma özelliğidir."

Uygulamanın performansını ne belirler ve veri merkezinin kullanılabilirliği ile ilgili uygulamanın güvenilirliği nasıldır?

Uygulama, bir mühendislik platformu kullanan bir altyapı platformunda bulunan bir yazılım platformuna dayanmaktadır, bkz. Bu dört katman birlikte "Uygulama Hizmeti" sağlar.


Pirinç. Uygulama Hizmetinin kullanılabilirliğini hesaplamanın basitleştirilmiş bir örneği

Şekilden görülebileceği gibi, herhangi bir elemanın arızalanmasının bir bütün olarak sistemin arızalanmasına yol açtığı sıralı elemanlar sistemi ile uğraşıyoruz.

Böyle bir sistemin kullanılabilirliği (As), tüm unsurların kullanılabilirlik göstergelerinin ürünü olarak tanımlanır:


A i, seri olarak bağlı her bileşenin kullanılabilirliğidir.
A s = 0.99995 0.99995 0.993 0998 ≈ 0.99091 veya 99.091

Gördüğünüz gibi, Uygulama Hizmetinin kullanılabilirliği, veri merkezinin mühendislik platformunun kullanılabilirliğinden çok daha önemlidir. Kullanılabilirlik numaralarını sistem kesinti süresine dönüştürebilirsiniz. Mühendislik platformunun izin verilen yıllık kesinti süresine rağmen, 1 saatte ortaya çıkıyor. 45 dakika, uygulama hizmeti için yıllık kapalı kalma süresi 86 saat 22 dakika olacaktır.

Buna göre, veri merkezinin yüksek kullanılabilirliği, bu veri merkezinde çalışan uygulama hizmetlerinin aynı yüksek güvenilirliğini göstermez.

Ağ Uygulama Güvenilirliği

Bu nedenle, hizmet sağlayıcıları seçerken, uygulama hizmetlerinin toplam kullanılabilirliğine odaklanmak doğru olur mu? Ne yazık ki, burada her şey o kadar basit değil.

Bir yazılım geliştiricinin, tek bir uygulamanın güvenilirliğinin (arızalara, yüklere karşı direnç) sağlanmasını etkileyebileceği ortaya çıktı. Örneğin, buluttaki bir uygulamanın güvenilirliği, yürütülen isteklerin gecikmelerini işlemeye odaklanan özel kitaplıkların kullanılmasıyla önemli ölçüde iyileştirilebilir. Standart yollarla yazılan uygulamalar, nispeten daha düşük güvenilirlik göstergelerine sahip olacaktır.

Microsoft tarafından özel kitaplıkların kullanımının uygulanmasına yönelik seçeneklerden biri, Geçici Hata İşleme Uygulama Bloğu'dur (bkz. http://msdn.microsoft.com/en-us/library/hh680934(v=pandp.50).aspx).

Yazılım platformunun güvenilirliği

Dahil olmak üzere yazılım platformunun güvenilirliği işletim sistemi, sürücüler, kütüphaneler yine "geliştiricilerin tarafında" kalıyor ve şimdiye kadar servis sağlayıcıya çok fazla bağlı değil. Ancak, hizmet sağlayıcı uygun bir teknik destek politikası uygulamaya koyduysa, bu durum, kullanılabilirliği dolaylı olarak etkileyebilir.

"Hijyenik" güvenlik ekipmanlarından bahsediyorum. Her şeyden önce, sistem yazılımı güncelleme hizmeti hakkında. Hizmet sağlayıcının hizmet portföyünde olmalı ve daha da iyisi "varsayılan" hizmetin fiyatına dahil edilmelidir. İkinci olarak, çeşitli anti-virüs programları içeren bir anti-virüs koruma hizmetidir. Ve üçüncüsü, destek olmak müşteri sanal sunucuları. Bunların hepsi değil, Uygulama Hizmetinizin kullanılabilirliğini artırmanın en önemli yollarıdır.

Altyapı platformunun güvenilirliği

Bu güvenilirlik bileşeni tamamen hizmet sağlayıcıya bağlıdır ve sizin tarafınızdan veri merkezi mühendislik platformunun kullanılabilirliği ile eşit olarak değerlendirilmelidir. Genellikle pazarlama materyallerinde yer almadığından bu parametreyi ISP'nizden talep etmelisiniz. Bu durumda, bu parametrenin nasıl hesaplandığına dair açıklamalar elde etmek gerekir.

Altyapı çözümünün yapısal şeması ve kullanılan ekipman hesaplamadan netleştiğinden, tüm hizmet sağlayıcıların bu tür verileri sağlamak istemeyeceği akılda tutulmalıdır - ve bu belirli bir teknik bilgidir.

Yine de:

  • Özel Uygulama Hizmetinizi barındırmak için altyapı platformunun işlevsel yapısının bir diyagramını isteyin. Şunları içermelidir:
    • ağ altyapısı;
    • Depolama Alanı Ağı;
    • bilgi işlem altyapısı.
  • Bu şemada ekipman fazlalığının yerlerini belirtmeyi isteyin. Kullanılan ekipmanın türünü belirtmek gerekli değildir.
  • Her seviye için uygunluk (veya hazır olma) isteyin.
  • Kullanılabilirliği, altyapı platformunun öğelerinin kullanılabilirliğinin ürünü olarak hesaplayın.

Artık uygulama hizmetinizin kullanılabilirliğini mümkün olduğunca güvenilir bir şekilde belirleme fırsatınız var. Tecrübelerimize dayanarak, Rusya'daki ortak girişimlerin %90'ının toplam kullanılabilirliği %99'dan fazla değildir. Ve bu, yılda 87 saate varan arıza süresi riskidir. Saatlik kapalı kalma süresi size milyonlarca dolar zarar getiren iş açısından kritik uygulamalarınız yoksa bunlar normal kullanılabilirlik göstergeleridir. Ve saatlik bir duraklama işletmeniz için bir felakete benziyorsa, o zaman sizin için geriye kalan %10, Uygulama Hizmetinin %99,99 düzeyinde kullanılabilirliği ile kurumsal düzeyde bir hizmet sağlayan JV'ler vardır. Bir sonraki bölümde bunun nasıl başarıldığı.

Uygulama hizmeti yüksek kullanılabilirlik çözümleri

Sonuç olarak, müşteri için mühendislik sistemleri için SLA'nın nasıl gözlemlendiği önemli değildir, onun için uygulamalarının hizmetinin kullanılabilirliğinin ne olduğu önemlidir, yani. - Garantili uygulama kurtarma süresi.

Daha önce tartıştığımız sistemler sıralı bir yapıya sahipti. Yukarıda bireysel unsurların bir ürünü olarak hesapladığımız kullanılabilirlik, bu tür sistemlerin sağladığı teknik sınırdır. Aslında, çeşitli ek faktörlerin ortaya çıkması nedeniyle kullanılabilirlik daha da düşüktür. Makalenin başındaki ikinci bir elektrik kesintisi ve beş saatlik aksama süresi hakkındaki hikayeyi hatırlıyor musunuz?

Belirli bir veri merkezinin kullanılabilirlik parametreleri ayarlanmışsa ve değiştirilemezse uygulamanın kullanılabilirliğini artırmak mümkün müdür?

Cevap, yapabilirsin.

Örneğin, bunu yapmanıza izin veren iki yaklaşım:

  • Coğrafi olarak dağıtılmış yüksek kullanılabilirlik kümesi;
  • Coğrafi olarak uzak bir yedekleme veri merkezinde işlemenin kurtarılması (Felaket kurtarma).

Pirinç. yapısal şema coğrafi olarak dağıtılmış yüksek kullanılabilirlik kümesi


Pirinç. Coğrafi Olarak Uzak Bir Yedekleme Veri Merkezinde İşlemeyi Geri Yüklemek için Blok Şeması

İlk yaklaşım, kullanılabilirlik açısından idealdir (sağlık saniyeler içinde geri yüklenir), ancak fiyat kaybeder ve uygulanması oldukça zordur. İkinci yaklaşım, hizmeti çalışan bir kopyadan geri yükler - bu çok hızlı değildir ve arıza durumunda verilerin küçük bir kısmının manuel olarak geri yüklenmesi gerekecektir, ancak bu seçeneğin maliyeti daha düşüktür ve uygulanması daha kolaydır.

Her iki durumda da kaynakların birbirine bağlı olma ihtimalinden olabildiğince kaçınmak için veri merkezlerinin coğrafi uzaklığından bahsetmek gerekiyor. Örneğin, veri merkezlerine güç sağlayan aynı trafo merkezlerinin kullanılması. 2003 yılında New York'taki Chaginskaya trafo merkezinde çıkan yangın nedeniyle Mayıs 2008'de Moskova'nın güneydoğusundaki elektrik kesintisi hatırlanabilir. Bu nedenle, yedek veri merkezi ana merkezden uzakta bulunmalıdır.

İki veri merkezi ile yaklaşım, paralel elemanlarla bir sistem oluşturma hakkında konuşmamızı sağlar. Aynı zamanda, bir yandan ana ve yedek veri merkezleri bağımsız sistemlerdir, diğer yandan uygulama hizmeti için ortak bir platformdur - uygulama şu anda hangi veri merkezinde çalışırsa çalışsın, taşınabilir bir veri merkezinden diğerine.

Paralel sistemin temel farkı, sistemin paralel elemanlarının artmasıyla güvenilirliğinin artmasıdır. Paralel elemanlardan oluşan bir sistemin mevcudiyeti aşağıdaki formül kullanılarak hesaplanabilir:

Nerede: A s - Toplam kullanılabilirlik, tüm sistemin kullanılabilirliği,
A i, her paralel bağlı bileşenin kullanılabilirliğidir.

Örneğin, her biri kullanılabilirlik = %99 olan iki veri merkezinden oluşan, coğrafi olarak dağıtılmış yüksek kullanılabilirlik kümesinden oluşan bir sistemi hesaplayalım.

A s \u003d 1-(1-0.99) * (1-0.99) \u003d 0.9999 veya 99,99

Yani, en güvenilir olmayan iki veri merkezi, kritik görev sistemleri düzeyinde kullanılabilirlik sağlayabilir.

Coğrafi olarak uzak bir yedekleme veri merkezinde işlemeyi geri yükleme seçeneğinde uygulama hizmetinin kullanılabilirliğini belirleyin, tek bir arıza durumunda 15 dakikalık bir senkronizasyon aralığı ile aşağıdaki gibi hesaplanır: Uygulama hizmetinin geri yükleme süresini talep etmeniz gerekir SP tarafından garanti edilen; sonra yıllık aralığın yüzdesini hesaplarız ve sonucu birlikten çıkarırız. İlk başarısızlıktan sonra kullanılabilirlik elde ederiz. Örneğin, 15 dakikalık eşitleme aralığına sahip bir sistem için:

Bir yıldaki toplam saat sayısı 365*24=8760
Garantili Kesinti Süresi = Maksimum Kesinti Süresi
15 dakika veya 0,25 saat, yani yıllık sürenin 0,003'ü

Onlar. her başarısızlığın ağırlığı %0,003 olacaktır. Böylece sistem arızadan önce %100, ilk arızadan sonra %99,97, ikinci arızadan sonra %99,94 kullanılabilirliğe sahiptir. Aynısını saatlik senkronizasyon aralığı olan bir sistem için hesaplayalım:

Garantili kurtarma süresi = Maksimum arıza süresi = 1 saat, yani yıllık sürenin ≈ 0,01'i

Her arızanın ağırlığı %0.01 olacaktır. Böylece sistem arızadan önce %100, ilk arızadan sonra %99,99, ikinci arızadan sonra %99,98 kullanılabilirliğe sahiptir. Ayrıca, olasılık teorisinin taraftarları, birinci, ikinci, üçüncü başarısızlıkların olasılığını değerlendirmede pratik yapabilirler. Sonuç, elde edilen sonuçlar üzerinde bu faktörün etkisinin ihmal edilebilir olduğuna sizi ikna edecektir. Bu, buluttaki uygulamalarınız için hizmet kullanılabilirliğini değerlendirmek için önerilen bir metodoloji önermeme izin veriyor.

Yukarıdakileri özetlemek...

  • Bulutta barındırmayı planladığınız uygulamanın iş kritikliğini değerlendirerek başlayın. Uygulama kesinti süresinin maliyetini tahmin edin. Uygulama hizmetinin olmaması size ne kadara mal olacak?
  • Buradan, günlük, yıllık izin verilen arıza süresi değerini tahmin edin. Uygulama hizmetinin kritik kullanılabilirliğini hesaplayın.
  • Olası kesinti maliyetlerini, uygulamalarınız için uygun fiyatlı kullanılabilirlik sunan SP fiyatlarıyla karşılaştırın.
  • Bir ortak girişim seçerken, yalnızca mevcut erişilebilirlik seviyesini değil, aynı zamanda ek bir hizmet / hizmet olarak gelişmiş erişilebilirlik sağlayanları tercih edin. Özellikle işiniz büyüyor ve gelişiyorsa.
  • Ve pratik kalın. Hissetmek için size verdiklerini alın = test edin. Pratik olmadan teori, iş için çok yararlı değildir.