Tema: Re: kompas skystyje, pora klausimu
Autorius: Laimis
Data: 2009-09-24 01:08:48
krx rašė:
> "Laimis" <wiela@centras.lt> wrote in message
> news:h9cvk9$5c4$1@trimpas.omnitel.net...
>> krx rašė:
>>>> Na, aš tikiu, kad google'o mokslininkai mokėjo įvertinti, kas yra
>>>> high, kas low I/O, juoba teisingai skaičiuoti koreliaciją tiriant virš
>>>> 100k hdd populiaciją...
>>>
>>> Jie tyrė savo problemas, kurios kardanaliai skiriasi nuo vartotojo.
>>
>> Jie tyrė hdd problemas... ;-)
>
> As is common in server-class deployments, the disks
> were powered on, spinning, and generally in service for
> essentially all of their recorded life. They were deployed
> in rack-mounted servers and housed in professionally-
> managed datacenter facilities.


Sakydamas atsiremti tą ir turėjau tiesiogine šio žodžio prasme...


>> AFR yra kur kas realesnis, nei gamintojo deklaruojamas.
>
> Aš niekur gi to nebandau paneigti. Tiesiog skirsis įprasto vartotojo ir
> serveryje naudojamo HDD AFR'as.

Į ką atsiremsi?

> Na bet tai ir jūrų arkliukui aišku. Kita vertus - turiu eilę HDD,
> kuriuose yra privaryta krūva remapintų sektorių (realiai, ne softiškai),
> o jie po šiai dienai gyvi,sveiki, nors po prisirankiojimo pradirbo jau
> antra ar trečia tiek. Tiesa visi yra enterpise SCSI/SAS/SATA.

Tai (absoliučiai) nieko nereiškia, nes neturi statistiškai pakankamos ir 
homogeniškos imties. Koks tavo namų/darbo kompiuterio hdd AFR? O 
kolegos? (retorika...)


>
>> AFR priklausomybė nuo temperatūros paneigianti mitą, kad HDD reikia
>> laikyti kaip galima vėsesnį ir taip bus bemaž dvigubai prailgintas jo
>> gyvenimas....
>
> Tai čia tas mitas egzistuoja pas tuos, kurie mėgsta hiperbolizuot. Bent
> jau aš tą mitą visada užskaičiau sekančiai: aukštos t-ros pašalinimas
> (virš +45..50C) tiesiog sumažina ankstyvos ir vėlyvos mirties riziką.
> Gyvenimo neilgina, bet padeda jo nesutrumpint.

Na, jei tas „hiperbolizavimas“ išsireiškia  optimizavimu: „This is
a fairly surprising result, which could indicate that data-
center or server designers have more freedom than pre-
viously thought when setting operating temperatures for
equipment that contains disk drives.“, t.y. labai apčiuopiamu ir 
konkrečiu energijos (ir resursų) taupymu, tai...?

> skaitikliu išlipusiu virš gamintojo leistino limito. Šiaip tai
> peraušinti HDD, netgi tiek, kiek pas gūglus parodyta kaip "fail", yra
> ganėtinai sudėtingas reikalas ir tam reikia įdėti Darwino prizo vertų
> pastangų...

Peraušinti, ar tiesiog neleisti natūraliai įkaisti?
(būna gi turbūt patalpų, kuriose ir +15°C ar net mažiau)


> Tiesą pasakius, jei pas tave ūkyje bent keliolika-keliasdešimt diskų,
> tai visas tas išvadas turėjai pasidaryti vien iš praktikos, net ir be

Kokias išvadas tu galėtum pasidaryti, jei tavo 2 maxtor'ai ir vienas 
seagate'as pabyrėtų per pirmus metus?
Aha, tokias pačias „išvadas“ ant pirštų gali pasidaryti ir iš keliolikos 
vinigreto imties, neskaičiuodamas statistikos...


> mokslinės analizės. Kada AFR'ai nieko nesako - tai labai paprasta, nes
> niekas neverčia gamintojų deklaruoti tikslius AFR. Teoriškai tokios

Ką reiškia tikslius? Statistika šiuo atveju negali būti tiksli. Kai 
kurie gamintojai nepasikuklina atskleisti sąlygų, kaip jie įvertina 
MTFB. Tik viskas yra kur kas labiau kompleksiška, nei vienas skaičiukas 
ir jo tikslumas.

> akcijos kaip storagereview ir pan. galėtų daugiau pasakyt apie
> patikimumą, tik reikėtų vartotojui sutikti su instaliuotu servisu 24x7
> ir pumpavimu į tinklą, bei post-mortem formos užpildymu...
>
> O gūglai bailiai, kad giliau nepaanalizavo imant gamintojus ;-)

Na, na, bailiai...
Beje, jie vėliau lyg ir atskleidė, kad naudoja Hitachi Deskstar... ;-)

>
>>> Temperatūra nėra FIKSUOTAS dydis [*_pysiuko_*] vartotojo atveju. Nes
>>> vartotojo kompas negyvena serverinėje su pastoviu oro srautu, kuris
>>
>> Na, krx, juk pats supranti, kad paskaičiuoti vidurkį nėra problema...
>
> Vidurkis nieko nesako apie dinamiką. O judančias sistemas valgo dinamika.

Jei (ne)skaitei atidžiai, tai:
„We have aggregated temperature readings in several
different ways, including averages, maxima, fraction of
time spent above a given temperature value, number of
times a temperature threshold is crossed, and last tem-
perature before failure. Here we report data on averages
and note that other aggregation forms have shown sim-
ilar trends and and therefore suggest the same conclu-
sions.“

> Taip, be abejo. Aš tik kvestioonuoju googlo rezultatus man, kada esu
> paprastas mirtingasis. Jų apibrėžtomis sąlygomis atliktas tyrimas

Veltui, nes realiai gali jais pasiremti ar į juos atsiremti.


> Nu fck, nesikeikus. Pats rašai, kad HDD gamintojų AFR'as - rožinis ir su
> ragais. O dabar pats tiki, kad tie jų deklaruojami ciklai - realūs. Na
> ne pro kur. Nes pajamtum 3-4 didžiausių gamintojų duomenų lapus - visų
> jų esminiai skaičiai yra VIENODI, arba mažai skiriasi.

Deklaruojama statistika -- kad ir kokia ji rožinė būtų end user'iui -- 
yra vistiek pagrįsta, nes realiai matuojama, bet labai apribotomis 
sąlygomis, t.y. į ją galima atsiremti, jei nėra kitos statistikos. O kad 
ji būtų arčiau realios siūlau net 4x ją pajuodinti.
Kita vertus, failure modeliai yra gana kompleksiški ir visko į 
start/stop nurašyti nesigauna, o faktai ir realybė yra tokia, kad diskai 
byra ir pirmą mėnesį ir po 3 metų, tad jei google'as sako, kad neįžvelgė 
koreliacijos, man šį tą sako (sako, kad šis parametras nėra toks 
reikšmingas, jei jis neartėja link maksimalių, S.M.A.R.T threshold reikšmių)


> Na bet bjauru pasakyt diskusijoje B, bet nepasakyt A. Jei jau cituoti -
> tai jie ir sako, kad serverių klasės diegime jie NEJAUČIA šito efekto.

O kuo serverių klasė ypatinga dinamikai, kai reikia išssukti motoriuką 
nuleisti galvas ir diskas dėl to patiria mechaninį stresą...?


> Nešiojamų kompiuterių diskai pabyra dėl visiškai kitokių priežasčių, nei
> start-stop ciklai. O kontoroje daug kas dar priklauso, kiek RAM įdėta ir
> kokia energijos taupymo strategija įjungta...

Apie RAM priklausomybę prašyčiau plačiau.


> Nepyk, bet tau tikrai nuo žolės rūkymo prastai, bent jau šiandien :-)
> Jei į HDD kas nors patenka, ala drėgmė, dulkės ar dar kas, tai tolygu
> žmogui trūkęs apendicitas. Kitaip sakant, ar spėsi duomenis ištraukt/HDD
> užgesint ir atiduoti į ištraukimą, ar ne.

Pasidomėk kokio dydžio daleles sulaiko hdd oro filtras, koks atstumas 
yra nuo galvų iki paviršiaus ir kokio dydžio dalelės yra/būna buitiniai 
ir kt. aerozoliai (angliavandeniliai, alyvos, aliejai, dūmai, dulkės ...)
Nebekalbant jau apie tai, kad filtras gali užsikimšti (ir turbūt neretai 
užsikemša; nors čia jau hdd reikėtų klausti, jei tik jis tą gali 
patvirtinti, nes tiria ir žino)
>
> Negaliu nieko imti drąstiškai. Yra skirtingi prietaisai ir skirtingos jų
> naudojimo sąlygos. Atsižvelgiant į tai ir reikia rinktis situaciją, bei
> pastoviai stebėti, kaip ta situacija keičiasi (aš ne S.M.A.R.T turiu
> omenyje, o žmogišką, proaktyvų stebėjimą...).

Tau google studija palengvintų proaktyvų stebėjimą ir vertinimą, nes 
statistiškai pagrįstai sako/teigia, kad kai kurių S.M.A.R.T atributų 
threshold'as yra jau nuo vieneto ir kartu su kitais parametrais 
tikėtinai (su gana apibrėžta tikimybe) nulemia hdd pabyrėjimą per 
nustatytą laiką, kas iki S.M.A.R.T perspėjimo yra dar labai labai toli. 
Palengvintų, jei tik nekvestionuotum taip stipriai.

>
> Trumpiau - diskusija aklavietėje. Google tyrė serverių tipo aplinkoje ir
> serverių tipo apkrovas. Jų rezultatai šiomis sąlygomis ir tokiems

Trūkt ir vėl iš pradžių. Ką tu manai, kai jie teigia, kad ženklsenės ir 
aiškiai išreikštos koreliacijos tarp I/O (apkrovimo) ir failure rate 
nenustatė?
Meluoja, bailiai?