No Thumbnail

Google: Ingen sammenhæng mellem diskfejl og brug

16 feb. 2007 15:02 - Via Google - af ZOPTIKEREN , redigeret af Acro

Medarbejdere fra Google har udarbejdet artiklen Failure Trends in a Large Disk Drive Population, der er blevet offentliggjort i forbindelse med Usenix-konferencen. I denne artikel analyseres data fra mere end 100.000 af Googles harddiske på 5400 RPM og 7200 RPM og fra 80 GB til 400 GB.

Aldrig før har et så stort datasæt af harddiske været analyseret. I artiklen undersøges der for eventuelle sammenhæng mellem harddiskfejl og diverse parametre.

Konklusionen på undersøgelsen overrasker artikelforfatterne. Således har det ikke været muligt at se et konsistent sammenfald mellem temperatur og fejlrate på diskene og ej heller en sammenhæng mellem brugen af diskene og fejlrate på diskene. Sådanne sammenhænge har flere ellers tidligere fundet.

Advarsel: Nyheden linker til en PDF-fil.

Forside
⟨
Forum
⟨
Nyheder

Gå til bund

#1 - Dreadnought
16. feb. 2007 15:25

5400 og 7200 er jo billige low-end diske, så det er da ikke underligt at de bare fejler af en anden grund end varme.

[OffTopic]
Advarsel: Nyheden linker til en PDF-fil.
Advarsel: Nyheden er på tysk.

Slap dog lige af. Tager folk skade af at se en pdf eller tyske nyheder? Hvad med CSS skal folk ikke også advares mod det?
[/OffTopic]

#2 - Fafler
16. feb. 2007 15:28

Advarsel: PDF filen er i to spalter, så medmindre du kan lide at massere scrollknappen eller er god til at læse små bogstaver bør du printe den ud.

... og nu er skidtet så gået tør for papir :-/

#3 - BurningShadow
16. feb. 2007 15:41

#1

Jeg er enig i at en advarsel om at der linkes til en PDF-fil, er unødvendig, men med hensyn til advarsler om at nyhederne er på tysk, så er jeg meget uenig.
Nyheder på Tysk, Fransk, Klingon, og andre ikke-menneskelige sprog bør altid følges af en advarsel.

#4 - arne_v
16. feb. 2007 15:50

#1

Tja - Google har jo specialiseret sig i billigt hardware
og software løsning på reliability.

#5 - Fafler
16. feb. 2007 15:56

Man føler sig en smule dum, når man læser at drevtemperaturen stort set er uden betydning og at en lav temperatur endda kan øge drevets risiko for at fejle, og man så kigger på de blæsere der er monteret for at holde dem kolde.

Og så er det på en måde lidt ærgerligt at de ikke vil nævne navne og modeller. men hvis jeg havde lavet undersøgelsen, ville jeg nok også være varsom med at sige noget. Der er dælme mange penge på spil.

#6 - Redeeman
16. feb. 2007 16:18

mit eget data viser mig at små diske har betydeligt mindre fejlrate, man havde sgu ikke problemer på <80gb diske, det har man sgu med nyere.. :)

#7 - Dreadnought
16. feb. 2007 16:34

Efter en nærmere studering af dokumentet, så er jeg ikke enig at der ikke er en sammenhæng. I figur 4 og 5 kan man se at fejlraten stiger med temperaturer fra 40 til 50 grader. Men hvad der forbavser mig lidt er at kolde diske <30 grader har en højere fejlrate.

Advarsel: newz.dk bruger flash reklamer.

#8 - pixel
16. feb. 2007 17:02

#7 Advarsel: Velkommen til det 21. århundrede.

#9 - Man in Black
16. feb. 2007 17:33

Gad godt at se fejlrate efter mærker/modeller... men det kan de naturligvis ikke offentliggøre!

Google sparer sgu rigtigt mange penge ved at købe alm. harddiske, fremfor 10k og 15k serverdiske... forstår dem godt!

#10 - Tejeda
16. feb. 2007 17:33

hmmm må bare tilslutte mig diskussionen med en kort sætning...

"¤)=#/=¤%(/"#= Maxtor :(

#11 - Evo-
16. feb. 2007 17:52

Arh #10 :) ;)
Vil da lige tilføje ang. det med 10k serverdiske... WD har jo lavet raptor, der kører på S-ATA, de kører på 10k.
Men google kører vel forhåbentlig WD eller Seagate...

#12 - arne_v
16. feb. 2007 18:03

#11

Det tror jeg ikke du skal regne med. Hele deres arkitektur
bygger på at det ikke er kvalitets/dyr hardware som skal
sikre dem.

De ringer formentligt rundt en gang om måneden og spørger de
store dispk producenter om de har et godt tilbud på 100000
diske i denne måned. Billigeste får ordren uanset om det er
Seagate eller Foobar A/S.

#13 - SmackedFly
16. feb. 2007 19:40

#12

Det skal du ikke regne med, google har uden tvivl deres egen testafdeling, eller ihvertfald en afdeling der står for at sikre at deres storindkøb er af acceptabel kvalitet.

Tror absolut ikke at de lader den slags være op til tilfældighederne, selv hvis google kunne få det fulde indkøbte beløb tilbage hvis en for stor del af diskene viste sig at have fejl, ville det sandsynligvis stadig koste dem penge, et så stort firma kan ikke tillade sig at stole på andre firmaers kvalitetsgarantier.

#14 - Jace
16. feb. 2007 19:53

#9, Ja det er ærgeligt at de ikke skriver mærkerne på diskene. Det kunne være en utrolig pålidelig test af hvem der laver mest stabile diske :)

#15 - TullejR
16. feb. 2007 20:11

#12-13

Det mest logiske ville vel egentligt være at Google købte mindre partier fra forskellige producenter hele tiden - der er, trods alt, en del der spekulerer i ikke at bruge identiske diske i disk-arrays, i tilfældet af at de skulle dø samtidigt. Den slags undgår man formentligt ved at blande forskellige producenters hardware.

#16 - joensson
16. feb. 2007 20:29

#15 Det skulle jeg lige til at skrive. Der er netop ide i at købe diske af forskellig mærke/model/produktionsdato/batch osv og sætte dem i et raid system for så er sandsynligheden for at de fejler på samme tid minimal. RAID er netop sårbart når flere diske står af på samme tid.

Min imap-udbyder havde en ret uheldig episode hvor 3 diske stod af i et RAID 6 setup. Først gik én disk, det var fint nok. De skiftede den og RAID arrayet begyndte at rebuilde disken (det tager omkring 24 timer i deres system). Men så stod disk 2 og 3 af inden den var færdig med at rebuilde og så stod de med en vis legemsdel i brevsprækken og måtte til at gendanne data ud fra inkrementielle backups. Det tog så ca. 3 dage fra de begyndte på det til alle kunder var tilbage i systemet...

Så de lærte på den hårde måde at man _ikke_ sætter diske fra samme batch i et raid array når man har et større antal tusinde betalende kunder som brokker sig pænt meget over 3 dage uden mail :)

#17 - arne_v
16. feb. 2007 20:37

#13

http://blogs.business2.com/utilitybelt/2006/11/goo...

Fortt: What is Google telling Seagate it wants in future storage products?

Watkins: Cost per gigabyte. I need as much capacity as I can get for as cheap as I can get it. And give me power savings. They're buying hundreds of thousands of drives. Massive amounts of storage. So they're really concerned about the cost of that storage, and obviously reliability – obviously you've got to meet the reliability and quality issues. But it's really about cost.

#18 - arne_v
16. feb. 2007 20:43

#11,13,15,16

Google sikrer altså ikke deres data ligesom en lille virksomheds
server med et RAID 1+0 disk system.

De bruger meget store clustre og deres eget GFS fil system, hvor
alt data er 3 stedet i verden.

Hvad MTBF er betyder kun lidt for hvor mange fuldtids ansatte
de skal have til at skifte diske.

#19 - kasperd
16. feb. 2007 21:05

[url=#15]#15[/url] TullejR

der er, trods alt, en del der spekulerer i ikke at bruge identiske diske i disk-arrays, i tilfældet af at de skulle dø samtidigt.

Jeg har hørt om mange, der spekulerer i det. Jeg har endnu ikke set dokumentation for, at der skulle være grund til det.

Jeg kan komme i tanke om flere grunde til, at man kan opleve flere samtidige diskfejl i et RAID setup (og som intet har med mærket at gøre). En ekstern faktor kan ramme alle diske på én gang, f.eks. overspænding eller rystelser. En anden mulighed er latente fejl, der bliver opdaget under recovery. F.eks. hvis en af diskene i lang tid har haft ulæselige sektorer, som man ikke har opdaget. Sidstnævnte kan blive værre hvis RAID implementationen (som det f.eks. var tilfældet med software raid I Linux versioner ældrer end 2.6.17 eller deromkring) kasserer en disk, når den oplever den første læsefejl.

De eksterne faktorer er der kun en sikker løsning på, offsite backup. De latente fejl kan man hjælpe på ved at periodisk lave læsetest af alle data.

Det hjælper også at øge redundansen. Hvis man bruger RAID-5 eller RAID-1 med kun to spejl kan data kun overleve en enkelt diskfejl. Hvis man bruger RAID-6 eller RAID-1 med tre spejl kan data overleve to diskfejl.

Endeligt kan en hot spare hjælpe. For det første vil en hotspare mindske det vindue hvori den næste (eller de næste) diskfejl kan opstå og forrårsage datatab. Det hjælper også på risikoen for operator error, hvor man ved en fejl fjerner den forkerte disk.

[url=#16]#16[/url] joensson

Min imap-udbyder havde en ret uheldig episode hvor 3 diske stod af i et RAID 6 setup. Først gik én disk, det var fint nok. De skiftede den og RAID arrayet begyndte at rebuilde disken

Havde de haft de haft en hot spare ville rebuild være begyndt tidligere. Et andet spørgsmål melder sig, er om diskene fejlede totalt, eller om de blot havde dårlige sektorer? Mine forholdsvist begrænsede erfaringer siger mig, at dårlige sektorer er langt mere udbredt. En disk der står totalt af og to diske med dårlige sektorer burde ikke betyde datatab i et RAID 6 system.

det tager omkring 24 timer i deres system

Det synes jeg så også lyder som lang tid. Godt nok vokser diskkapacitet hurtigere end overførselshastigheden, men man burde stadig kunne læse de største diske på under tre timer. (Kan selv huske dengang hvor det typisk tog 20 minutter). Selvfølgelig vil brugertrafik på systemet sløve recovery ned. Egentlig burde et RAID 6 system sætte brugertrafik på standby når den anden diskfejl forekom.

Hvor mange diske var der i deres system, hvor var flaskehalsen, som betød at de havde brug for så mange timer på recovery?

#20 - jlaugesen
16. feb. 2007 21:29

#1 Når nu newz.dk har det her irriterende redirect setup som gør, at jeg ikke kan se hvor link fører hen før jeg klikker på dem... så synes jeg egentlig det er meget passende at advare om, at linket fører til en pdf - det sparede mig for irritation! :)

#21 - spacefractal
16. feb. 2007 21:41

istedet for "advarsel", kunne i ikke bare have skrevet "Bemærk"?

#22 - arne_v
16. feb. 2007 21:47

#21

Jep.

PDF er vel ikke mere farligt end HTML.

Og langt de fleste har vel trods alt mulighed for at læse PDF.

#23 - alvision webdesign
16. feb. 2007 23:41

så længe newz fortsætter med at køre med sne på deres logo synes jeg det er reelt nok at advare brugerne ofte - det antyder lidt de lever i deres egen verden

#24 - Huleboeren
17. feb. 2007 00:07

Nu er PDF _LANGT_ mere krævende og tungere end html/css

#25 - ldrada
17. feb. 2007 06:07

#24
Nej, egentlig ikke. Det er bare Adobe Reader som er tung og sløv.

#22
Hvis du har Adobe Reader, så jo.

Ontopic:
Jeg er glad for denne undersøgelse. Har selv fem harddiske her i hjemmet som kører 24/7/365, uden power saving. Jeg har altid været lidt bekymret for om det nu kunne være sundt. Den ene af mine Seagate harddiske har efterhånden udlevet sin 5-års garanti, og jeg bliver stadig mere og mere bekymret for om den failer snart.

#26 - Dreadnought
17. feb. 2007 07:23

#24 ja, men PDF vises korrekt hver gang. Hvor imod CSS fucker skidtet op hver gang en fnatabe mener at have styr på det.

#27 - knasknaz
17. feb. 2007 09:53

Jeg havde i en lang periode et problem med at pdf inden i en webside crashede Mozilla (på flere computere endda), så jeg synes faktisk advarslen er på sin plads, når nu man ikke kan se URL'en.

PS: Ret overraskende med de der disk-fejl btw.!

#28 - Redeeman
17. feb. 2007 13:26

#26:
desuden er det heller ikke ret mange personer, der er heldige nok at have en browser der rent faktisk kan tegne css, som mig, der bruger konqueror/khtml ;)

#27:
ja, adobe's plugin er en skandale.. hvis du bruger firefox/seamonkey kan du hente extensionen som fanger pdf filer, og lader dig launche dem externt, eller bare lader dig stoppe det helt. ganske dejligt, så det satans plugin ikke bliver startet (heldigvis har jeg ikke det problem, da kpdf integrerer sig uden problemer, og med lynende hastighed i min konqueror)

Forside
⟨
Forum
⟨
Nyheder

Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login

mboost-dp1

Nyheder

Seneste kommentarer i nyheder

Seneste kommentarer i forum

Google: Ingen sammenhæng mellem diskfejl og brug