mboost-dp1

Flickr - Xjs-Khaos

Google laver stor undersøgelse over RAM-blokkes pålidelighed

- Via CNET News - , redigeret af Pernicious

Med verdens måske største samling af computerservere, bygget på regulær hardware, er der næppe nogen bedre til at lave en større undersøgelse over pålideligheden af RAM-blokke end Google. Og det er netop, hvad firmaet har gjort, i en undersøgelse der afviser en lang række myter omkring emnet.

I modsætning til, hvad de fleste bruger hjemme i deres almindelige computere, anvender Google DRAM med ECC, hvilket vil sige RAM, der selv kan rette de fleste fejl, efterhånden som de opstår. Det betyder også, at Google kan holde tal på, hvor mange fejl, der rent faktisk opstår – et tal der er noget højere, end hvad man tidligere regnede med.

Google kom bl.a. frem til, at en ud af tre server oplevede mindst én fejl om året, som rammene selv kunne rette, mens en ud af hundrede servere oplevede mindst en uoprettelig fejl om året, som førte til, at systemet brød ned. I almindelige hjemmecomputere uden ECC, ville begge scenarier i de fleste tilfælde føre til et nedbrud.

Google kunne derfor tilbagevise de tidligere tal, der sagde 200-5.000 fejl pr. 1 milliard operationstimer. I stedet viser de nye tal, at der er tale om 25.000-75.000 fejl.

Af andre interessante tilbagevisninger af kendte myter omkring RAM, kunne Google bl.a. rapportere, at temperaturen kun havde en marginal indflydelse på antallet af fejl. På samme måde kunne Google også tilbagevise, at nyere RAM-teknologier, såsom DDR2, skulle være mere udsat for fejl, fordi elektronikken er presset mere sammen.

Til sidst kunne Google også rapportere, at når et RAM-modul først begynder at lave fejl, så bliver antallet af fejl stærkt tiltagende. Dette sker typisk efter 10-18 måneders brug.





Gå til bund
Gravatar #1 - ToFFo
8. okt. 2009 09:43
Er der ikke også en væsentlig forskel fra producent til producent? Ja de bruger ofte samme chips på deres ram og der er kun navnet og prisen til forskel. Men jeg husker da tydeligt at de mest upålidelige ram jeg nogensinde har haft var af mærket Elixir. De var billige og upålidelige så det batter.

Derefter kørte jeg med Dane-Elec som vist ikke eksisterer mere. Men det var de mest pålidelige ram jeg nogensinde har haft. Efter det OCZ og så Corsair. Corsair er jeg også rigtig glad for. Gode ram til en fornuftig pris :)
Gravatar #2 - paradise_lost
8. okt. 2009 09:51
Bruger altid Kingston dem har jeg aldrig har problemer med og de er billige. Før Kingston brugte jeg altid Apacer som også var nogen kanon ram.

Ja ikke mange private der bruger ECC da det kræver spec bunkort.
Gravatar #3 - knasknaz
8. okt. 2009 09:52
Det er interessant at høre om den her slags statestik, da det rent faktisk er statistisk gyldigt materiale pga. det høje antal - i dyb modsætning til den typiske newz-post a'la "Jeg har haft adskillige [mærke] ram-blokke og de fejlede aldrig".
Gravatar #4 - Bastardo
8. okt. 2009 10:02
Spændende. Efter den første fejl begynder det at gå galt på en ram-blok. Lidt som med mange af mine hdd'er.
Nogen der ved hvordan fejlretningen på ECC fungerer? Som en god gammel fdisk??
Gravatar #5 - sedroc
8. okt. 2009 10:11
#4 ECC er vist noget med paritets bit, lidt lige som RAID5.

Som computer reperatør har jeg gennem tiderne ser mange RAM moduler med fejl, af mange forskellige mærker og i computere af forskellige fabrikater. RAM-fejl er noget af det første jeg tester for hvis jeg får en computer ind som crasher ofte.
Gravatar #6 - Decipher
8. okt. 2009 10:37
#1 lur mig om ikke dine ram er produceret på de samme få fabrikker, uanset hvilket firma der efterfølgende har rebrandet dem. Jeg ville ikke få ret meget op i mærke, men derimod specifikation som velsagtens er mere sigende for, hvordan det enkelte modul har klaret sig i kvalitetstest efter produktionsfasen.

I øvrigt er det erfaringsmæssigt rent lotteri om du får gode eller dårlige moduler.
Gravatar #7 - terracide
8. okt. 2009 10:41
#1:
80-85% af al RAM har IC kredse lavet af Samsung...der hvor forskellen ligger i RAM er på de enheder der styre VOLT, hentning af data ect.
Gravatar #8 - gensplejs
8. okt. 2009 10:51
terracide (7) skrev:
#1:
80-85% af al RAM har IC kredse lavet af Samsung...der hvor forskellen ligger i RAM er på de enheder der styre VOLT, hentning af data ect.

80-85% er meget meget højere end de tal jeg tidligere har hørt. Er det noget du har belæg for at skrive eller bare endnu et terra tal du har hevet op af hatten?

EDIT.
Sidst jeg hørte et tal var samsungs market share nede på 25%
Gravatar #9 - micma18
8. okt. 2009 10:56
Har også oplevet en del ram fejl igennem tiden, men efter vi er begyndt udelukkende at benytte Kingston (som i øvrigt slet ikke er dyrt!) Der har vi praktisk talt elimineret fænomenet ram fejl....
Også på trods af at Kingston modulerne kommer med mange forskellige mærker kredse på.

Men det er nok om producenten tester rammene, der er alt afgørende for, om der bliver sendt pålidelige produkter på gaden?
Gravatar #11 - -N-
8. okt. 2009 11:30
#4 For hver 8 bit er der en ekstra bit, den ekstra bit står tom så længe der ikke opstår fejl. Det betyder at den 9. bit er en fejlbit, ud fra de foregående 8 bit kan man se hvad bitten egentligt skulle være.

Der kommer til tider en ekstra bit og ofte skyldes det forstyrelser ude fra, derfor er det, som google også dokumentere, ikke særlig relevant i dag.
Gravatar #12 - BlackBird
8. okt. 2009 11:49
terracide (7) skrev:
#1:
80-85% af al RAM har IC kredse lavet af Samsung...der hvor forskellen ligger i RAM er på de enheder der styre VOLT, hentning af data ect.


Indenfor dram marked

* Samsung : Andel første kvartal på 26.5 % vs 24.5 % i 4 kvartal

* Hynix : Andel første kvartal på 22.3 % vs 20.7 % i 4 kvartal

Kilde.:DRAM_NAND_Q1_09_market_maltiel_semiconductor
Gravatar #13 - woodydrn
8. okt. 2009 13:43
#0 skrev:
mens en ud af hundrede servere oplevede mindst en uoprettelig fejl om året, som førte til, at systemet brød ned.
Jeg kunne ikke lige se hvad fejlen var, men er dette en hardware eller software fejl? De siger bare memory error og ranges, hvilket kunne vaere begge.

Hvis software, saa skal de da bare have noget kontrol kode med hvilket data der kommer ind og hvad der kommer ud... Og hvorfor gaar hele systemet dog ned? Skriver den bare volapyk et random sted i hukommelsen og det crasher eller proever at skrive i readonly sections lige pludselig... hmm virker som noget sjusk for mig ;)
Gravatar #14 - Holger_dk
8. okt. 2009 13:56
Hm... jeg synes (ligesom deres HDD test) at de burde udgive mærker etc. ville være rart at vide...

men så er der nok en del firmaer der ville blive sure på google og stoppe deres reklame hos dem etc. (og måske sagsøge dem).
Gravatar #15 - TGS
8. okt. 2009 15:09
#11 ikke helt korrekt. det er sandt at der for hver 8 bit er en 9 partitets bit. denne er så vistenok 1 hvis summen af de 8 er ulige og 0 hvis summen er lige. på den måde kan den detektere hvis en af de 8 bit ændrer sig, for så vil partitesbit'en være forkert. hvordan den så finder ud af hvilken der er forkert og retter det ved jeg ikke..
Gravatar #16 - Cuco2
9. okt. 2009 00:41
#4,11,15
Med en enkelt paritetsbit kan du ikke se hvor fejlen ligger, blot at der er en fejl. Med dobbelt paritet kan du se hvor fejlen er og rette den direkte.

Hvis der sker 2 fejl på én gang kan man ikke med en enkelt paritetsbit opdage fejlene da paritetsbitten i det tilfælde ikke ændrer sig. Med dobbelt paritet kan man derimod både detektere og rette multiple bitfejl - disse er dog uhyre sjældne.

Det er i hvert fald hvad jeg lærte om paritets-RAM for 15 år siden, hvor det var en smule mere udbredt blandt private kunder. I dag bruges dobbeltparitet mere til harddiske hvor fejl er mere kritiske end i RAM.

Moderne ECC RAM bruger i stedet en algoritme til beskytte data, der bruges 8 bit til at beskytte 64 bit data, dvs. totalt set samme båndbredde som enkelt-paritets RAM, men ECC kan både detektere og korrigere enkel-bit fejl. Til gengæld bliver systemet lidt langsommere end med blot enkelparitet, da algoritmen selvfølgelig skal processeres hvorimod paritetsbitten kan checkes direkte og uden at det påvirker hastigheden. ECC kan ikke korrigere multiple bitfejl, men kan godt detektere dem.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login