mboost-dp1

IBM

Blue Gene/L sætter påny hastighedsrekord

- Via PhysOrg.com - , redigeret af Pernicious

Verdens hurtigste supercomputer Blue Gene/L har påny sat hastighedsrekord og maskinen der i peakperformance yder 360 teraflops, kunne ved afvikling af programmet Qbox holde vedvarende 207,3 teraflops.

Programmet Qbox er fremstillet til at forudsige egenskaber for metaller under ekstreme temperatur- og trykforhold. Programmet undersøgte her, interaktionen blandt 1000 molybden atomer hvor der tages højde for kvanteopførselsen af atomernes elektroner. Tidligere har det kun været muligt at simulere 50 atomer pga. den manglende regnekraft.

Blue Gene/L består i dag af 131.072 processorer.





Gå til bund
Gravatar #1 - lassel
24. jun. 2006 11:50
Det er 131.072 processorer, ikke sandt? Hehe, ville være mystisk at have en computer med 0,072 processor.

Hvad omend andet er, så må der sgu være en del personel til at vedligeholde Blue Gene/L hehe, fedt at være fuldtidsansat til et sådan formål ;)
Gravatar #2 - baal
24. jun. 2006 11:53
Mon min hjerterfri ville lagge på en sådan en fyr? Jeg tænker især på billedekort - de skal jo have mere båndbredde
Gravatar #3 - bjarkehingrumme
24. jun. 2006 12:18
1000 atomer. Så er vi altså oppe i en detaljegrad der vil noget. Vi har nogle DTU-gutter til at regne på nogle af de keramer jeg arbejder med, og de vægrede sig ved at regne på mere end 15-20 atomer af gangen (ikke fordi de ikke kunne, men jo færre atomer - jo flere udregninger er der tid til). 1000 atomer skal også ses i det perspektiv at regnetiden er eksponentielt afhængig af antallet af atomer - det er altså ikke bare lineært. Konklusionen må være at det er en heftig sag de har gang i.
Gravatar #4 - jensj
24. jun. 2006 12:28
131.072 processorer... De kunne jo også bare bruge 720 af dem her..?
Gravatar #5 - Sattie
24. jun. 2006 12:36
#4 Det er vist en gammel diskussion at mhz ikke automatisk er ligmed en højere performance. Ligeledes skriver forskerne bag den chip også at den er god til special opgaver - og ikke som idag, alsidige opgaver. Derudover mener jeg også jeg læste at det ikke var en x86 parat chip, og at man derfor skal udvikle special OS til den...
Gravatar #6 - coday
24. jun. 2006 12:38
"...i peakperformance yder 360 teraflops, kunne ved afvikling af programmet Qbox holde vedvarende 207,3 teraflops."

Hvordan kan det være at der er så stor forskel på peak og de vedvarende?
Gravatar #7 - Sattie
24. jun. 2006 12:57
#6 går ud fra det er koordineringen af de 131.072 processorer som skal passe sammen, før at den yder optimalt. Med så mange processorer går en del af performancen vel tabt i pakke overførelser, kollision m.m. Det er jo ikke 131.072 processorer på et bundkort ;)
Gravatar #8 - inckie
24. jun. 2006 14:14
Gad hvide om de får penge for at lave de regne opgaver eller IBM gør det kvit og frit?
Gravatar #9 - lorric
24. jun. 2006 14:14
#7 hvis hver processor tager 6x6 cm (et tal jeg har grebet ud af luften), så skal du bruge et bundkort på 21,7m x 21,7m, hvilket er nok til at komme med i Guiness Book of Records, skulle jeg mene.
Gravatar #10 - ajust
24. jun. 2006 14:40
Hmm, gad vide om de også satte ny rekord for største el-regning på korteste tid i samme omgang :D.

Kunne egenligt godt bruge sådan en comp., min egen lagger sgu stadig lidt i HL2 :(.
Gravatar #11 - drbravo
24. jun. 2006 15:48
#10
Så er det nok ikke denne her du skal gå efter.. Den har jo ikke engang noget grafikkort!
Gravatar #12 - SmackedFly
24. jun. 2006 16:27
#7

Et bundkort ville ikke hjælpe dig, da det for såvidt er hvad det her allerede er. Blue Gene/L er bygget på en måde der optimerer interkommunikationshastigheden. Det ville være lidt en fejl at tro, at hvis du kunne smide det ned på en enkelt printplade, så ville du automatisk få højere hastighed.
Du ville med langt større sandsynlighed få en stor bunke aske ud af det.

Det virkelige problem er hvordan man får en opgave delt ud over 131072 processorer effektivt, og det har de jo så åbenbart gjort med omkring 60% effektivitet (imponerende!), for det er hvad de her programmer gør, og derfor er standard benchmarken den her art opgaver, og ikke hvor mange frames den kan trække i quake 4 software rendering.
Gravatar #13 - bjarkehingrumme
24. jun. 2006 16:43
#12 Beregningerne i Density Functional Theory som der her udføres er af natur rimeligt nemme at parallelisere. Således kan DTU-clusteret NIFLHEIM og dens syddanske modpart (tilsammen ca 2000X P4 svjh)således samarbejde om disse beregninger uden det store tab af effektivitet.
Gravatar #14 - skumf
24. jun. 2006 17:09
#13 - Hvor mange gram hash skal jeg ryge for at forstå det du skrev?
Gravatar #15 - Dijkstra
24. jun. 2006 17:25
Molybdæn (som jeg mener det hedder på dansk) har en atommasse på 95,94, - så det der her regnes på er 6*10^-23/(1000*95,94) eller ca. 6*10^-18 eller lad os bare sige 10^-17 gram molybdæn. Da det har en massefylde på ca 10 så bliver det 10^-16 gram, - kubikroden af det er 4,6*10^-6, - eller et område på ca. 5 mikrometer på hvert led. Det lyder ikke af ret meget, - men da det måske skal bruges til nogle beregninger af halvledere til deres processorer (eller hvad, - hjælp mig ingeniør-nørder her) så er det måske nok? Her er feature størrelsen jo helt nede på 65 nm (dog kun i 2 af de 3 dim).

Måske (kun måske) besvarer det også dit sp. #8, - hvis ikke, - så er IBM jo selv med til at lave mange forskellige slags forskning. I sig selv er der ikke nogen der betaler for det, - men det sker jo det giver et sponsorat (nok næppe til de kommercielle firmaer som IBM) eller et patent som kan tjene pengene ind (og lidt til, - dels så aktionærene bliver glade, men også så alle de blindgyder som de øvrige forskningsområder gav ikke leder selskabet til falit).
Gravatar #16 - killing_rain
24. jun. 2006 19:21
Stadig ikke noget som jeg ikke klare hurtigere i hovedet over en kop kaffe ;)
Gravatar #17 - bjarkehingrumme
25. jun. 2006 08:17
#15 Check lige din beregning en gang til (m=n*M/NA og NA=6*10^+23 og du kager i den grad rundt i enhederne)... 1000 atomer bliver ti på hver led dvs. en terning med en sidelængde omkring 1-2 nm. Det er vældigt småt, men i DFT-beregninger opererer man med en gentagen enhedscelle, dvs man regner reelt på uendelig mange identiske terninger sat op i et gitter. Sagt på en anden måde så vil det yderste venstre atom være i kontakt med det yderste højre, på sammeåde som at den østlige del af et verdenskort går direkte over i den vestlige del... Beregningen er altså med god tilnærmelse relevant for et kæmpestort krystal.
Gravatar #18 - Jace
25. jun. 2006 11:44
Det er spændende at sammenholde disse benchmarks med dem fra Folding@home projektet:

Aktive CPUs:
Folding: 185.718
BG/L: 131.072

TFLOPS:
Folding: 177
BG/L: 207,3

Blue Gene/L har altså nogle lidt bedre CPUs ellers udnytter de dem bare bedre, men jeg synes alligevel det er utroligt at et projekt som er baseret på frivillig og gratis arbejdskraft faktisk næsten kan måle sig med denne supercomputer.

Tallene fra Folding@home er taget fra den aktuelle status som opdateres hver time:
http://fah-web.stanford.edu/cgi-bin/main.py?qtype=...

Mvh
Jace
Gravatar #19 - Sattie
25. jun. 2006 16:11
#18 Nu kører folding@home cpu'er jo langtfra i døgn drift alle sammen. Det er private der slukker deres pc når de ikke bruger den.. :)
Gravatar #20 - Jace
25. jun. 2006 16:16
#19 - Ja, og netop derfor er det fantastisk at det kan samle så meget computer kraft: 177 vs. 207,3 Tflops :)
Gravatar #21 - EdgarBaba
25. jun. 2006 22:02
#4: det lyder ellers interessant, men desværre yder de processorer ikke så meget per clock-cycle som Blue Gene/L. De er stadig på forsøgsstadiet og derfor er udregninger per clock-cycle ikke så interessante. Desuden er de ikke multi-processorer, og de vil derfor have svært ved at kommunikere ved høj nok hastighed.

#5: OS er ikke noget problem, da alle programmmer alligevel udvikles specielt til hver opgave. Det er lettere end at ændre computeren! Og MHz siger intet, da en processor i teorien vil kunne arbejde ved meget højere hastighed end i dag, hvis den ikke skulle lave noget per clock-cycle. Så kan man diskutere x86 CPU'er overfor hinanden og derefter diskutere MHz, men MHz har intet at sige på dette stadie, da udregninger per cycle er interessant! At den er god til specialopgaver frem for alsidighed er intet nyt. Blot er det nyt, at man har råd til disse computere - teknologien har været der hele tiden. Supercomputere er ret specielle i sammenligning med andre, da de udregninger de cruncher har vidt forskelligt formpål og derfor kræver vidt forskellig software. Den skal programmeres fra gang til gang.

Microsoft forsøger sig nu med Windows Server Cluster-Edition, men jeg vil gerne forudsige, at det bliver et flop, da man ikke uden videre kan for-programmere software til cluster-computere, da det er umuligt at forudsige, hvad deres regnekraft vil blive brugt til - håber jeg - ellers er det spild!

#10: Tror alligevel ikke den lagger i HL2, men tror det kræver ret speciel grafikkort at trække 131k CPU'er!

#12: Nu vil jeg ikke være for geeky, men en opgave er ikke det samme som et program. Hvis en opgave skulle deles ud på alle 131k CPU'er ville den ABSOLUT intet kunne lave i mellemtiden. Jeg håber ikke, at det er det, de gør. Ej, jeg ved det. :)

Men ideen er interessant nok. Den interaktion kræver store ressoucer allerede inden beregningen går i gang. Det er faktisk det interessante i denne her tankegang, men jeg fornemmer du allerede ved det. Den effektivittet de opnår er imponerende, men alligevel ikke optimal. Jeg håber jeg kan vende det billede en dag - inden længe. :)

Det er selvfølge en stor udfordring, men det er ikke den største. Den største er ikke at dele opgaven, men at kunne udregne den i dele - og modtage resultatet i lige så mange dele. Også det skal vi nok komme over - det lover jeg. :)

#13: Hverken DTU eller Syddansk har computere med 131k CPU'er, og fakta er, at for hver enkelt kræves der en næsten eksponentielt større koordination for at få dem til at regne præcsist og samtidig levere resultatet i en let-spiseligt format, således at beregningen kan genoptages uden de store mellemberegninger.

Det er rigtigt at DTU har super-computere, der kan slå Blue Gene/L i mange discipliner, men disse har ikke den nødvendige diversitet, der er nødvedig for at projektet skal være økonomisk bæredygtigt som investering.

#14: Det er en ret kompleks udregning. Her er det nødvendigt at kende hverdagsforbrug, cannabinol- og cannabiode-optagelse for at give et sikkert bud - men jeg synes bare, du skal gå i gang. :)

#15: Din beregning er ikke rigtig, som #17 siger. Om den han nævner er rigtig har jeg ikke uddannelse til at udtale mig om, men det du nævner er altså forkert.

#16: Kaffe et nu engang bedre end fysik. :)

#18: Det er et ret ensidigt projekt du linker til. Hvis IBM ønskede en folding-computer, så skal du se, hvad der ville ske. Den her kan meget andet end at folde proteinter. :)

EB
Gravatar #22 - Jace
25. jun. 2006 22:50
#21 - Det var ikke helt det der var min pointe :)

Jeg synes bare det var spændende at se, at Folding@home ganske gratis får stillet 54.000 flere CPUs til rådighed end IBM har brugt penge på at købe.

De to projekter bruger jo uden tvivl en masse timer på at skrive softwaren til deres regne-opgaver, og ved at bruge Distributed Computing kan man altså få ligeså meget hardware stillet til rådighed, som hvis man går ud og køber det selv.

Jeg ved godt at BG/L får en meget hurtigere og mere pålidelig maskine ved at købe hardwaren selv, men det er da bare en sjov/herlig tanke, at der er så mange mennesker der gerne gratis vil hjælpe til :)

Andet var der såmænd ikke i det :)
Gravatar #23 - bjarkehingrumme
26. jun. 2006 08:20
#21 Du må ikke hænge mig op på det - det er nogle år siden jeg rodede med DFT og jeg har ingen erfaring med at programmere til flere processorer - men disse beregninger er af en karakter der er relativt nemme at distribuere. Jeg ved ikke om det stadig er en lille spildtid helt oppe ved 131k processorer, men under 1000 er det i hvert fald ikke det store problem.

Derudover ville det forbavse mig hvis DTU har computere der på nogen måde kan slå BG/L. De kraftigeste på DTU er jo clustere som jo netop er mindre effektive end egentlige supercomputere, og når selv den største (NIFLHEIM) samtidig er over 100X mindre sååå.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login