mboost-dp1

IBM

IBM-system kan scanne 10 milliarder filer på 43 minutter

- Via NetworkWorld - , redigeret af Emil , indsendt af thimon

Forskere fra IBM har udarbejdet et system, der kan scanne 10 milliarder filer på 43 minutter. Systemet benytter solid-state-hukommelse og et parallelt filsystem.

Systemet, der kan læse filer med en hastighed på næsten 5 GB/s, består af 10 servere med 8 kerner hver og en samlet kapacitet på 6,8 petabytes solid-state-hukommelse fra 3.205 SSD’ere fra Violin Memory. Filsystemet, der benyttes, er IBM’s eget General Parallel File System i version 3.4, der giver processorkernerne mulighed for parallelt at skrive til og læse fra SSD’erne.

Forskernes tidligere rekord var et system fra 2007, der kunne scanne 1 milliard filer på tre timer. Den øgede ydelse skyldes, at man nu bruger flash-hukommelse til at gemme den metadata, der fortæller systemet, hvor filerne kan findes, mens man tidligere brugte en harddisk til at gemme disse informationer.





Gå til bund
Gravatar #1 - webwarp
26. jul. 2011 08:51
Noget TPB har bestildt ..? Og er det ikke lidt sølle at oplyse om en ny rekord, der ene og alene skyldes, at man har skiftet hardisk ud med SSD .. Skulle jo tro at algoritmerne i mellemtiden også skulle have haft et løft :=)
Gravatar #2 - NeoNmaN
26. jul. 2011 09:11
#1) Tja, en rekord er vel en rekord! :D lige som "winning is a winning" lige meget hvor tæt du er på at tabe! :D
Gravatar #3 - WinPower
26. jul. 2011 09:16
Optimalt burde det vel kunne gørres på samme tid, som det tager at scanne en fil.
Gravatar #4 - webwarp
26. jul. 2011 09:37
#3 øh ?? 2 > 1 vil altid gælde ?
Gravatar #5 - WinPower
26. jul. 2011 09:41
#4 Hvis jeg havde ti milliarder computere med ti milliarder harddiske og ti milliarder filer, en på hver computer, så kunne jeg da godt scanne ti milliarder filer på samme tid som det tager at scanne en.
Gravatar #6 - skipperskip
26. jul. 2011 09:51
WinPower (5) skrev:
#4 Hvis jeg havde ti milliarder computere med ti milliarder harddiske og ti milliarder filer, en på hver computer, så kunne jeg da godt scanne ti milliarder filer på samme tid som det tager at scanne en.

Mon dog.
"Den cocktail har IBM sat sammen i et storagesystem bestående af en klynge med 10 storageservere" Det er nok en del mere effektivt en din sammensætning!
Men ville du kunne gøre det ligeså effektivt som IBM?

Det drejer sig om en ny udgave af IBM's særlige storagesoftware til IBM's eget filsystem General Parallel File System, GPFS, som IBM nu har fintunet endnu en gang og kombineret med SSD-diske.




webwarp (1) skrev:
Noget TPB har bestildt ..? Og er det ikke lidt sølle at oplyse om en ny rekord, der ene og alene skyldes, at man har skiftet hardisk ud med SSD .. Skulle jo tro at algoritmerne i mellemtiden også skulle have haft et løft :=)

Har de da ikke fået det?
Har du overhovedt læst kilden eller Version2's oversættelse?
http://www.version2.dk/artikel/ibm-system-kvaerner...
Gravatar #7 - WinPower
26. jul. 2011 10:02
skipperskip (6) skrev:
Mon dog.
"Den cocktail har IBM sat sammen i et storagesystem bestående af en klynge med 10 storageservere" Det er nok en del mere effektivt en din sammensætning!
Men ville du kunne gøre det ligeså effektivt som IBM?

Jeg er ikke i tvivl om at de har noget sejt gear hos IBM, men fortæl mig lige hvorfor mit 10-milliarders-pc-rig ikke ville kunne scanne 10 milliarder filer på samme tid som man kan scanne en.
Gravatar #8 - ThiaZ
26. jul. 2011 11:09
WinFlower>

Han har aldrig sagt at det ikke kan.
Men stiller dog spørgsmål ved om det er i nærheden så effektivt som IBM's :) Og prøv du og hav 10 milliarder servere sat i i et rack :D
Gravatar #9 - WinPower
26. jul. 2011 11:11
ThiaZ (8) skrev:
Han har aldrig sagt at det ikke kan.

Mon dog.
Gravatar #10 - skipperskip
26. jul. 2011 11:50
WinPower (7) skrev:
skipperskip (6) skrev:
Mon dog.
"Den cocktail har IBM sat sammen i et storagesystem bestående af en klynge med 10 storageservere" Det er nok en del mere effektivt en din sammensætning!
Men ville du kunne gøre det ligeså effektivt som IBM?

Jeg er ikke i tvivl om at de har noget sejt gear hos IBM, men fortæl mig lige hvorfor mit 10-milliarders-pc-rig ikke ville kunne scanne 10 milliarder filer på samme tid som man kan scanne en.


Fordi du ikke vil kunne have ti milliarder computere kørende på én gang, uden af mindst én af dem ikke virker, hvilket vil ødelægge det hele. Du har desuden ti milliarder harddiske, hvor igen at alle uden undtagelse skal virke.

Hvordan vil du få smidt én fil på hver af de ti milliarder computere? Det vil kræve en fanden masse arbejdskraft, blot at holde styr på bare den del af processen, desuden vil de komme med st svar allesammen, som du igen skal have en computer til at vise.

Hvis du så desuden kører Windåse, vil de 2 milliarder være i gang med at genstarte, yderligere 2 milliarder vil virusscanne, 100 millioner vil have BSOD, og 2 milliarder vil være en del af et botnet....

Ps. er du egentlig sikker på, at du overhovedet ikke selv kører Linux på bare ét af dine elektroniske apparater hjemme. Din fladskærm, router osv...
Gravatar #11 - Montago.NET
26. jul. 2011 13:49
WinPower (5) skrev:
#4 Hvis jeg havde ti milliarder computere med ti milliarder harddiske og ti milliarder filer, en på hver computer, så kunne jeg da godt scanne ti milliarder filer på samme tid som det tager at scanne en.


det kan man godt... med en kvantecomputer - men det har vi ik... godnat og sov godt.
Gravatar #12 - WinPower
26. jul. 2011 14:41
@skipperspik
Hvormange filer tror du norton+avg+mse+etc worldwide kan scanne på 43 min.
Gravatar #13 - WinPower
26. jul. 2011 14:47
skipperskip (10) skrev:
Ps. er du egentlig sikker på, at du overhovedet ikke selv kører Linux på bare ét af dine elektroniske apparater hjemme. Din fladskærm, router osv...


Ja. Microsoft klare det hele.
Gravatar #14 - skipperskip
26. jul. 2011 14:58
WinPower (12) skrev:
@skipperspik
Hvormange filer tror du norton+avg+mse+etc worldwide kan scanne på 43 min.

Det er da sagen uvedkommende.
Det er jo 10 milliarder bestemte filer, scannet af én computer. De 10 milliarder filer blev scannet og de relevante udvalgt.



WinPower (13) skrev:
Ja. Microsoft klare det hele.

Ja ja, så siger vi det...
Gravatar #15 - Dynde87
27. jul. 2011 06:33
skipperskip (14) skrev:
WinPower (12) skrev:
@skipperspik
Hvormange filer tror du norton+avg+mse+etc worldwide kan scanne på 43 min.

Det er da sagen uvedkommende.
Det er jo 10 milliarder bestemte filer, scannet af én computer. De 10 milliarder filer blev scannet og de relevante udvalgt...


Aarh, det er ét system. Ikke én computer. Og der står teknisk set ikke at det er bestemte filer, og det er vel ikke det rekorden går ud på? Men bare at det er 10 milliarder filer scannet pænt hurtigt?

Og teorien holder vel stadig, med 10 milliarder pc-rig. Nu nævner du så praktiske forhindringer, som fejl osv. Men det er jo ligemeget, de praktiske ting findes jo ikke i teorien :)

Og jeg synes da også at worldwide antivirus burde tælle. Det kan da godt være, det ikke er bestemt filer, og det ikke er på ens "eget" system, men bare uddelegeret til masserne, men det gør det da også bare mere imponerende end det IBM har gang i?

Hvis du kan bygge en flyvemaskine med dine bare næver på 2 år, siger jeg flot. Men hvis jeg kan få en fabrik og 500 mennesker til at lave mig en på 5 dage, så synes jeg personligt det er federe.

I øvrigt, er det da også mere imponerende at det er random, tilfældige filer, og ikke bestemte filer :)
Gravatar #16 - skipperskip
27. jul. 2011 07:20
Dynde87 (15) skrev:
skipperskip (14) skrev:
WinPower (12) skrev:
@skipperspik
Hvormange filer tror du norton+avg+mse+etc worldwide kan scanne på 43 min.

Det er da sagen uvedkommende.
Det er jo 10 milliarder bestemte filer, scannet af én computer. De 10 milliarder filer blev scannet og de relevante udvalgt...


Aarh, det er ét system. Ikke én computer. Og der står teknisk set ikke at det er bestemte filer, og det er vel ikke det rekorden går ud på? Men bare at det er 10 milliarder filer scannet pænt hurtigt?.


Læs dog kilden!
"...IBM Research demonstrated, for the first time, the ability to do policy-guided storage management
(daily tasks such as file selection for backup, migration, etc.) for a 10-billion-file environment in 43
minutes.
The task of managing storage: backing up, migrating to appropriate
performance tiers, replication and distribution is overburdening this infrastructure. It is not possible
with existing solutions to manage 10 billion files actively today.

The components in the system are:
1. IBM 3650 M2 servers
• Ten used
• CPU: 2.8 GHz dual quad core x86_64
• Processor cache size 12 MB
• 32 GB of DRAM
2. Violin Memory 3205 Solid-state Storage Systems
• Four used
• Aggregate total raw capacity of 10 TB
• Aggregate bandwidth 5 GB/s
• 1.8 TBs formatted per 3205, aggregate usable capacity 7.2 TBs
• Two 14x 128GB partitions
• Two 10x 180 GB partitions
• Aggregate 4 KB read operation rate > 1 MIOPS
• Typical write latency at 4KB: 20us
• Typical read latency at 4 KB: 90us
3. SilverStorm Infiniband switch
• Model 9024
• 24 port
• 10/20 Gb/s
"
http://www.violin-memory.com/images/IBM-Violin-GPF...

IBM bruger kun 10 servere til det du vil bruge 10 milliarder til!


Og teorien holder vel stadig, med 10 milliarder pc-rig. Nu nævner du så praktiske forhindringer, som fejl osv. Men det er jo ligemeget, de praktiske ting findes jo ikke i teorien :) .

Jeg synes ikke rigtig, at man kan bruge teorier til ret meget, hvis man blot ser bort fra de forhindringer der er.
Jeg kunne i teorien blot tage en almindelig computer, smide 10 milliarder filer på den, og overclocke den, så skal det såmænd nok virke. Jeg ser så bort fra, at den brænder af, for det er jo blot en teori.

Teorien med ti milliarder computere med ti milliarder harddiske er da fin nok, men ikke noget som vil kunne lade sig gøre i praksis, så derfor er den ikke noget værd.
IBM HAR lavet noget, som virker i teori OG i praksis.

Har du tænkt på, hvor lang tid det tager, at få sendt informationerne til de ti milliarder computere, og derefter informationerne om hvad der skal scannes efter - det er jo forskelligt fra opgave til opgave, vente på svar, og så modtage svar samtidig fra ti milliarder computere.
Alene blot at fortælle ti milliarder hvad de skal lave, tager hurtigt 43 minutter!

Og jeg synes da også at worldwide antivirus burde tælle. Det kan da godt være, det ikke er bestemt filer, og det ikke er på ens "eget" system, men bare uddelegeret til masserne, men det gør det da også bare mere imponerende end det IBM har gang i?.


Så er det jo noget helt andet du har gang i. Du kan da slet ikke sammenligne de to ting!
Du har ti milliarder computere til at stå og scanne en masse en masse filer. De leder efter det samme i en masse ens filer, og kan så sige "Ja, der var virus".


I øvrigt, er det da også mere imponerende at det er random, tilfældige filer, og ikke bestemte filer :)


Meget muligt, men det kan du jo ikke bruge i denne sammenhæng.
Du skal tænke på systemet, som en kæmpe database, hvor kunden skal bruge en stak bestemte filer, ud fra de kriterier der bliver opstillet, til lige præcis den opgave.
Systemet kan så pløje 10 milliarder filer igennem på 43 minutter, vel og mærket ét system, som man kan have stående i ét rum, som én maskine.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login