mboost-dp1

Facebook

Facebook har over 100 PB data

- Via TechCrunch - , redigeret af Pernicious

Facebook har over for en række udvalgte journalister afsløret tal for hvad der sker i deres datacentre. Det fremgår således, at de hver dag behandler 2,5 milliarder stykker indhold hvilket svarer til over 500 TB data. Derudover behandler Facebook 2,7 milliarder ”likes” og over 300 millioner billeder hver dag, mens der hver halve time skannes 105 TB data.

Jay Parikh fra Facebook afslørede også, at Facebook har gemt over 100 PB data i en enkelt Hadoop-klynge, som han mener, er verdens største. De 100 PB data indeholder blandt oplysninger om, hvordan reklamer klarer sig blandt forskellige målgrupper baseret på køn, alder, geografi og interesser.Med denne store mængde data kan Facebook udføre simuleringer af tiltag, for at se om dette vil øge klikraten hos brugerne. Desuden kan Facebook via Gatekeeper, teste ændringer på små grupper af Facebook-brugere.

Parikh afslørede også deres Projekt Prism, der tillader Facebooks data, der i dag er gemt i én stor klynge, at blive splittet op i flere fysiske adskilte datacentre og stadig bevare en indgang til dataene. I dag gemmer Facebook data i ét datacenter, hvor deres andre datacentre agerer backup.

Facebook har ikke valgt at dele dataene op i forskellige forretningsenheder som reklamer og kundeservice, da produktudviklerne gerne vil have mulighed for at teste deres produkter på tværs af forretningsenheder. Selvom en produktudvikler således kan se dybt i data, er der indbygget forskellige foranstaltninger mod misbrug. Der er log, som logger de enkelte produktudviklers aktiviteter i dataene, og der er en træning i korrekt brug af disse data. Hvis en medarbejder skulle falde for fristelsen til at kigge på data, medarbejderen ikke har lov til, bliver medarbejderen fyret.





Gå til bund
Gravatar #1 - Eniac
24. aug. 2012 07:07
Mængden er imponerende. Kvaliteten af indholdet er tvivlsom. Langt henad vejen er FB vel reelt bare organiseret spam (ja, jeg bruger det selv).
Gravatar #2 - webwarp
24. aug. 2012 07:33
Jeg skal da ikke kunne sige det med sikkerhed, men tænker at Google og MS hver især har lignende tjenester, der også generer utrolig meget indhold, der også skal analyseres på.. fx deres søgetjenester og email tjenester.. men hvor de samtidig ved siden af har kæmpe geo-databaser med kort materialer m.m .. Det fylder jo enorm meget.. Men ingen tvivl om at data mining er interessant med denne størrelse af data :=)
Gravatar #3 - Jonas_
24. aug. 2012 07:34
(0) skrev:
2,5 milliarder stykker indhold hvilket svarer til over 500 TB data
Hvis ikke jeg regner forkert et sted, svarer det til 215kb pr. "stykke indhold"..

Så hut jeg hvisker fra da jeg var på facebook - så gemmes billderne i low-res. og kan næppe fylde så meget.. derudover er 95% af "indholdstykkerne" vel bare tekst...
Man kan da ikke uploade video kan man??
Gravatar #4 - tormok
24. aug. 2012 07:37
#3: Det kan være, at der gemmes andet information sammen med et billede end kun selve billedfilen.
Gravatar #5 - Theis
24. aug. 2012 07:37
Jamen, jeg skal da gerne hoste min egen Facebook data, hvis de mangler plads :P Bare giv mig muligheden.
Gravatar #6 - kasperd
24. aug. 2012 07:48
100PB er alligevel en del. Det er jo nok til at man skal tænke lidt over, hvordan man bærer sig ad med at lagre det :-)

Jonas_ (3) skrev:
så gemmes billderne i low-res
Man kan da vist nok downloade billederne i fuld opløsning, hvis man vil.

Jonas_ (3) skrev:
Man kan da ikke uploade video kan man??
Der ligger da en del videoer på facebook, så jeg gætter på at nogen kan uploade videoer.

tormok (4) skrev:
Det kan være, at der gemmes andet information sammen med et billede end kun selve billedfilen.
Men de andre informationer fylder intet af betydning.
Gravatar #7 - paradise_lost
24. aug. 2012 08:38
Jonas_ (3) skrev:
Hvis ikke jeg regner forkert et sted, svarer det til 215kb pr. "stykke indhold"..

Så hut jeg hvisker fra da jeg var på facebook - så gemmes billderne i low-res. og kan næppe fylde så meget.. derudover er 95% af "indholdstykkerne" vel bare tekst...
Man kan da ikke uploade video kan man??


Under billede upload kan man vælge om det skal være Hi-res. Og jo man kan godt uploade Video
Gravatar #8 - NeoGeo
24. aug. 2012 09:35
Bare det var mig der havde over 100 peanutbutter data.
Gravatar #9 - Seth-Enoch
24. aug. 2012 12:36
Al den data kan jo mindskes rigtig meget, hvis de kun beholder resultaterne af det de har logget. problemet er så at hvis de vil lave statestik på et eller andet nyt om nogle måneder, så kan dette ikke lade sig gøre.

Det jeg tænker på er, at de i princippet godt kan logge hvor mange banner clicks folk i aldersgruppen 15-22år laver og så gemme ét tal der siger 1,67/dagligt og så er alt data på de 15-22årige slettet igen. Vil de senere hive ud hvor mange 15-22årige der også spiller farmville, så har de ikke den mulighed længere.

Der må satme være gode penge i at undersøge folks adfærd på nettet, når det er rentabelt at holde så kæmpemæssige datacentre kørende hele tiden...
Gravatar #10 - kasperd
24. aug. 2012 14:04
Seth-Enoch (9) skrev:
Al den data kan jo mindskes rigtig meget, hvis de kun beholder resultaterne af det de har logget. problemet er så at hvis de vil lave statestik på et eller andet nyt om nogle måneder, så kan dette ikke lade sig gøre.
Logfilerne fylder nok ikke særlig meget i sammenligning med alle de billeder og videoer som folk uploader hele tiden.

Og at spare plads er jo næsten aldrig gratis. At smide data væk for at spare plads er meningsløst, hvis de data er mere værd end de medier de er lagret på.
Gravatar #11 - arne_v
24. aug. 2012 14:17
#0 & 2

Hadoop er de facto standard for den slags.

Stort set alle andre end Google bruger det (Yahoo, Facebook, Amazon, Ebay, Twitter, Linkedin, Microsoft etc.).

Gravatar #12 - kasperd
24. aug. 2012 15:42
arne_v (11) skrev:
Hadoop er de facto standard for den slags.

Stort set alle andre end Google bruger det
Mig bekendt er Hadoop baseret på Googles artikler om GFS og Mapreduce. Så selvom Google ikke bruger Hadoop, så bruger Google altså stadig samme teknologi. blot en anden implementation.

Jeg har dog ikke selv nogen erfaringer med Hadoop. Så jeg kan ikke udtale mig om, hvor tæt de forskellige implementationer ligger op ad hinanden. Til gengæld har jeg brugt GFS og Mapreduce ret så meget før i tiden.
Gravatar #13 - arne_v
24. aug. 2012 16:19
kasperd (12) skrev:
Mig bekendt er Hadoop baseret på Googles artikler om GFS og Mapreduce. Så selvom Google ikke bruger Hadoop, så bruger Google altså stadig samme teknologi. blot en anden implementation.


Hadoop bygger på nogle ideer opfundet hos Google.

Men da Google koden er closed source, så er der næppe kode eller API til fælles.
Gravatar #14 - markjensen
24. aug. 2012 16:48
arne_v (13) skrev:
API


mapreduce ligger vel rimelig fast mht api
Gravatar #15 - arne_v
24. aug. 2012 16:54
#14

Der er godt nok mange klasser og metoder i:

http://hadoop.apache.org/common/docs/r1.0.3/api/or...
Gravatar #16 - kasperd
24. aug. 2012 17:45
arne_v (15) skrev:
Der er godt nok mange klasser og metoder i
Og alligevel kan jeg ikke finde en eneste til integrering med overvågningssystemet. Og det er nu den side af sagen, som jeg kender bedst.

Men jeg har nu heller aldrig været i tvivl om, at APIen nødvendigvis må afvige. En reimplementation af et så komplekst system uden adgang til en komplet specifikation af originalen kan ikke undgå at resultere i en anden API.
Gravatar #17 - arne_v
24. aug. 2012 17:52
#16

Der er også:

http://hadoop.apache.org/common/docs/r1.0.3/api/or...

Men det er sikkert bedre at kigge på det hele:

http://hadoop.apache.org/common/docs/r1.0.3/api/

Monitor må være i:

org.apache.hadoop.jmx
org.apache.hadoop.metrics2
org.apache.hadoop.metrics2.(
Gravatar #18 - Jesper C.
25. aug. 2012 10:40
Det er alligevel mange bolleopskrifter. Imponerende, at smalltalk afføder så store datacentre.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login