mboost-dp1

- Forside
- ⟨
- Forum
- ⟨
- Nyheder
Jeg skal da ikke kunne sige det med sikkerhed, men tænker at Google og MS hver især har lignende tjenester, der også generer utrolig meget indhold, der også skal analyseres på.. fx deres søgetjenester og email tjenester.. men hvor de samtidig ved siden af har kæmpe geo-databaser med kort materialer m.m .. Det fylder jo enorm meget.. Men ingen tvivl om at data mining er interessant med denne størrelse af data :=)
Hvis ikke jeg regner forkert et sted, svarer det til 215kb pr. "stykke indhold"..(0) skrev:2,5 milliarder stykker indhold hvilket svarer til over 500 TB data
Så hut jeg hvisker fra da jeg var på facebook - så gemmes billderne i low-res. og kan næppe fylde så meget.. derudover er 95% af "indholdstykkerne" vel bare tekst...
Man kan da ikke uploade video kan man??
100PB er alligevel en del. Det er jo nok til at man skal tænke lidt over, hvordan man bærer sig ad med at lagre det :-)
Man kan da vist nok downloade billederne i fuld opløsning, hvis man vil.Jonas_ (3) skrev:så gemmes billderne i low-res
Der ligger da en del videoer på facebook, så jeg gætter på at nogen kan uploade videoer.Jonas_ (3) skrev:Man kan da ikke uploade video kan man??
Men de andre informationer fylder intet af betydning.tormok (4) skrev:Det kan være, at der gemmes andet information sammen med et billede end kun selve billedfilen.
Jonas_ (3) skrev:Hvis ikke jeg regner forkert et sted, svarer det til 215kb pr. "stykke indhold"..
Så hut jeg hvisker fra da jeg var på facebook - så gemmes billderne i low-res. og kan næppe fylde så meget.. derudover er 95% af "indholdstykkerne" vel bare tekst...
Man kan da ikke uploade video kan man??
Under billede upload kan man vælge om det skal være Hi-res. Og jo man kan godt uploade Video
Al den data kan jo mindskes rigtig meget, hvis de kun beholder resultaterne af det de har logget. problemet er så at hvis de vil lave statestik på et eller andet nyt om nogle måneder, så kan dette ikke lade sig gøre.
Det jeg tænker på er, at de i princippet godt kan logge hvor mange banner clicks folk i aldersgruppen 15-22år laver og så gemme ét tal der siger 1,67/dagligt og så er alt data på de 15-22årige slettet igen. Vil de senere hive ud hvor mange 15-22årige der også spiller farmville, så har de ikke den mulighed længere.
Der må satme være gode penge i at undersøge folks adfærd på nettet, når det er rentabelt at holde så kæmpemæssige datacentre kørende hele tiden...
Det jeg tænker på er, at de i princippet godt kan logge hvor mange banner clicks folk i aldersgruppen 15-22år laver og så gemme ét tal der siger 1,67/dagligt og så er alt data på de 15-22årige slettet igen. Vil de senere hive ud hvor mange 15-22årige der også spiller farmville, så har de ikke den mulighed længere.
Der må satme være gode penge i at undersøge folks adfærd på nettet, når det er rentabelt at holde så kæmpemæssige datacentre kørende hele tiden...
Logfilerne fylder nok ikke særlig meget i sammenligning med alle de billeder og videoer som folk uploader hele tiden.Seth-Enoch (9) skrev:Al den data kan jo mindskes rigtig meget, hvis de kun beholder resultaterne af det de har logget. problemet er så at hvis de vil lave statestik på et eller andet nyt om nogle måneder, så kan dette ikke lade sig gøre.
Og at spare plads er jo næsten aldrig gratis. At smide data væk for at spare plads er meningsløst, hvis de data er mere værd end de medier de er lagret på.
Mig bekendt er Hadoop baseret på Googles artikler om GFS og Mapreduce. Så selvom Google ikke bruger Hadoop, så bruger Google altså stadig samme teknologi. blot en anden implementation.arne_v (11) skrev:Hadoop er de facto standard for den slags.
Stort set alle andre end Google bruger det
Jeg har dog ikke selv nogen erfaringer med Hadoop. Så jeg kan ikke udtale mig om, hvor tæt de forskellige implementationer ligger op ad hinanden. Til gengæld har jeg brugt GFS og Mapreduce ret så meget før i tiden.
kasperd (12) skrev:Mig bekendt er Hadoop baseret på Googles artikler om GFS og Mapreduce. Så selvom Google ikke bruger Hadoop, så bruger Google altså stadig samme teknologi. blot en anden implementation.
Hadoop bygger på nogle ideer opfundet hos Google.
Men da Google koden er closed source, så er der næppe kode eller API til fælles.
Og alligevel kan jeg ikke finde en eneste til integrering med overvågningssystemet. Og det er nu den side af sagen, som jeg kender bedst.arne_v (15) skrev:Der er godt nok mange klasser og metoder i
Men jeg har nu heller aldrig været i tvivl om, at APIen nødvendigvis må afvige. En reimplementation af et så komplekst system uden adgang til en komplet specifikation af originalen kan ikke undgå at resultere i en anden API.
#16
Der er også:
http://hadoop.apache.org/common/docs/r1.0.3/api/or...
Men det er sikkert bedre at kigge på det hele:
http://hadoop.apache.org/common/docs/r1.0.3/api/
Monitor må være i:
org.apache.hadoop.jmx
org.apache.hadoop.metrics2
org.apache.hadoop.metrics2.(
Der er også:
http://hadoop.apache.org/common/docs/r1.0.3/api/or...
Men det er sikkert bedre at kigge på det hele:
http://hadoop.apache.org/common/docs/r1.0.3/api/
Monitor må være i:
org.apache.hadoop.jmx
org.apache.hadoop.metrics2
org.apache.hadoop.metrics2.(
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.