mboost-dp1

Skype

Skype ramt af massivt nedbrud

- Via LA Times -

I går blev kommunikationstjenesten Skype ramt af deres hidtil værste udfald, idet næsten al kommunikation via tjenesten, i hele verden, ikke kunne lade sig gøre i en periode.

Skype er et forholdsvist decentraliseret system, hvor de enkelte computere håndterer opkald imellem sig direkte. Når det alligevel gik galt, så skyldes det ifølge Skype et problem i deres software.

Når man foretager et opkald, og ens Skype-program ikke kan finde vedkommende, så kontakter den, hvad Skype kalder en supernode, der er en slags telefonbog. Netop denne funktion fejlede i går, så næsten alle supernoder ikke kunne kontaktes.

For at løse problemet har Skypes teknikere været i gang med at opsætte mega-supernoder, som kan tage over for de manglende supernoder. Når supernoderne kommer online igen, vil mega-supernoderne fremover fungere som backup.

Løsningen er sat i værk, og det er således igen muligt at kommunikere via Skype.





Gå til bund
Gravatar #1 - DrHouseDK
23. dec. 2010 07:31
Så bliver det ikke bedre - mega-super!
Gravatar #2 - AlienDarkmind
23. dec. 2010 07:38
Hehe jeg er vidst ikke den eneste der små griner over deres valg af navn:P Hvorfor ikke sætte "supernoderne" til at klare det normale job? Hvis de er kraftigere så ville det da være oplagt.
Gravatar #3 - fennec
23. dec. 2010 07:40
Og når mega-supernoder en dag fejler opsætter det super-gigant-meganoder... Og når de fejler kommer "The-Most-Awasome-Super-Node-You-Will-Ever-See". Og derefter kommer Meh-noden.
Gravatar #4 - xaryn mar
23. dec. 2010 07:41
Det er så vidt jeg kan se ikke ordnet for mig, da jeg stadig ikke kan logge på.
Gravatar #5 - Sikots
23. dec. 2010 08:38
Chuck Norris-node to the rescue!
Gravatar #6 - qwest
23. dec. 2010 09:01
xaryn mar (4) skrev:
Det er så vidt jeg kan se ikke ordnet for mig, da jeg stadig ikke kan logge på.


Det kan jeg heller ikke, super! ;)
Gravatar #7 - Dvinuz
23. dec. 2010 09:09
Pludselig fandt jeg ud af hvor meget jeg faktisk bruger Skype.

Det fungere fint her - uden problemer.
Gravatar #8 - kasperd
23. dec. 2010 09:18
Når det alligevel gik galt, så skyldes det ifølge Skype et problem i deres software.
Det står der faktisk ikke noget om i artiklen. Og faktisk er det ret småt med detaljer.

Når man har et decentraliseret og redundant system, så kan softwaren i princippet skrives så nogle få hardware fejl ikke kan påvirke systemet i helhed. Men sådan et system bliver kompliceret, så det er svært at lave softwaren fejlfri. Dermed kan man argumentere for, at det naturligvis er en fejl i softwaren når systemet alligevel har et nedbrud.

Men som regel er den slags distribuerede systemer inddelt i nogle enheder, som arbejder mere eller mindre uafhængigt, og fejl ikke får mere end én sådan enhed til at bryde sammen.

Så, hvorfor brød hele systemet sammen i går? Noget må være årsag til at det lige netop gik galt i går for hele systemet. Der er flere muligheder for hvad årsagen kan have været.

En tidsafhængig fejl i softwaren. Men det kan jo hverken hænge sammen med år 2000 eller med 2^30 sekunder siden epoken. Er der nogen god forklaring på at der kunne have været en tidsafhængig bug der slog til i går?

Det kan være at de netop har opdateret softwaren til en ny version. Men at udrulle en ny version globalt lige før jul, og endog uden at afprøve den med en procentdel af brugerne først lyder som en lidt for dårlig strategi til at jeg tror det er årsagen. Med mindre de har været nødt til at lave en rettelse til et alvorligt sikkerhedsproblem, der netop var fundet. Men jeg har ikke læst nogen nyheder om alvorlige sikkerhedsproblemer i skype det sidste par dage, så det lyder heller ikke som den mest sandsynlige forklaring.

Det kan være systemet er blevet udsat for DDoS angreb eller lignende, men udfra artiklen lyder det ikke som om det er tilfældet.

En anden mulighed er at der er opstået en form for kaskade effekt.

Hvis man laver redundante systemer for at beskytte imod nedbrud er dataafhængige fejl en typisk måde sådan et system alligevel kan bryde ned. Hvis man har et antal instanser, der behandler samme data, sådan at en anden kan tage over hvis den primære fejler. Så kan det forekomme at bestemte data ramme en fejl i koden og softwaren går ned. Så, hjælper det ikke at man har flere computere der regner på samme data, for så vil de jo alle sammen gå ned. Og så springer hele systemet i luften (nogen gange helt bogstaveligt). Men på skype har de jo ikke alle sammen skullet behandle de samme data, så en dataafhængig fejl lyder ikke som den mest sandsynlige forklaring. Med mindre, der har været en anden fejl i systemet, som gjorde at klienter automatisk prøver alle nodes af hvis der er én som ikke svarer, eller hvis der er nogen som har opdaget fejlen og bevidst udnytter den til at udføre et DoS angreb. En kombination af to fejl lyder ikke helt usandsynlig, men det er dog mindre sandsynligt en blot en enkelt fejl. Og, hvis systemet faktisk havde været under angreb ville det nok have været nævnt i artiklen.

Endeligt kan der blot være tale om en kaskade af nedbrud forårsaget af overbelastning. Hvis disse nodes har været belastet tæt på bristepunktet og brugen er vokset hurtigere end der er blevet sat nye nodes i drift. Så, vil man på et tidspunkt have nogen der knækker under belastningen. Og, hvis alle brugerne så bliver fordelt på andre nodes som i forvejen er tæt på bristepunktet, så kan man risikere at de også bryder sammen, og så ruller kædeeffekten.

Dette er en rimelig sandsynlig forklaring (fænomenet er set flere gange i forskellige andre systemer). Der er stadigvæk tale om to forskellige fejl, som skal til for at det forekommer. En node skal bryde sammen under belastning og ikke blot blive lidt langsommere. Og en klient skal prøve flere nodes af uden nogen backoff strategi.

Man kan beskytte sig imod den slags ved at overvåge belastningen og installere ekstra kapacitet, når man begynder at nå tæt på.

Nu ved jeg ikke præcist hvad der er specielt ved disse supernodes. Hvis det er et spørgsmål om at det blot er tilfældige brugeres maskiner, og det eneste krav til dem er, at de skal have en offentlig IP og ikke side bagved NAT. Så kan nedbruddet måske skyldes at procentdelen af brugere bagved NAT er blevet for stor. Skype er en af de applikationer, som burde have stor fordel ud af at køre over IPv6 i stedet for IPv4, men om det kunne have forhindret sådan en nedbrud er naturligvis blot spekulation.
Gravatar #9 - Jaqen
23. dec. 2010 09:25
Det har vist også før været et af kritikpunkterne mod skypes påstand om at være "ren p2p" da supernoderne og loginserverne er centrale.

Redundante systemer er jo også afhængige af at de bruges rigtigt. hvad hjælper det at systemet kan fortsætte ved delvist nedbrud, hvis systemet ikke kan konstatere der er en fejl?

Mindes der for nyligt var nogen der lavede en tastebøf i en hoveddns server for et tld (.se var det ikke?) DNS er ellers meget redundant, men det hjælper intet, nå en fejl hovedløst replikeres.

ligesom dem der mener de ikke behøver backup, fordi de har spejlede diske, før de en dag står med perfekt spejlet og korrupt data :-)
Gravatar #10 - hOOLiGAN
23. dec. 2010 09:38
nu er jeg online...
nu er jeg offline...
nu er jeg online...
nu er jeg offline...

det virker stadig ikke som om de har fået helt styr på det..
ihvertfald ikke hos mig.. jeg ryger af og på hele tiden.. desværre..
håber snart de får det fixed..
Gravatar #11 - Virtual-Aidz
23. dec. 2010 09:39
#8: Aner ikke hvad du lige skrev... Men det er så langt at jeg blev nød til at rate dig Interessant :D
Gravatar #12 - chris
23. dec. 2010 10:40
Jaqen (9) skrev:

Ligesom dem der mener de ikke behøver backup


Rigtige mænd tager ikke backup...
- rigtige mænd græder
Gravatar #13 - Pernicious
23. dec. 2010 10:56
Den officielle melding fra Skype: http://blogs.skype.com/en/2010/12/skype_downtime_t...
Gravatar #14 - Frawan
23. dec. 2010 11:14
#10

+1
Gravatar #15 - Skovsneglen
23. dec. 2010 14:54
#8 og #9

Jeg tænker det er overbelastning siden af jeg læste i godt julehumør kunne man ringe gratis til alle lande i julen.. så netop der tror jeg de aldrig har været klar over hvor mange der netop ville ringe og for den sags skyld lige op til jul..

Men stadig idag virker Skype ikke som #10 siger, men på deres tweet står der at Skype er oppe men der vil gå flere timer før det kører normalt igen, siden man flere steder sætter mega super noder op..

Jeg fandt ihvertfald ud af igår at Steams voice chat, er pænt skod med forsinkelse og uklar lyd i et forsøg for at voice chatte med gutterne, når Skype ikke ville gå online
Gravatar #16 - Alrekr
23. dec. 2010 21:23
#12:

Rigtige mænd tager ikke backup. Rigtige mænd tuder længe - og hårdt!!
Gravatar #17 - coday
23. dec. 2010 21:55
Alrekr (16) skrev:
#12:

Rigtige mænd tager ikke backup. Rigtige mænd tuder længe - og hårdt!!

Hvordan tuder man hårdt?
Gravatar #18 - banzai123
24. dec. 2010 10:23
Skovsneglen (15) skrev:
#8 og #9

Jeg fandt ihvertfald ud af igår at Steams voice chat, er pænt skod med forsinkelse og uklar lyd i et forsøg for at voice chatte med gutterne, når Skype ikke ville gå online


Jeg var selv ramt af samme problem, men er den nemme løsning ikke bare at I henter Mumble og finder en fri server og snakker?

Eller Ventrilo/Teamspeak, hvis I kender en server, eller kan der nemt findes flere forskellige på nettet.
Gravatar #19 - Alrekr
24. dec. 2010 12:35
#17, triller rundt på gulvet og hamrer det i stykker?
Gravatar #20 - MEGAMASTER4000
25. dec. 2010 16:18
Vidste ikke Skype også var en musiktjeneste.

Wait for it.

... Oh. Bad joke.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login