Annonce

Indsend nyhed

Del dine opdagelser!

Afstemning

Windows 8?

  • 60%Anvender det ikke
  • 21%Har installeret det, men anvender ikke Modern UI
  • 19%Har installeret det, anvender også Modern UI

PUBCRAWL fanger ondsindede web-bots

12. aug. 2012 17:59En gruppe forskere fra University of California, Santa Barbara og Northeastern University har lavet et system til at opdage og blokere ondsindede webcrawlere, som de kalder PUBCRAWL (Protecting Users and Businesses from CRAWLers). Systemet er i stand til med meget stor nøjagtighed at kende forskel på legitime brugere, selvom de er skjult bag en enkelt proxy og en ondsindet webcrawler-kampagne, som er distribueret ud til at komme fra flere forskellige adresser.

You want to make it easy for one person to get a small slice of the data. But you don't want to allow one person to get all the information.Christopher Kruegel, UCSB

Webcrawlere bruges blandt andet til at indeksere og analysere indhold på nettet, og gør det lettere for brugere, at finde det de leder efter. Der er dog også en stigende trafik af ondsindede webbots, som indsamler data, der bruges til spamming, phishing, målrettede angreb eller konkurrerende websites, som kopierer indhold. Specielt er sociale netværk udsat for den onsindede indsamling af brugerdata, som sælges videre til kriminelle eller bruges til afpresning.

Under udviklingen af PUBCRAWL trænede forskerne systemet i genkendelse og blokering af ondsindede crawlere med data fra et stort ikke navngivet socialt netværk på en produktionsserver. PUBCRAWL opdagede mere end 95 % af alle crawlere og 100 % af de uaftoriserede crawlere samt tæt på 99 % af crawlere, der forsøger at maskere sig som en legitim service.

PUBCRAWL gør brug af flere forskellige teknikker til at opdage og blokere ondsindede web crawlere. Den analyserer blandt andet hvilket indhold der efterspørges og timingen af forespørgsler, og er i stand til at opdage mønstre i forespørgelser fra forskellige kilder, og dermed opdage en ondsindet web crawler, som forsørger at skjule sig ved at være distribueret ud på flere forskellige adresser.

Systemet kører i dag på det sociale netværks produktionsserver.

#1: msl0t

12. aug. 2012 21:04

Skriv nu bare Facebook.

#2: nitramdanmark

12. aug. 2012 21:16

Skriv nu bare Facebook.msl0t (#1)

Det kunne også være Twitter.

Rigtig mænd bruger ikke brugsanvisning, eller gøre de?!?

#3: Borgmester Daniel-Dane

12. aug. 2012 22:20

Skriv Facebook alligevel.

You are in control of your breathing, your arms have weight, you are controlling your blinking, and you can feel your tongue in your mouth.

#4: Æblemos

12. aug. 2012 23:23

Så altså, PUBCRAWL fandt cirka 100% af de personer som de vidste var bots? Eller med andre ord: deres nye system virker 100% lige så godt som det gamle system?

Hvordan kender man forskel på et menneske og en bot som både har JavaScript, sender Referer og har en "ægte" User-Agent (med andre ord: en bots som ligner et menneske med en browser 100%)?

#5: tormok

13. aug. 2012 03:13

#4:

Our detection does not rely on easy-to-detect artifacts or the lack of fidelity to web standards in crawler implementations. Instead, we leverage the key observation that crawlers are auto mated processes, and as such, their access patterns (web requests) result in different types of regularities and variations compared to those of real users. These regularities and variations form the basis for our detection.
For detection, we use both content-based and timingbased features to passively model the traffic from different sources. We extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity. For timing-based features, we analyze the time series produced by the stream of requests. We then use machine learning to train classifiers that can distinguish between crawler and user traffic. Our system is also able to identify crawling campaigns led by distributed crawlers by looking at the synchronization of their traffic.Kilde

#6: Jonas_

13. aug. 2012 13:53

Så altså, PUBCRAWL fandt cirka 100% af de personer som de vidste var bots? Eller med andre ord: deres nye system virker 100% lige så godt som det gamle system?Æblemos (#4)

Næsten lige så godt... de nåede jo ikke helt 100%...

Men måske systemet fanger dem lidt hurtigere, lidt oftere, og MEGET billigere...

#7: Æblemos

14. aug. 2012 13:43

"Our detection does not rely on easy-to-detect artifacts or the lack of fidelity to web standards in crawler implementations"

"For detection, we [...] extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity."

Ret selvmodsigende. Okay, deres tidsbaseret detektionssystem er sikkert ret smart, men "nyheden" får systemet til at lyde som om at de fanger ALLE bots, hvilket de IKKE gør. Som #6 er indepå, så kan det godt være hurtigere/billigere, men altså ikke bedre (ud fra detektionsrate). Og "simple" bots som logger ind, søger på et navn, trykker like, logger ud igen (med forskellige tidsintervaller) tvivler jeg meget på at den fanger (så længe de sender rigtige useragents, har js, sender referer, osv)

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret bruger