mboost-dp1

newz.dk

PUBCRAWL fanger ondsindede web-bots

- Via Dark Reading - , redigeret af Pernicious

En gruppe forskere fra University of California, Santa Barbara og Northeastern University har lavet et system til at opdage og blokere ondsindede webcrawlere, som de kalder PUBCRAWL (Protecting Users and Businesses from CRAWLers). Systemet er i stand til med meget stor nøjagtighed at kende forskel på legitime brugere, selvom de er skjult bag en enkelt proxy og en ondsindet webcrawler-kampagne, som er distribueret ud til at komme fra flere forskellige adresser.

Christopher Kruegel, UCSB skrev:
You want to make it easy for one person to get a small slice of the data. But you don’t want to allow one person to get all the information.

Webcrawlere bruges blandt andet til at indeksere og analysere indhold på nettet, og gør det lettere for brugere, at finde det de leder efter. Der er dog også en stigende trafik af ondsindede webbots, som indsamler data, der bruges til spamming, phishing, målrettede angreb eller konkurrerende websites, som kopierer indhold. Specielt er sociale netværk udsat for den onsindede indsamling af brugerdata, som sælges videre til kriminelle eller bruges til afpresning.

Under udviklingen af PUBCRAWL trænede forskerne systemet i genkendelse og blokering af ondsindede crawlere med data fra et stort ikke navngivet socialt netværk på en produktionsserver. PUBCRAWL opdagede mere end 95 % af alle crawlere og 100 % af de uaftoriserede crawlere samt tæt på 99 % af crawlere, der forsøger at maskere sig som en legitim service.

PUBCRAWL gør brug af flere forskellige teknikker til at opdage og blokere ondsindede web crawlere. Den analyserer blandt andet hvilket indhold der efterspørges og timingen af forespørgsler, og er i stand til at opdage mønstre i forespørgelser fra forskellige kilder, og dermed opdage en ondsindet web crawler, som forsørger at skjule sig ved at være distribueret ud på flere forskellige adresser.

Systemet kører i dag på det sociale netværks produktionsserver.





Gå til bund
Gravatar #1 - msl0t
12. aug. 2012 19:04
Skriv nu bare Facebook.
Gravatar #2 - nitramdanmark
12. aug. 2012 19:16
msl0t (1) skrev:
Skriv nu bare Facebook.

Det kunne også være Twitter.
Gravatar #3 - Daniel-Dane
12. aug. 2012 20:20
Skriv Facebook alligevel.
Gravatar #4 - Æblemos
12. aug. 2012 21:23
Så altså, PUBCRAWL fandt cirka 100% af de personer som de vidste var bots? Eller med andre ord: deres nye system virker 100% lige så godt som det gamle system?

Hvordan kender man forskel på et menneske og en bot som både har JavaScript, sender Referer og har en "ægte" User-Agent (med andre ord: en bots som ligner et menneske med en browser 100%)?
Gravatar #5 - tormok
13. aug. 2012 01:13
#4:

https://www.usenix.org/conference/usenixsecurity12/pubcrawl-protecting-users-and-businesses-crawlers skrev:
Our detection does not rely on easy-to-detect artifacts or the lack of fidelity to web standards in crawler implementations. Instead, we leverage the key observation that crawlers are auto mated processes, and as such, their access patterns (web requests) result in different types of regularities and variations compared to those of real users. These regularities and variations form the basis for our detection.
For detection, we use both content-based and timingbased features to passively model the traffic from different sources. We extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity. For timing-based features, we analyze the time series produced by the stream of requests. We then use machine learning to train classifiers that can distinguish between crawler and user traffic. Our system is also able to identify crawling campaigns led by distributed crawlers by looking at the synchronization of their traffic.
Gravatar #6 - Jonas_
13. aug. 2012 11:53
Æblemos (4) skrev:
Så altså, PUBCRAWL fandt cirka 100% af de personer som de vidste var bots? Eller med andre ord: deres nye system virker 100% lige så godt som det gamle system?

Næsten lige så godt... de nåede jo ikke helt 100%...

Men måske systemet fanger dem lidt hurtigere, lidt oftere, og MEGET billigere...

Gravatar #7 - Æblemos
14. aug. 2012 11:43
"Our detection does not rely on easy-to-detect artifacts or the lack of fidelity to web standards in crawler implementations"


"For detection, we [...] extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity."


Ret selvmodsigende. Okay, deres tidsbaseret detektionssystem er sikkert ret smart, men "nyheden" får systemet til at lyde som om at de fanger ALLE bots, hvilket de IKKE gør. Som #6 er indepå, så kan det godt være hurtigere/billigere, men altså ikke bedre (ud fra detektionsrate). Og "simple" bots som logger ind, søger på et navn, trykker like, logger ud igen (med forskellige tidsintervaller) tvivler jeg meget på at den fanger (så længe de sender rigtige useragents, har js, sender referer, osv)
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login