mboost-dp1

newz.dk
- Forside
- ⟨
- Forum
- ⟨
- Nyheder
Så altså, PUBCRAWL fandt cirka 100% af de personer som de vidste var bots? Eller med andre ord: deres nye system virker 100% lige så godt som det gamle system?
Hvordan kender man forskel på et menneske og en bot som både har JavaScript, sender Referer og har en "ægte" User-Agent (med andre ord: en bots som ligner et menneske med en browser 100%)?
Hvordan kender man forskel på et menneske og en bot som både har JavaScript, sender Referer og har en "ægte" User-Agent (med andre ord: en bots som ligner et menneske med en browser 100%)?
#4:
https://www.usenix.org/conference/usenixsecurity12/pubcrawl-protecting-users-and-businesses-crawlers skrev:Our detection does not rely on easy-to-detect artifacts or the lack of fidelity to web standards in crawler implementations. Instead, we leverage the key observation that crawlers are auto mated processes, and as such, their access patterns (web requests) result in different types of regularities and variations compared to those of real users. These regularities and variations form the basis for our detection.
For detection, we use both content-based and timingbased features to passively model the traffic from different sources. We extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity. For timing-based features, we analyze the time series produced by the stream of requests. We then use machine learning to train classifiers that can distinguish between crawler and user traffic. Our system is also able to identify crawling campaigns led by distributed crawlers by looking at the synchronization of their traffic.
Æblemos (4) skrev:Så altså, PUBCRAWL fandt cirka 100% af de personer som de vidste var bots? Eller med andre ord: deres nye system virker 100% lige så godt som det gamle system?
Næsten lige så godt... de nåede jo ikke helt 100%...
Men måske systemet fanger dem lidt hurtigere, lidt oftere, og MEGET billigere...
"Our detection does not rely on easy-to-detect artifacts or the lack of fidelity to web standards in crawler implementations"
"For detection, we [...] extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity."
Ret selvmodsigende. Okay, deres tidsbaseret detektionssystem er sikkert ret smart, men "nyheden" får systemet til at lyde som om at de fanger ALLE bots, hvilket de IKKE gør. Som #6 er indepå, så kan det godt være hurtigere/billigere, men altså ikke bedre (ud fra detektionsrate). Og "simple" bots som logger ind, søger på et navn, trykker like, logger ud igen (med forskellige tidsintervaller) tvivler jeg meget på at den fanger (så længe de sender rigtige useragents, har js, sender referer, osv)
"For detection, we [...] extract content-based features from HTTP headers (e.g., referrers, cookies) and URLs (e.g., page revisits, access errors). These features are checked by heuristics to detect values betraying a crawling activity."
Ret selvmodsigende. Okay, deres tidsbaseret detektionssystem er sikkert ret smart, men "nyheden" får systemet til at lyde som om at de fanger ALLE bots, hvilket de IKKE gør. Som #6 er indepå, så kan det godt være hurtigere/billigere, men altså ikke bedre (ud fra detektionsrate). Og "simple" bots som logger ind, søger på et navn, trykker like, logger ud igen (med forskellige tidsintervaller) tvivler jeg meget på at den fanger (så længe de sender rigtige useragents, har js, sender referer, osv)
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.