mboost-dp1

unknown
- Forside
- ⟨
- Forum
- ⟨
- Nyheder
Det minder mig lidt om netarkivet.dk :| samme taktik (udenom robots.txt) :| Ind i .htaccess med dem så burde problemet være løst...
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} .*netarkivet.dk [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*ia_archiver-web.archive.org [NC,OR]
RewriteRule .* - [F]
</IfModule>
og så lige
Deny from 209.237.232.0/255.255.252.0
Sådan der :D
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} .*netarkivet.dk [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*ia_archiver-web.archive.org [NC,OR]
RewriteRule .* - [F]
</IfModule>
og så lige
Deny from 209.237.232.0/255.255.252.0
Sådan der :D
#1 læs artiklen..
Det er et interesasnt søgsmål - men jeg tror web archive vinder.
Edit:
Tidligere har siderne været publicerede - Kan man trække den slags tilbage?
Det mener jeg ikke - Men lad os se hvad USAs domstole synes.
[off topic] sygt nok - de er nået op omkring 1 petabyte arkiverede data. Det er sgu en del!
Det er et interesasnt søgsmål - men jeg tror web archive vinder.
Edit:
Tidligere har siderne været publicerede - Kan man trække den slags tilbage?
Det mener jeg ikke - Men lad os se hvad USAs domstole synes.
[off topic] sygt nok - de er nået op omkring 1 petabyte arkiverede data. Det er sgu en del!
ehhh... har læst det... hvad er det lige du referrer til?
Plus, web-archive robot kunne måske ikke få adgang til robots.txt på det tidspunkt hvor den har mirrored siden, ellers var filen ikke tilgængeligt... det kunne måske ske pga overbelastet server...
Plus, web-archive robot kunne måske ikke få adgang til robots.txt på det tidspunkt hvor den har mirrored siden, ellers var filen ikke tilgængeligt... det kunne måske ske pga overbelastet server...
#3
du har læst artiklen? Hvor står der at de omgår robots.txt?
Admins: I burde måske udpensle i resumeet at det ikke er som netarkivet.dk - webarchive overholder robots.txt
du har læst artiklen? Hvor står der at de omgår robots.txt?
Most search engines program their Web crawlers to recognize a robots.txt file, and follow its commands. The Internet Archive goes a step further, allowing Web site administrators to use the robots.txt file to control the archiving of current content, as well as block access to any older versions already stored in the archive's database before a robots.txt file was put in place.
Admins: I burde måske udpensle i resumeet at det ikke er som netarkivet.dk - webarchive overholder robots.txt
#5
Nu fatter jeg bjælde - hvis du blokerer for web archive kan den vel lige præcis GODT vise dine cachede sider? Men det e måske miningen? Hvor vil du hen? Vil du ikke have at den cacher dine sider så brug robots.txt Hvis du ikke vil haver at den viser dine cahcede sider - så brug robots.txt!
Hvad får du ud af at blocke den helt?
Nu fatter jeg bjælde - hvis du blokerer for web archive kan den vel lige præcis GODT vise dine cachede sider? Men det e måske miningen? Hvor vil du hen? Vil du ikke have at den cacher dine sider så brug robots.txt Hvis du ikke vil haver at den viser dine cahcede sider - så brug robots.txt!
Hvad får du ud af at blocke den helt?
Lidt mere offtopic information
De arkiverer 20TB om måneden - på x86 servere der kan holde 1TB/stk.
Men de arbejder på et 1PB rack - altså en million GB data i et enkelt rack(!)
Prøv at tænke over hvor meget porno der kunne ligge på sådan et rack!
De arkiverer 20TB om måneden - på x86 servere der kan holde 1TB/stk.
Men de arbejder på et 1PB rack - altså en million GB data i et enkelt rack(!)
Prøv at tænke over hvor meget porno der kunne ligge på sådan et rack!
Det vurderes dog at sagsøger har en dårlig sag, da de bl.a. baserer deres anklage på, at robot.txt filen på deres egen hjemmeside ikke er blevet respekteret af Wayback Machine.Derfor postede jeg .htaccess som de (sagsøger) kunne bruge (for at gør sig sikker, at web-archive robotten ikke kan komme ind). Mere er det ikke i det :P Personligt har jeg ikke haft nogen problemer med web-arhive's robot
Nu er det ikke helt det samme eftersom netarkivet.dk juridisk har ret til at tage en kopi af alt materiale, der offentliggøres på nettet.
Fakta er at sådan som juraen er idag, så ER det kopier af opretsbeskyttede værker, og dermed har de ikke uden vidre aftale lov til at lave, opbevare og udlevere digitale kopier.
Og i ophavsretten er der som udgangspunkt ikke noget krav om at man "beskytter" sine værker, man har "copyright" selvom man ikke skriver (c).
(Når man skriver "copyright (c) 20005 firmanavn", så er det af identifikations årsager, så man med sikkerhed undgår at det bliver "anonyme værker")
robots.txt er et ubekendt begreb for "almindelige mennesker" (bonus pater), og det er derfor meget usansynligt at retten vil danne retspraksis baseret på filen.
Derfor vil det kræve lovgivning om robots.txt lignende filer hvis manglende indstillinger skal have juridisk effekt om tab af ophavsrets på værker.
Derimod er robots.txt et velkendt begreb for søgemaskine eksperter (og folk som laver online arkiver), og de vil derfor højst sansynligt kunne stilles til ansvar for at ignorere filen. (som tillæg til ophavsrets krænkelsen)
Og i ophavsretten er der som udgangspunkt ikke noget krav om at man "beskytter" sine værker, man har "copyright" selvom man ikke skriver (c).
(Når man skriver "copyright (c) 20005 firmanavn", så er det af identifikations årsager, så man med sikkerhed undgår at det bliver "anonyme værker")
robots.txt er et ubekendt begreb for "almindelige mennesker" (bonus pater), og det er derfor meget usansynligt at retten vil danne retspraksis baseret på filen.
Derfor vil det kræve lovgivning om robots.txt lignende filer hvis manglende indstillinger skal have juridisk effekt om tab af ophavsrets på værker.
Derimod er robots.txt et velkendt begreb for søgemaskine eksperter (og folk som laver online arkiver), og de vil derfor højst sansynligt kunne stilles til ansvar for at ignorere filen. (som tillæg til ophavsrets krænkelsen)
lol
Hvornår fanden forstå folk at der er andre vigtige ting i livet end advokat mod advokat.
Krig terror drugs etc.
http://www.archive.org/web/web.php
Er noget af det bedste der er sket online, så kan man nemlig næsten altid finde hvad man vil finde.
dejligt.
prøv selv.
Fortsat kanon s0mmervejr!
Hvornår fanden forstå folk at der er andre vigtige ting i livet end advokat mod advokat.
Krig terror drugs etc.
http://www.archive.org/web/web.php
Er noget af det bedste der er sket online, så kan man nemlig næsten altid finde hvad man vil finde.
dejligt.
prøv selv.
Fortsat kanon s0mmervejr!
I den her sammenhæng så jeg gerne at folk ratede sund fornuft over tolkning af love.
Det er jo tydeligt for enhver at the archive forsøger at stille en service til rådighed for folket, og jeg har da også selv ofte haft glæde af den.
De prøver jo ikke at profitere på indholdet på bekostning af dettes forfattere/kunstnere.
Det er jo tydeligt for enhver at the archive forsøger at stille en service til rådighed for folket, og jeg har da også selv ofte haft glæde af den.
De prøver jo ikke at profitere på indholdet på bekostning af dettes forfattere/kunstnere.
#12
Hvorfor er det at man altid vil gemme sig under uvidenhed.... Den holder ikke ved normal lovgivning.... Lær at bruge ting inden I bruger dem... Bare fordi at simple web udviklere ikke har sat sig ind i hvordan man kan stoppe crawlere.
robots.txt er jo en std. og det er såmen bare at tage et smut forbi w3.org.. så bliver det forklaret.. give eks. til hvordan den bruges... Og længere er den ikke... Det er så ærgeligt at der kommer nogle som ignorere den.. men så har man jo også et grundlag for at sagsøge dem.
/hemsoe
Hvorfor er det at man altid vil gemme sig under uvidenhed.... Den holder ikke ved normal lovgivning.... Lær at bruge ting inden I bruger dem... Bare fordi at simple web udviklere ikke har sat sig ind i hvordan man kan stoppe crawlere.
robots.txt er jo en std. og det er såmen bare at tage et smut forbi w3.org.. så bliver det forklaret.. give eks. til hvordan den bruges... Og længere er den ikke... Det er så ærgeligt at der kommer nogle som ignorere den.. men så har man jo også et grundlag for at sagsøge dem.
/hemsoe
#21
I den her sammenhæng så jeg gerne at folk ratede sund fornuft over tolkning af love.- architect
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.