mboost-dp1

unknown

Pligtaflevering – God idé eller Big brother?

- Via Netarkivet - , redigeret af The-Lone-Gunman

Fra og med den 1. juli er loven om pligtaflevering trådt i kraft, en lov der ikke har fået megen opmærksomhed siden den blev enstemmigt vedtaget den 22. december 2004. Idéen er at det Kongelige Bibliotek og Statsbiblioteket kan arkivere alt dansk internetmateriale i Netarkivet.dk.

Umiddelbart lyder det fint nok, men der er visse dele af loven som giver bibliotekerne ret vide beføjelser, ligesom der bevidst fravælges at følge gældende praksis for dataindsamling fra hjemmesider.

Søgetjenester som Google, Yahoo og lign. anvender robotter (web-crawlere) til at finde det data de har i deres databaser. De to biblioteker vil benytte samme metode, men har bevidst valgt ikke at respektere ‘robot.txt’ filerne på hjemmesiderne, der normalt fortæller hvor en robot ikke skal indeksere, f.eks. for at undgå unødvendig belastning.

Yderligere giver loven beføjelse til at kunne kræve login og kodeord udleveret, såfremt robotten støder på lukkede dele af en hjemmeside. Jf. vejledningen (.pdf-fil) på deres hjemmeside ”registranten af et domænenavn skal efter påkrav give meddelelse om adgangskoder og lignende”. Kan man påvise at den lukkede del af en hjemmeside kun kan/skal benyttes af en lukket brugerkreds, kan man dog undgå at udlevere login-oplysningerne.





Gå til bund
Gravatar #51 - briped
8. jul. 2005 21:22
Mange folk der har en hjemmeside bruger det for at fortælle familie, venner og bekendte om deres hverdag, ofte med et mindre billede-galleri, igen påregnet for blot familie, venner og bekendte.

Ja, der kan komme "uvedkommende" ind og se disse billeder hvis der ikke er tilstrækkelig lukket af for adgangen til det, dette bremses ved at visse dele af ens hjemmeside ikke bliver indekseret af søgemaskiner og publiceret på søgesider, via robots.txt.

Blot fordi en instans ikke ønsker at følge visse retningslinier der er sat for indeksering af hjemmesider, synes jeg ikke at man skulle tvinges til at bremse adgangen for familie, venner og bekendte blot for at begrænse adgangen for (inter)national publicering af det indhold man ikke har interesse i at bliver automatisk spredt for hele nationen/verdenen.

Hele arkiverings idéen er glimrende, selvfølgelig skal man gemme information til de kommende generationer, men der burde tages lidt hensyn.

Måske ville det være en idé at udvide Robots Exclusion Protokollen (robots.txt), hvor man pt. blot angiver hvilke user-agents der ikke skal have adgang, og hvilket materiale der ikke skal være adgang til, kunne man måske udvide det til niveau baseret adgang.

User-agent: *
Disallow: /cgi-bin/ irrelevant
Disallow: /tmp/ irrelevant
Disallow: /apache/docs/ irellevant
Disallow: /~brianman/ private
Disallow: /today/ dynamic


"irellevant" ville i mine øjne betyde at det er offentlig tilgængeligt, det må indekseres og arkiveres, men det ville være en belastning eller gene da indholdet er irrelevant for resten af sitet.
"private" er absolut privat, indholdet skal under ingen omstændigheder indekseres eller arkiveres.
"dynamic" dette kunne være relevant for arkivering, men næppe for indeksering.

Jeg tvivler på at vi får en sådan ændring gennemførst på globalt niveau, men idéen er IMHO god nok.

NB: Ovenstående er IKKE gyldig syntax for robots.txt, for mere information om hvad robots.txt er og hvordan man bruger den, bør man læse lidt på siden www.robotstxt.org.
Gravatar #52 - briped
8. jul. 2005 21:36
Efter jeg lige kom til at læse #48, kom jeg til at tænke på hvordan man kunne skrive robots.txt for at tage hensyn til netarkivet, med lidt samarbejde fra netarkivet selvfølgelig.

User-agent: NetArkivet
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /mirror/apache/docs/
Disallow: /~brianman/pictures/

User-agent: *
Disallow: /


Jeg er overbevist om at langt de fleste danskere er villige til at give mere adgang til NetArkivets robot, da det er et godt formål med det, blot ved at skræddersy sin robots.txt lidt til at give deres robot lidt mere adgang. Men at at de, på godt dansk, skider højt og helligt på almen skik på internettet, gør blot folk harme. Jeg ved at at jeg personligt sætter benene i jorden hvis nogen begynder at "true" på den måde som de gør i NetArkivets vejledning.pdf.

NB: Ovenstående robots.txt ville blokere alt indhold af ens site for alle robotter, undtagen for NetArkivets robot, den vil den udelukkende blokere for de 4 ting der er angivet. User-agent er næppe korrekt ;)
Gravatar #53 - DUdsen
8. jul. 2005 23:11
#47 Problemet med password og robot.txt er den samme som med DRM og den slags det bliver brugt til at begrense ellers gyldige fair use klausuler, når f.eks. politikken.dk, eller berlingske får ondt i røven over google eller tilsvarende bør det så også gælde for det kongelige bibliotek, der netop skal have adgang også til de dele af berlingske tidene der kun er åbent for subscription.
Jeg tror nok, eller jeg håber at det er ret klart at det kun er ved deciderede offentligt gjorte værker og ikke lukkede admin eller groupware systemer der skal gøres til gændgæld for indexring.
Gravatar #54 - DrHouseDK
9. jul. 2005 13:39
Wohoo - Stakkels den mand der skal kigge alle brugere på Arto.dk igennem! :)

// Troels
Gravatar #55 - henne
10. jul. 2005 21:00
Det vil jo være en evig diskussion om hvor vidt man har ret til at få slettet sin hjemmeside fra alle IE-caches og webarchive.org fordi man har fundet en stavefejl i den.
Og folk som har prøvet at overbevise en marketingsafdeling om at der ikke er noget at gøre ved google cache, ved hvad de taler om: Folk fatter nada omkring værdien og konceptet i den slags arkiveringer.
Selvf. kunne man lovgive sig ud af det og give folk ret til at slette med tilbagevirkende kraft, men det er vist kun EU-politikere som vil synes det er implementerbart i praksis.
Typisk for os danskere vil vi gerne se det som om staten hugger båndbredde fra vores flat-rate-adsl-hostede websites, men i dobbeltmoralens hellige ånd vil vi da gerne kunne søge på sådan et arkiv om nogle år når det viser sig at blive brugbart. Det er jo klart at det ikke er noget værd fra dag1, men hvis man aldrig starter, så bliver der lissom heller ikke noget arkiv.

Og til alle dem som tror at de skal aflevere passwords til deres webmail: RTFM, eller nyheden som minimum.

BTW: denne arkivering af hjemmesider er jo bare en følge af det EU-direktiv som kræver al internettrafik gemt i 5 år.
Gravatar #56 - bnm
11. jul. 2005 01:04
Hvis det vitterligt kun er meningen de skal kunne rekvirere et password, i de tilfælde hvor det er noget alle kan få nemt (ie. ikke en lukket skare), så kan jeg godt nok ikke se hvorfor det ikke er meget nemmere for dem bare at lave en profil som resten af "offentligheden" selv gør, på et givent site og så crawle det site med denne.
Gravatar #57 - kasperd
11. jul. 2005 06:32
[url=#56]#56[/url] bnm
så kan jeg godt nok ikke se hvorfor det ikke er meget nemmere for dem bare at lave en profil som resten af "offentligheden" selv gør
Det er nok også et spørgsmål om betaling. Der er f.eks. netaviser, hvor man skal betale for adgang til artiklerne. Hvis jeg forstår kravene rigtigt, så skal sådan en avis give crawleren gratis adgang. Men det bliver naturligvis ikke sådan at offentligheden af den grund får gratis adgang til indholdet.
Gravatar #58 - hemsoe
11. jul. 2005 12:04
I forbindelse med at jeg har rodet med MnoGoSearch har jeg fundet frem til at JS-sider er ikke til at indeksere, så hvis man udskriver sin default side.. så burde der ikke være nogle problem.

Evt. kan siden lige testen gennem lynx.. den har jo ikke noget support for JS.. :-)

/hemsoe
Gravatar #59 - smurf
11. jul. 2005 13:24
#58

Kan vi ikke bare blive enige om, at der er masser af måder at omgå loven på, hvis man har lyst?

Det interessante er jo, om der er nogen argumenter for at omgå loven. Hvis man ikke ønsker, at materialet på ens hjemmeside skal være offentligt, så kan man jo sætte password på. Udlevering af brugernavne og passwords er jo primært en foranstaltning, som tillader, at det offentlige kan arkivere indholdet på betalingssites.

De arkiverede sider skal jo kun bruges i forskningsøjemed og bliver ikke offentliggjort.

Hvad er problemet?
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login