Legacy:Robots.txt-artikeln

Hoppa till navigering Hoppa till sök

ev kort inledning

Något om frågan och varför den är intressant

Teknisk bakgrund

En sökrobot <ref>Svensk term för det engelska uttrycket web crawler, indexing robot eller spider, rekommenderad av svenska datatermgruppen, http://www.nada.kth.se/dataterm/fos-lista.html#f99</ref> är ett program som automatiskt hämtar information från en webbplats. En typisk sökrobot börjar med att hämta hem webbplatsens förstasida för att sedan analysera dess HTML-kod för att hitta ytterligare länkar till andra sidor på webbplatsen. Med adressen till dessa sidor återupprepas sedan processen tills inga fler sidor hittas på webbplatsen. Informationen som en sökrobot hämtas in används ofta som bas för en sökmotor.

Av detta följer att en generell sökrobot bara kan hitta sådan information som går att hitta via länkar. Information som endast går att komma åt via sökformulär, inloggningsformulär eller som inte är länkad överhuvudtaget är oåtkomlig för en vanlig sökrobot. <ref>Den delen av webben som på detta sätt är oåtkomlig för generell indexering kallas ibland för Deep Web (Michael Bergman, "The Deep Web: Surfacing Hidden Value", http://www.press.umich.edu/jep/07-01/bergman.html)</ref>

Eftersom webbplatser uppdateras behöver en sökrobot ofta göra om den här processen. Och det finns många sökrobotar. Sammantaget kan den trafik som sökrobotar genererar kräva mycket resurser från en webbplats. Genom åren har det utvecklats ett antal de facto-standarder för hur webbplatser kan indikera för en sökrobot hur den här processen ska gå till och begränsas.

robots.txt

Den äldsta och viktigaste standarden kallas för Robot Exclusion Standard (RES), eller informellt "robots.txt" - den anger att en sökrobot, innan den påbörjar någon annan sidhämtning, först ska försöka hämta filen "robots.txt" från webbplatsen. En sådan fil ska innehålla instruktioner om vilka delar av webbplatsen som inte får hämtas av robotar. Olika instruktioner kan ges till olika robotar. Det hör till god sökrobotsed att ge sin robot ett unikt namn. Ett exempel på en enkel restriktiv robots.txt är följande:

   User-agent: *
   Disallow: /

Denna talar om att ingen robot ("User-agent") överhuvudtaget ("*") får besöka någon del av webplatsen ("Disallow: /"). Termen ”User-agent” används på samma sätt som i HTTP-protokollet, dvs en textsträng som identifierar programvaran som används för att hämta sidor.

sitemap.xml

Sitemap.xml är en nyare standard som kan sägas vara inversen av robots.txt - där den förra talar om hur en robot inte ska bete sig, innehåller sitemap.xml instruktioner för att hjälpa en sökrobot indexera webbplatsen så effektivt som möjligt.

På samma sätt som med robot.txt inleds processen med att sökroboten begär filen sitemap.xml om denna finns, för att där hitta instruktioner om vilka sidor på webbplatsen som ska indexeras, och hur ofta sökroboten ska fråga efter nya versioner.

På detta sätt kan en sökrobots effektivitet, räknad som antal totala förfrågningar / antalet nödvändiga förfrågningar<ref>där en nödvändig förfrågning defineras som en förfrågning som görs för att hämta en ny version av en given sida</ref>

andra mekanismer för accesskontroll till webbplatser

Det är långt ifrån alla sökrobotar som följer ovanstående instruktioner. För att hantera mer illasinnade robotar (där den vanligaste kategorin kanske är email harvesters, sökrobotar som letar efter epostadresser i avsikt att skapa utskickslistor för spam) har webbplatsägare tagit till ett antal andra mekanismer. Exempel på sådana är kontroll av User-agent-strängen som en webbläsare eller sökrobot presenterar sig med, anti-flooding-mekanismer som stryper eller stänger av nätverksöverföringen vid onormalt snabba återkommande förfrågningar, eller spam traps, serier av gömda länkar som endast sökrobotar upptäcker och efterfrågar.

olika nivåer av de facto-standarder

Det finns flera olika sätt att ta fram internetstandarder, vilket har betydelse för deras relativa tyngd.<ref>Bowrey, Kate: Law and Internet Cultures, Cambridge University Press, 2005</ref>. Robots.txt-standarden togs fram genom informella diskussioner på en mailinglista för sökrobotutvecklare cirka 1994. I stort sett är standarden oförändrad från den tiden, med den enda signifikanta utökningen att det nu även är möjligt att ange robots.txt-liknande direktiv på sidnivå genom s.k. metataggar i HTML-dokumentet, för att ange för en sökmotor att innehållet på sidan inte ska indexeras, och/eller att länkar på sidan inte ska följas, av sökrobotar.

Användning på myndigheters webbplatser

Genomgång av centrala myndigheters använding. Kanske lite statistik?

Vid ett test av de 986 myndighetswebbplatser som Verva idag kontrollerar vid sin kvartalsmätning av kodkvaliten på offentliga webbplatser<ref>http://www.verva.se/web/t/Page____2135.aspx</ref> hade 330 (33,5 %) av webbplatserna en robots.txt-fil.

Juridiska aspekter

En första genomgång av områden. Finns det fler aspekter inom EG-rätten?

Avtalsrättsliga aspekter

I vilken mån kan en myndighet eller en aktör hänvisa till avtalsbindning eller liknande för att försvara sin användning av robots.txt. Kan ett universitet som bedriver uppdragsforskning hävda att man som ett del av avtalet sagt att man skall undvika att indexera och "sprida" informationen mer än nödvändigt?

Offentlighetsprincipen

Det kan konstateras att det av offentlighetsprincipen knappast följer en skydlighet för en myndighet att göra det material som man tillhandahåller på sin webbplats sökbart. Precis som det inte finns en skyldighet att lämna ut material i ett visst givet format finns det inte heller en skyldighet att strukturera de handlingar som bedöms offentliga på ett sådant sätt att de är särskilt användbara eller tillgängliga. Men betyder det att offentlighetsprincipen inte har någonsomhelst betydelse för hur en myndighet använder standarder för inklusion och exklusion från sökmotorer?

Persondataregleringen

Under vilka förutsättningar börjar en webbspindeloperatör behandla personuppgifter? Särskilt med tanke på den nya missbruksregleringen i PUL.

Och kan man försvara användningen av robots.txt med argumentet att det minskar intrånget i den personliga integriteten, även om det material som bedöms kunna utgöra en kränkning finns öppet tillgängligt via en annan URL? Här krävs nog litet eftertanke och en närmare analys av integritetskränkningens anatomi. Det hela går att tänka sig i steg:

1) Materialet tillgängliggörs på en webbsajt och är tillgängligt via en URL. 2) Materialet länkas av en annan sajt som ökar graden av tillgängliggörande. 3) Länken följs av en sökmotor som indexerar materialet och ytterligare ökar tillgängligheten.

Ökar integritetskränkningen successivt från steg 1 till 3?

Upphovsrätt (och databasskyddet)

Handlingar från myndigheters webbplatser faller i allmänhet under URL 26 a §. Men sammanställningarna i sig kanske faller under databasskyddet (HS nämnde på LISA-mötet om PSI-direktivet att flera myndigheter ansåg sig kunna utöva ensamrätt över sin data på det viset)

Datorintrång

Är det olovligt i BrB 4:9 c:s mening att låta en webbspindel hämta data från annans webbplats utan att respektera robots.txt?

Myndighetsutövning

Är det myndighetsutövande att införa en robots.txt-policy? Kan man anföra förvaltningsbesvär?

Återutnyttjande av information från den offentliga sektorn

Dvs PSI-direktivet

Förvaltningsrättsliga aspekter i övrigt

Här en bisarr fråga: antag att en myndighet faktiskt ansvarar för att sätta upp en egen söktjänst och då använder en viss teknik men att denna blockeras av en annan myndighet som valt att blockera alla bottar. Hur skulle då detta kunna försvaras inom förvaltningen?

Rekommendationer

Den roliga biten! Vilka krav kan man ställa på myndigheters webbplatser, och organisationen bakom. Behövs det en ny yrke parallellt med webmaster och infomaster, typ terms-and-licensing-master?

Länkar

e-Exclusion and Bot Rights

Juridiska aspekter på robots.txt

The legality of screenscraping - antik bloggpost kring upphovsrätt, datorintrång och cybercrimekonventionen

Anteckningar från LISA-möte - om Vervas syn på PSI-direktivet

Om URL-problematik

PM Om indirekta gränssnitt till myndigheters webbtjänster - skrivet för stiftelsen för rättsinformation

Svart bälte i mod_rewrite - mest teknik


<references/>