Legacy:Robots.txt-artikeln/statistik

Version från den 4 september 2007 kl. 20.52 av imported>Staffan (Robots.txt/statistik flyttad till Robots.txt-artikeln/statistik)
Hoppa till navigering Hoppa till sök

Givet en fil, tmp/urls.txt, med rader på formen "www.akademiskahus.se":

Skapa underlag för robots.txt-statistik:

for i in `cat tmp/urls.txt` ; do curl -I http://$i/robots.txt; done > tmp/out.txt

Sammanställ statistiken:

cat tmp/out.txt |grep '^HTTP/1'|cut -c 10-12 | sort|uniq -c

   330 200
    14 301
    30 302
     1 400
     2 403
   608 404
     1 500

Hämta samtliga robots.txt-filer:

for i in `cat tmp/urls.txt` ; do curl -i -m 15 http://$i/robots.txt > tmp/$i.robots.txt ; done

Sortera ut faktiska förekomster (statuskod 200):

egrep -l '^HTTP/1\.. 200' *| xargs -I '{}' mv '{}' 200/