Petter Reinholdtsen

RSS-kilde for fritekstsøk i offentlige anbud hos Doffin
22nd November 2013

I fjor sommer lagde jeg en offentlig tilgjengelig SQL-database over offentlig anbud basert på skraping av HTML-data fra Doffin. Den har stått og gått siden da, og har nå ca. 28000 oppføringer. Jeg oppdaget da jeg tittet innom at noen oppføringer var ikke blitt med, antagelig på grunn av at de fikk tildelt sekvensnummer i Doffin en godt stund før de ble publisert, slik at min nettsideskraper som fortsatte skrapingen der den slapp sist ikke fikk dem med seg. Jeg har fikset litt slik at skraperen nå ser litt tilbake i tid for å se om den har gått glipp av noen oppføringer, og har skrapet på nytt fra midten av september 2013 og fremover. Det bør dermed bli en mer komplett database for kommende måneder. Hvis jeg får tid skal jeg forsøke å skrape "glemte" data fra før midten av september 2013, men tør ikke garantere at det blir prioritert med det første.

Men målet med denne bloggposten er å vise hvordan denne Doffin-databasen kan brukes og integreres med en RSS-leser, slik at en kan la datamaskinen holde et øye med Doffin-annonseringer etter nøkkelord. En kan lage sitt eget søk ved å besøke API-et hos Scraperwiki, velge format rss2 og så legge inn noe ala dette i "query in SQL":

select title, scrapedurl as link, abstract as description,
       publishdate as pubDate from 'swdata'
   where abstract like '%linux%' or title like '%linux%'
   order by seq desc limit 20

Dette vil søke opp alle anbud med ordet linux i oppsummering eller tittel. En kan lage mer avanserte søk hvis en ønsker det. URL-en som dukker opp nederst på siden kan en så gi til sin RSS-leser (jeg bruker akregator selv), og så automatisk få beskjed hvis det dukker opp anbud med det aktuelle nøkkelordet i teksten. Merk at kapasiteten og ytelsen hos Scraperwiki er begrenset, så ikke be RSS-leseren hente ned oftere enn en gang hver dag.

Du lurer kanskje på hva slags informasjon en kan få ut fra denne databasen. Her er to RSS-kilder, med søkeordet "linux", søkeordet "fri programvare" og søkeordet "odf". Det er bare å søke på det en er interessert i. Kopier gjerne datasettet og sett opp din egen tjeneste hvis du vil gjøre mer avanserte søk. SQLite-filen med Doffin-oppføringer kan lastes med fra Scraperwiki for de som vil grave dypere.

Tags: norsk, nuug, offentlig innsyn.

Created by Chronicle v4.6