I fjor sommer lagde jeg en offentlig tilgjengelig SQL-database over offentlig anbud basert på skraping av HTML-data fra Doffin. Den har stått og gått siden da, og har nå ca. 28000 oppføringer. Jeg oppdaget da jeg tittet innom at noen oppføringer var ikke blitt med, antagelig på grunn av at de fikk tildelt sekvensnummer i Doffin en godt stund før de ble publisert, slik at min nettsideskraper som fortsatte skrapingen der den slapp sist ikke fikk dem med seg. Jeg har fikset litt slik at skraperen nå ser litt tilbake i tid for å se om den har gått glipp av noen oppføringer, og har skrapet på nytt fra midten av september 2013 og fremover. Det bør dermed bli en mer komplett database for kommende måneder. Hvis jeg får tid skal jeg forsøke å skrape "glemte" data fra før midten av september 2013, men tør ikke garantere at det blir prioritert med det første.
Men målet med denne bloggposten er å vise hvordan denne
Doffin-databasen kan brukes og integreres med en RSS-leser, slik at en
kan la datamaskinen holde et øye med Doffin-annonseringer etter
nøkkelord. En kan lage sitt eget søk ved å besøke
select title, scrapedurl as link, abstract as description, publishdate as pubDate from 'swdata' where abstract like '%linux%' or title like '%linux%' order by seq desc limit 20
Dette vil søke opp alle anbud med ordet linux i oppsummering eller tittel. En kan lage mer avanserte søk hvis en ønsker det. URL-en som dukker opp nederst på siden kan en så gi til sin RSS-leser (jeg bruker akregator selv), og så automatisk få beskjed hvis det dukker opp anbud med det aktuelle nøkkelordet i teksten. Merk at kapasiteten og ytelsen hos Scraperwiki er begrenset, så ikke be RSS-leseren hente ned oftere enn en gang hver dag.
Du lurer kanskje på hva slags informasjon en kan få ut fra denne databasen. Her er to RSS-kilder, med søkeordet "linux", søkeordet "fri programvare" og søkeordet "odf". Det er bare å søke på det en er interessert i. Kopier gjerne datasettet og sett opp din egen tjeneste hvis du vil gjøre mer avanserte søk. SQLite-filen med Doffin-oppføringer kan lastes med fra Scraperwiki for de som vil grave dypere.