Algab kogu Eestit hõlmav veebilehtede arhiveerimine


Avaldaja:Madli Leikop26. Märts 2018

Rahvusraamatukogu alustab 26. märtsist enamikku Eesti veebilehti puudutavat arhiveerimist. Salvestamisele lähevad kõik avalikud leheküljed, mis on eestikeelsed või mille sisu Eestiga seotud. Veebilehti arhiveeritakse veebirobotiga.

Tänavu toimub suuremahuline Eesti veebi arhiveerimine juba kolmandat aastat. Igal aastal kogub Rahvusraamatukogu veebiroboti abil kokku Eesti sisuga veebilehed ja säilitab need veebiarhiivis. Arhiveeritakse ligi 80 000 saiti. 

Rahvusraamatukogu veebiarhiiv asub aadressil http://veebiarhiiv.digar.ee/. Praegu sellel saidil kogutud materjale näha ei saa, sest plaanis on kasutajaliidese uuendus. Avalikus internetis tohib veebiarhiiv näidata vaid riigi ja kohalike omavalitsuste saite. Firmade ja eraisikute saitide näitamiseks tuleb omanikult luba küsida. 

Kuidas veebiarhiveerimine käib?

Kõigepealt antakse veebirobotile nimega Heritrix ette veebilehtede nimekiri, mida robot peab arhiveerima. Seejärel liigub robot veebilehele ja laeb alla sisu koos lehe kuvamiseks vajalike elementidega. Nii on võimalik tagantjärele luua autentne veebilehe kujutis arhiivis, kus kasutaja saab liikuda samamoodi nagu tavalisel online-veebilehel. Sealjuures tuleb lisada, et robot laeb alla ainult selle osa veebilehest, mis on vabalt kättesaadav (s.t pole parooliga kaitstud). Serveripoolsetele failidele ta ligi ei pääse ning nende arhiveerimine pole ka Rahvusraamatukogu huvi. 

Probleemid on arhiveerimisroboti blokeerimine ja keerulised saidid

Rahvusraamatukogu veebiarhiveerijad puutuvad viimasel ajal järjest sagedamini kokku veebiroboti blokeerimisega. Sellest tulenevalt palub Rahvusraamatukogu veebiroboti tegevust mitte piirata (robotil on küljes kontaktandmed ning info, et tegutseb Rahvusraamatukogu heaks). Veebiarhiveerimise abil saavad tulevased põlvkonnad teie veebilehte näha ning seda võib käsitleda ka omalaadse varukoopiana veebilehest. 

Lisaks valmistavad arhiveerimisel probleeme skriptirikkad saidid, millest robot alati hästi aru ei saa. Sellised lehed vajavad tihti käsitsi kontrolli ja roboti ümberseadistamist.

Mujal maailmas arhiveeritakse samuti veebi

Veebiarhiveerimisega tegeleb suur osa maailma riike. Kõige tuntum veebiarhiiv on ilmselt Internet Archive, mis salvestab valikuliselt kogu maailma veebi ning kust võib leida ka Eesti saite. 

Allikas: Rahvusraamatukogu pressiteade. Foto: Piotor Wilk, Unsplash

Samal teemal:

 

 
 

 
 

Haridus- ja Noorteamet