Standardi i procesi digitalizacije - JSTOR primer
Jedan od najvećih elektronskih (not-for-profit) izdavača za potrebe akademskih krugova JSTOR, na svom veb sajtu objavio je standarde koji se primenjuju prilikom digitalizacije časopisa za potrebe veb arhiviranja. S obzirom da opšte prihvaćeni, globalni standardi ne postoje, a u našem slučaju ni nacionalni nisu do kraja definisani, interesantno je pogledati šta ovaj izdavač smatra standardima i uporediti sa sopstvenom praksom. Takođe je kratko i jasno opisan čitav proces digitalizovanja štampanog materijala.
* 600 dpi bitonalne (crno-bele) TIFF 6.0 slike za svaku stranicu.
* 300 dpi TIFF 6.0 slike u sivim tonovima ili koloru ako bitonalne slike ne odražavaju original na zadovoljavajući način.
* OCR dokumenti koji sadrže pun tekst skeniranih stranica i podatke koji omogućavaju isticanje odgovarajućih reči na slici (prema JSTOR, ovi OCR fajlovi su sa 99,5% tačnosti od 2008. godine, čak i u slučaju ne-latiničnog teksta).
* Veoma precizni opisni dokumenti sa metapodacima (prilagođena verzija potrebama), koji omogućavaju referentno linkovanje.
Proces digitalizacije koji sledi proističe iz prakse i potreba JSTOR-a, ali može poslužiti kao ideja vodilja za razvoj sopsvenog programa digitalizacije. Opisani proces odnosi se na digitalizaciju časopisa.
* Prikupljanje štampanih izdanja od izdavača i drugih nosioca vlasničkih prava.
* Stvaranje inventara prikupljanih brojeva i utvrđivanje da li je kolekcija kompletna. Bibliotekar stvara opšta uputstva za indeksiranje (kako izdvojiti meta-podatke).
* Štampana izdanja se potom šalju ugovornoj firmi na skeniranje i dodelu meta-podataka digitalnim dokumentima (zanimljivo da JSTOR ne radi taj tehnički deo posla).
* Stvaranje dokumenta koji sadrži meta-podatke za svako izdanje, sa podacima koji definišu priloge u časopisu (identifikator vrste priloga - članak, prikaz, studija...), bibliografske podatke, ključne reči, abstrakt i reference.
* Svaka skenirana stranica se obrađuje u OCR softveru za prepoznavanje teksta, na osnovu čega se generiše XML fajl za pretragu kolekcija u punom tekstu.
* Automatska i ljudska kontrola digitalizovanog materijala, gde se proverava ispravnost dokumenata, kvalitet skenova, tačnost metapodataka i OCR-a.
* Nakon završne kontrole kvaliteta, digitalizovani časopis se arhivira i postaje dostupan klijentima.
* Štampana izdanja se vraćaju u JSTOR, gde se pregledaju, ponovo koriče i pregledana vraćaju vlasnicima ili se odlažu u jedan od papirnih repozitorijuma u okviru JSTOR-a.
Opisani proces može da traje između 6 i 15 meseci, u zavisnosti od mnogobrojnih faktora. Kao jednu od najzahtevnijih faza ovog procesa u JSTOR opisuju kompletiranje celokupne serije časopisa, a ne tehničke aspekte posla, što ukazuje na važnost čuvanja i pravilnog arhiviranja štampanih izdanja za efikasno sprovođenje digitalizacije.
02.09.2008. 14:34
Ne možete poslati komentar na ovaj članak!
Napišite komentar