Standardi i procesi digitalizacije - JSTOR primer
Jedan od najvećih elektronskih (not-for-profit) izdavača za potrebe akademskih krugova JSTOR, na svom veb sajtu objavio je standarde koji se primenjuju prilikom digitalizacije časopisa za potrebe veb arhiviranja. S obzirom da opšte prihvaćeni, globalni standardi ne postoje, a u našem slučaju ni nacionalni nisu do kraja definisani, interesantno je pogledati šta ovaj izdavač smatra standardima i uporediti sa sopstvenom praksom. Takođe je kratko i jasno opisan čitav proces digitalizovanja štampanog materijala.
* 600 dpi bitonalne (crno-bele) TIFF 6.0 slike za svaku stranicu.
* 300 dpi TIFF 6.0 slike u sivim tonovima ili koloru ako bitonalne slike ne odražavaju original na zadovoljavajući način.
* OCR dokumenti koji sadrže pun tekst skeniranih stranica i podatke koji omogućavaju isticanje odgovarajućih reči na slici (prema JSTOR, ovi OCR fajlovi su sa 99,5% tačnosti od 2008. godine, čak i u slučaju ne-latiničnog teksta).
* Veoma precizni opisni dokumenti sa metapodacima (prilagođena verzija potrebama), koji omogućavaju referentno linkovanje.
Proces digitalizacije koji sledi proističe iz prakse i potreba JSTOR-a, ali može poslužiti kao ideja vodilja za razvoj sopsvenog programa digitalizacije. Opisani proces odnosi se na digitalizaciju časopisa.
* Prikupljanje štampanih izdanja od izdavača i drugih nosioca vlasničkih prava.
* Stvaranje inventara prikupljanih brojeva i utvrđivanje da li je kolekcija kompletna. Bibliotekar stvara opšta uputstva za indeksiranje (kako izdvojiti meta-podatke).
* Štampana izdanja se potom šalju ugovornoj firmi na skeniranje i dodelu meta-podataka digitalnim dokumentima (zanimljivo da JSTOR ne radi taj tehnički deo posla).
* Stvaranje dokumenta koji sadrži meta-podatke za svako izdanje, sa podacima koji definišu priloge u časopisu (identifikator vrste priloga - članak, prikaz, studija...), bibliografske podatke, ključne reči, abstrakt i reference.
* Svaka skenirana stranica se obrađuje u OCR softveru za prepoznavanje teksta, na osnovu čega se generiše XML fajl za pretragu kolekcija u punom tekstu.
* Automatska i ljudska kontrola digitalizovanog materijala, gde se proverava ispravnost dokumenata, kvalitet skenova, tačnost metapodataka i OCR-a.
* Nakon završne kontrole kvaliteta, digitalizovani časopis se arhivira i postaje dostupan klijentima.
* Štampana izdanja se vraćaju u JSTOR, gde se pregledaju, ponovo koriče i pregledana vraćaju vlasnicima ili se odlažu u jedan od papirnih repozitorijuma u okviru JSTOR-a.
Opisani proces može da traje između 6 i 15 meseci, u zavisnosti od mnogobrojnih faktora. Kao jednu od najzahtevnijih faza ovog procesa u JSTOR opisuju kompletiranje celokupne serije časopisa, a ne tehničke aspekte posla, što ukazuje na važnost čuvanja i pravilnog arhiviranja štampanih izdanja za efikasno sprovođenje digitalizacije.
Možete ostaviti komentar (0) 02.09.2008. 14:34
Nakon perioda godišnjih odmora ponovo smo ušli u septembar, početak školske godine i vreme kada treba zasukati rukave i nastaviti nezavršene poslove, odnosno započeti nove projekte. Posle kraćeg perioda neaktivnosti, tokom kojeg sam imao zadovoljstvo da posetim jedan od najlepših gradova Evrope - Prag (kao i da se malo odmorim), najavljujem veoma aktivnu digitalnu godinu pred nama.
Prvo što sledi je vizuelni redizajn Digitalne biblioteke, kako bi D. b. bila lepša i lakša za korišćenje. Kao takvu ćemo je i predstaviti na Konferenciji o elektronskim bibliotekama u Beogradu krajem septembra meseca. Zatim nas čeka nastavak digitalizacije i intenzivan rad na novom projektu, Dečjoj digitalnoj biblioteci (nažalost, ne mogu trenutno dati više detalja o tom projektu).
Dobra vest, koje se samo smenjuju kada je u pitanju sektor za digitalizovanje Gradske biblioteke u Čačku, predstavlja novo pojačanje našeg malog tima. Vratio nam se informatičar Aleksandar, koji će biti važna karika na poslovima izrade baze za vođenje arhive podataka o digitalizovanim dokumentima, kao i na ostalim projektima koji su u toku. Naravno, ne zaboravimo i vredne vojnike Dušana i Marka, koji su trenutno na malom odmoru.
Sve u svemu, lepo i inspirativno radno okruženje, koje obećava i mnoštvo novih rezultata iz oblasti digitalizacije.
Možete ostaviti komentar (0) 02.09.2008. 12:37
Centar za digitalizaciju (još uvek nije zvanično oformljen, ali biće!) Gradske biblioteke u Čačku u toku letnjih dana dobio je još jednu prinovu. Iako leto u Srbiji važi za period godine kada se manje radi (samo mi znamo zašto je tako), ne samo da je Centar osnažen sa dva vojnika na civilnom služenju vojnog roka, već je ovih dana stigao i novi skener za unapređenje i ubrzanje digitalizacije. Naše novo čedo, kako mu tepamo, zove se Epson 15000GT! U pitanju je A3 skener visokih performansi i velike brzine rada, koji sam košta više nego svih ostalih osam skenera (šest A4 i dva A3) u Gradskoj biblioteci. Ali da ne sitničarimo oko novca. Tačnije, problem nije u našoj rasipnosti, već u slaboj ponudi A3 i većih skenera na našem tržištu, što uslovljava i nemogućnost izbora i plaćanje visokih cena.
Ovaj skener ima mogućnost skeniranja formata 297x432 mm (pun A3) u izlaznim rezolucijama do 4.800 dpi, mada sumnjam da će nekom trebati preko 1.200 dpi, osim u nekim ekstremnim slučajevima za štamparsku industriju. Opseg boja ide sve do 48-bitne palete, sa mogućnostima skeniranja u sivim nijansama i za crno-beli prikaz. Ovo su manje-više standardne vrednosti za skenere, pa po tome se ovaj skener ne ističe. Ono što oduševljava je brzina rada i kvalitet digitalnog dokumenta koji se dobija. Praktično za nekoliko sekundi se uradi skeniranje A4 dokumenta i u pratećem softveru se može manipulisati sa izlaznim dokumentom na sve moguće načine, uraditi i optičko prepoznavanje karaktera (OCR), ali za to je bolje koristiti specijalizovane alate. Boje su jasne i verno prikazane, što je dodatni plus. Ono što svakome upada u oči su impozantne dimenzije ovog skenera i čitavih 13 kilograma mase. O detaljima skenera možete naći više na zvaničnoj stranici, a mi kao ilustraciju dodajemo fotografiju uporednog prikaza novog skenera (koji je na fotografiji dole) i dosadašnje "perjanice", Mustek ScanExpress A3 skenera (detaljnije o njemu ovde).
Iako ne liči, ova dva skenera rade sa dokumentima istih dimenzija (sa blagom prednošću na strani Epsona), što upućuje na zaključak da je prava razlika među njima "ispod haube", tj. u hardverskim komponentama. Razlika je još upadljivija kada se oba puste u rad, gde brzina skeniranja kod Epsonovog modela fascinira sve, koji su do sada koristili samo Mustekov skener. Valjda to donekle i opravdava skoro 10 puta veću cenu, ali prava vrednost pokazaće se tokom dugogodišnje eksploatacije (nadamo se!).
Možete ostaviti komentar (0) 13.08.2008. 12:31
Redizajnirani sajt Ministarstva kulture Republike Srbije (prema ličnom mišljenju sajt je komplikovan za navigaciju i pronalaženje informacija) osvežen je novim sadržajem što se tiče digitalizacije. Naime, na stranici Digitalizacija kulturne baštine kaže se da je "Ministarstvo kulture prepoznalo neophodnost sistemskog i dobro koordinisanog pristupa procesu digitalizacije kulturnog nasleđa, kao bitnom činiocu kulturnog razvitka zemlje. […] Prateći proces digitalizacije kulturne baštine, pre svega u Evropi, a potom i u svetu, a u skladu s inicijativama zemalja EU, Ministarstvo kulture Republike Srbije je prepoznalo digitalizaciju kulturnog nasleđa kao značajan element izgradnje i razvoja informacionog društva i društva znanja, koji je, kao takav, bitan činilac kulturnog razvitka zemlje i, u skladu sa tim, odredilo digitalizaciju kulturne baštine kao strateški prioritet svog delovanja."
Pozitivno je to što je digitalizacija na ovaj način praktično institucionalizovana kao deo strategije rada Ministarstva kulture. Prateći ranije razvoj sajta Ministarstva odmah sam uočio link ka stranici "Digitalizacija", koji je dugo vremena pokazivao stranicu bez sadržaja. Do promena je došlo novom percepcijom prioriteta iz oblasti kulturnog delovanja, upoznavanjem sa delovanjem institucija u Evropskoj uniji, kao i shvatanjem da zaštita i promovisanje nacionalne kulturne baštine ne sme biti prepušteno pojedinačnim projektima. Odličan tekst na sličnu temu nalazi se na stranicama "Politike", iz pera Sretena Ugričića, upravnika Narodne biblioteke Srbije. Pod naslovom "Virtuelno je stvarnije" Ugričić ukazuje na ideju "kulturne baštine kao savremene kulturne produkcije", što je poziv da se kulturna baština prestane posmatrati kao Bogom dana vrednost jedne kulture i društvene zajednice, već da se na njoj aktivno radi, da se izvuče iz "naslaga prošlosti" i prikaže ostatku sveta. Digitalizacija ovde dolazi do izražaja, kroz globalnu prisutnost i značaj interneta i informacionih tehnologija, pa "funkcionalna primena" informaciono-komunikacionih tehnologija obezbeđuje i kreativan proces i distribuciju kulturnog nasleđa na način koji odgovara proklamovanoj strategiji Ministarstva kulture.
Negativno je to što u Radnoj grupi za digitalizaciju kulturnog nasleđa, koja treba da sastavi tekst Nacrta Nacionalne strategije za digitalizaciju kulturnog nasleđa i pratećeg Akcionog plana, nema predstavnika Narodne biblioteke Srbije (pored toga što čitavu Srbiju izvan Beograda i Vojvodine predstavlja Republički zavod za zaštitu spomenika kulture i još jedan kolega iz Niša). Upućeni dobro znaju koja je javna ustanova u Srbiji otišla najdalje što se tiče digitalizacije i NBS u tome nema premca. S obzirom da su u navedenoj Radnoj grupi zastupljeni predstavnici svih ustanova kulture od nacionalnog značaja (verujem na nivou direktora), osim NBS i Narodnog pozorišta (čak je i Beogradska filharmonija na spisku!), a to telo treba da izradi jedan od ključnih dokumenata za definisanje smernica i prioriteta digitalizacije u Srbiji, postavlja se pitanje kriterijuma za izbor članova Radne grupe. Uzimajući u obzir da sastav Radne grupe čine i predstavnici dve biblioteke (Biblioteke Matice srpske i Biblioteke "Milutin Bojić" iz Beograda), biblioteke su naizgled dobro zastupljene. Međutim, ne možemo biti zadovoljni činjenicom da interese biblioteka treba da zastupaju dve ustanove bez vidljivih rezultata iz oblasti digitalizacije.
S obzirom da je ovogodišnja IV SEEDI konferencija dobila svoje mesto i na sajtu Ministarstva kulture, doduše u delu o Vestima iz Ministarstva (?), verujemo da će se ubuduće i najavljivati slični događaji, što je pravi smisao medijske podrške koju Ministarstvo treba da pruži programima i projektima iza kojih načelno stoji (u organizacionom, finansijskom ili bilo kom drugom smislu). Osim ako "Najave događaja" nisu predviđene samo za informacije o tome kome ministar dolazi u posetu.
Možete ostaviti komentar (0) 08.08.2008. 10:17
Iako u prethodnom postu nekom možda izgleda da je okončanjem projekta (javnog rada) angažovanja lica sa evidencije Nacionalne službe za zapošljavanjem završen i rad na digitalizaciji, to naravno nije tačno. Veoma smo se uspešno prilagodili novostvorenim okolnostima, angažovanjem vojnika na civilnom odsluženju vojnog roka u Biblioteci na poslovima digitalizacije. Na taj način se nastavlja program digitalizovanja građe u našoj ustanovi i dodavanje kolekcija u Digitalnu biblioteku.
U vode digitalizacije hrabro je već uplovio Dušan Baralić, koji se uhvatio u koštac sa stvarima kao što su pdf, ocr, jpg, tiff, eps, mysql, skeniranje, obrada slika, rezolucija, pikseli, meta-informacije, itd. Čestitamo mu na tome, a ujedno je prihvatio priliku da "vojni rok" iskoristi za veoma korisno usavršavanje i izučavanje novih tehnologija i znanja, što mu može koristiti sutra u životu. Nadamo se da će od avgusta meseca dobiti i saborca u liku Marka Ristovića, koji nam je za sada izmakao, ali ne sumnjamo da će se i on rado prepustiti čarima digitalizacije.
Angažovanje vojnika na civilnom služenju vojnog roka omogućiće nastavak veoma uspešnog trenda formiranja Digitalne biblioteke, koji se konstantno održava na visokom nivou od 2006. godine, čime izbegavamo opasnost prerastanja u projekat jednokratne upotrebe, već uspešno plovimo ka formiranju Centra za digitalizaciju u Gradskoj biblioteci Čačak i postavljanja digitalizacije u istu ravan sa ostalim delatnostima savremene javne biblioteke.
Možete ostaviti komentar (2) 29.07.2008. 10:43