Lako i brzo  |  Početna

YouTube facebook

AVENIJA AMERIKA

Skladište od dva biliona reči

”Gugl” je stavio na raspolaganje svoju bazu podataka u kojoj je sadržaj 15 miliona knjiga – i alat da se ona pretražuje

Milan Mišić

Da li je sadržaj knjiga moguće proučavati, a da se one ne čitaju? Odgovor na ovo pitanje bio je donedavno podrazumevajući: ako se ne čitaju, knjige su predmeti koji nemaju smisla, sem možda, da kao ukras u nekoj kućnoj biblioteci ”impresioniraju prostotu”. Ali digitalno doba otvara nove mogućnosti, čiji su dometi postali očigledni tek ovih dana, kada je internet gorostas, korporacija ”Gugl”, bez velikih fanfara otvorila vrata svog digitalnog skladišta u kojem je smešteno dva biliona (dve hiljade milijardi) reči!

Reč je o prvoj praktičnoj eksploataciji koju donosi kontroverzni projekt skeniranja svega što je na planeti odštampano od Gutenbergovog otiska Biblije 1450. Kontroverznog zato što je pokrenuo mnoga pitanja – od autorskih prava, odnosno intelektualne svojine, pa do monopola na svetsku kulturu oličenu u pisanoj i odštampanoj reči.

Kontroverza nije uminula, sudski proces pokrenut od strane nekih autora i izdavača na kojem predstavnici ”Gugla” treba da budu optužena strana tek predstoji, ali je ova korporacije nedavno učinila dostupnim ono što je u ovom projektu dosada uradila. Sporna autorska prava nisu narušena, rešenje za to tek treba da se nađe, ali je na raspolaganje – praktično svima, od naučnika do osnovaca – stavljen jednostavan alat za statističko pretraživanje, analiziranje i naravno, proučavanje sadržaja dosad skeniranih knjiga. One dakle ne mogu da se analiziraju – ali po prvi put bez čitanja, glavnog razloga zbog koga su uopšte napisane.

Na neki način, reč je samo o pokazivanju onoga što se hoće i nagoveštaju zaista velikih mogućnosti koje biti na raspolaganju u sasvim dogledno vreme. I ogledne vežbe o tome kakvi sve pogledi na kulturu, na njen literalni aspekt, mogu da se otvore.

Prvi eksperimenti u tom pogledu su veoma zanimljivi: pokazalo se da nešto za šta bi trebale godine pručavanja čitanjem i listanjem, može da se dobije za nekoliko sekundi: u komplikovanijim slučajevima, za ukrštanje podataka, njihovo ”nivelisanje” i slično, ne više od nekoliko sati.

Na primer, pripremajući ovaj tekst, napravio sam eksperiment: poželeo sam da saznam od kad se i koliko učestano, reč ”Srbija” pominje u knjigama objavljenim na engleskom jeziku od 1800. do 2008. Rezultat sam dobio odmah. Šta se iz njega vidi, uverite se i sami. U knjigama se naša država pominje tek negde od 1840. Najviše je o nama pisano tokom Prvog svetskog rata i neposredno posle njega, u centru pažnje smo i negde pedesetih godina prošlog veka, i naravno, iz poznatih razloga, i u njegovoj traumatičnoj završnoj deceniji.

”Guglova” baza omougućava i više od pukog prebrojavanja jedne reči u knjigama. Drugi su, naprimer, uz pomoć alata koji je napravio ”Gugl” (a moguće je napraviti i sopstvene) proučavao koliko traje ”slava” poznatih, sa nalazom da pisane reference slavnih sredinom 20 veka iz knjiga iščezavaju dva puta brže nego što je to bio slučaj na početku 19. veka. Iz toga su izvukli ciničan zaključak: da će u budućnosti svako biti slavan, u oproseku ne više od sedam i po minuta.

Drugo istraživanje baze ”Gugla” pokazalo je da je važnim tehnološkim izumima bilo potrebno oko 66 godina da budu sasvim primenjeni na početku 18 veka, ali samo 27 između 1880 i 1920.

Zanimljivo saznanje je i da je leksikon engleskih reči i izraza u poslednjih 50 godina porastao čak za 70 odsto, na više od milion – i da postoji značajna ”leksička crna masa” - čak 500.000 tih reči se ne pominje u zvaničnim rečnicima.

Pored onih oduševljenih novim istraživačkim alatom, ima, naravno, i onih manje ili više skeptičnih. Oba tabora se pri tom slažu da se na ovaj novi način brzo i lako dolazi do informacija. Njihovo tumačenje i razumevanje su pak druga priča i posebna tema.

”Gugl” je dosad skenirao jedva 12 odsto os svih knjiga dosad objavljenih i ne odustaje od ideje da u digitalnoj formi koja može lako da se pretražuje jednog dana budu sve. Uvereni su i da se na ovaj način stvara nova naučna disciplina koju su nazvali ”kulturomija” (culturomics).

Naravno, niko ne očekuje da novi metod zameni sve stare, ali će im svakako biti važna dopuna.

Alat za pretraživanje nove ”Gugl” baze može se naći na http://ngrams.googlelabs.com/

Sajt
www.audioifotoarhiv.com
je nekomercijalan i spada
u domen nematerijalne
kulture.
Izdržava se od donacija.
Podržite ga.

Adresa urednika:
Dragoslav Simić
sicke41@gmail.com

Pošaljite svoje utiske o ovoj strani na adresu urednika sajta: Dragoslav Simić, sicke41@gmail.com. Vaše pismo može biti objavljeno.

« Nazad

Arhiv Simić © 2009. Sva prava zadržana