Potraga za Mladićem – na Webu
Potraga za Mladićem – na Webu
Tražite stariju informaciju koja vam je neophodna za tekst, a nemate pristup (digitalnim) arhivama? Savladajte napredne metode pretraživanja Weba kako biste što pre našli iglu u plastu sena.
„Imam problem. Moram da nađem na netu izjave srpskih političara o Mladiću, SVE koje mogu. Ali da su iz perioda 2000 – 2003. I moram da ih imam danas. Već dva dana se mučim i ne ide“, rekla mi je telefonom novinarka pre nekih godinu i po dana u nadi da ću ja imati neku ideju.
Ovakav problem neće biti tako kritičan za nekog novinara u razvijenijoj redakciji na zapadu. Imaće baze podataka čije arhive novinskih napisa i sličnog materijala sežu godinama i desetlećima unazad, a plaća ih redakcija kao neophodan alat za rad.
Takvih digitalnih arhiva na webu ima i kod nas (npr. www.arhiv.co.yu – srpska štampa, www.infobiro.ba – štampa u BiH), ali veliki broj redakcija još uvek nije pretplaćen na ove alate, neohodne za svako ozbiljno novinarstvo.
Novinarka s druge strane telefonske žice nije imala sreće s pristupom digitalnoj arhivi koji je imala jer ona nije dosezala unazad do 2000. godine, već su članci bili nešto noviji. Tekstovi iz perioda 2000 – 2003. stalno su joj izmicali.
Ok, mislila sam, ništa od plaćenih digitalnih arhiva. Pregledale smo arhive svetskih pretraživača specijalizovanih za vesti kao što su news.google.com i news.yahoo.com - sezale su po pravilu samo mesec dana unazad, što je uglavnom i dalje slučaj.
U međuvremenu je, međutim, npr. Google News napravio arhivu koja ide do ranih '90-ih, ali i dalje pri pretrazi ne uzima u obzir izdanja sa područja bivše Jugoslavie, a uglavnom daje napise iz britanskih i američkih medija, pri čemu deo zahteva pretplatu za pristup. Taj alat bi nam donekle pomogao da smo ga imali – dobile bismo nešto izjava koje je prenela strana štampa, ali na engleskom, i mnogo manje nego što ih ima u moru napisa u domaćoj štampi.
Sajtovi na našem jeziku pravljeni po sličnom principu, dakle agregatori vesti, imali su istu falinku – arhiva ide samo mesec dana unazad.
Ostalo je da 'kopamo' po netu.
Vizualizirajte rezultat pretrage
One kasnije izjave, objavljene u poslednjih nekoliko godina (otprilike 2007 – 2005.), i nije bilo teško naći. Iz mora članaka o Mladiću u Googlu i drugim pretraživačima isplivavale su, na njegovo ime i prezime kao upit, i vesti koje su sadržavale izjave političara u Srbiji o njemu. Problem je bio naći starije vesti.
„Pogodak“, pretraživač specijalizovan za naše područje, koji ima verzije za pojedinačne zemlje bivše Jugoslavije (www.pogodak.com), relativno je nov i uglavnom je indeksirao novije stranice, a one iz perioda 2000 – 2003. bilo je gotovo nemoguće iskopati prostom pretragom, a ponajmanje skupiti ih nekako na 'gomilu' u moru rezultata.
Pregledala sam knjige o pretraživanju, pokušavala da se setim nekog alata na webu koji sam smetnula s uma...ništa. Google-ova opcija pretrage po datumu u naprednoj pretrazi, pomenimo i to, nije pomagala u ovom slučaju jer se radi o datumu kada je Google tu stranicu 'uzeo u obzir' tj. uključio u svoju bazu stranica koje pretražuje, a ne datum kada je prvi put objavljena na webu.
Onda mi je sinulo. Kako bi mogao izgledati URL stranice koja nam treba (dakle cela njena jedinstvena web adresa)? U biti, tražimo sajtove medija sa vestima, jer uglavnom su vesti te gde će se naći izjave političara. Verovatno je da je web master organizovao takav sajt kao arhivu, i logike i preglednosti radi, u adrese stranica unosio godinu i datum. Na primer: http://www.sajtmedija.com/arhiva/2002/12/06 . Kako da među rezultatima 'izolujem' baš ovakve stranice?
Napredna opcija pretrage po URL-u u Google-u, koju sam inače retko koristila, pokazala je zašto je uvek neprocenjivo važno dobro baratati sličnim opcijama naprednog pretraživanja koje nudi Google, ali i drugi pretraživači – kockice će se složiti u jednom trenutku i primenićete ih na naizgled nerešiv problem.
Ključni deo upita za pretragu koji mi je trebao bio je operator koji glasi inurl: . Iza dve tačke ide reč koju tražite – ne u tekstu web stranice, već u njenoj adresi. U ovom slučaju, to je bila brojka, godina, pa sam dakle ključne pojmove imala tražiti u kombinaciji s ovim operatorom i naizmenično godinama 2000, 2001, 2002, 2003. Dakle, inurl:2000 u jednoj pretrazi, zatim inurl:2001 u drugoj i tako dalje.
A ostatak upita? Jedno od važnih pravila za brzu i efikasnu pretragu weba je: vizualiziraj rezultat. Kako izgleda to što tražim? Da li je to, na primer, podatak u tabeli ili vest, novinarska priča, ili izveštaj neke organizacije? Od toga zavisi kako ću formulisati upit. Kakav se jezik koristi – novinarski, administrativni, ili konverzacijski stil, možda sleng? Po tome ću i birati termine za pretragu.
Šta dakle jedna vest svakako sadrži ako je u njoj izjava nekog političara? Pa, frazu „izjavio je“ ili „rekao je“ (ili „izjavila je“, „rekla je“ za političarke).
Tražiti samo Mladića, bez imena, značilo bi i da dobijem vesti na sasvim druge teme, čiji je protagonist nekakav mladi čovek – mladić (usput, pretraživačima je svejedno da li ste upisali malo ili veliko slovo, tražiće sva). Dakle, idemo s imenom i prezimenom.
Da li se ime Ratko Mladić pojavljuje uvek u nominativu ili možda ima tekstova u kojima se uopšte ne pojavljuje u nominativu već ga treba tražiti u drugim padežima? Ako bismo ga tražili samo u nominativu, ne bismo dobili sve one stranice na kojima se nominativ ne pojavljuje (na primer: „XY je izjavio tom prilikom da je hapšenje Ratka Mladića tema o kojoj...“). Hapšenje, hapšenja, uhapšen... sve su to varijante reči koje treba uzeti u obzir u pretrazi.
Konačno, upit postavljen Googlu izgledao je otprilike ovako:
„ratko mladić“ OR „ratka mladića“ „izjavio je“ OR „rekao je“ hapšenje OR hapšenja OR uhapšen inurl:2001
Sve ovo ukucano u okvir za pretragu na polaznoj strani Google-a, upravo ovako kako je napisano, dalo je rezultate čije su adrese uglavnom bile kakve sam i očekivala (npr. www.mediaclub.cg.yu/dnevnevijesti/arhiva/2001/januar/22srb1.htm), a u tekstovima su bile baš izjave političara.
Moguće je bilo na sve ovo dodati i operator site: kojim bismo pretragu ograničili samo na sajtove koji imaju istu ekstenziju (npr. .com, .org...) , u ovom slučaju .yu (da bismo 'izolovali' samo sajtove medija u Srbiji). Upisali bismo dakle još i site:yu na kraj pomenutog upita, ali je to znatno suzilo izbor rezultata, pri čemu se izjave političara iz Srbije nisu pojavljivale samo u srpskim medijima, pa nije bilo razloga da ovaj operator zadržimo u upitu. Takođe, samo neki sajtovi medija u Srbiji imaju .yu u adresi, dok su ostali .com ili .net itd.
Vratimo se na upit – za slučaj da niste upoznati sa osnovnim operatorima za pretragu u Googlu:
• Znacima navoda okružuju se dva ili više termina koje tražimo kao frazu, dakle reči upravo tim redom („marko marković“ neće dati rezultate koji Marka pominju kao „marković marko“).
• operator OR u Googlu se koristi upravo ovako, napisan velikim slovima i na engleskom (naše ILI vam neće biti od koristi). Njime Googlu kažemo da nam da bilo one stranice koje sadrže jednu, bilo drugu reč koje OR povezuje, bilo one koje sadrže obe.
Uobičajeno se koristi kada vam trebaju sinonimi, a niste sigurni koji je tačno upotrebljen, npr. novinar OR reporter OR izveštač – bilo koji od ovih termina mogao je biti upotrebljen, a ne želite da odbacite mnoštvo stranica na kojima se nalaze potencijalno korisne informacije.
Dakle – u ovom primeru – rekli smo zapravo: daj mi ili stranice sa frazom „ratko mladić“ ili sa frazom „ratka mladića“, koristi mi i jedno i drugo, daj mi dakle bilo šta od toga, tojest i jedno i drugo – na šta god da naiđeš. (personfikacija Google-a nije nužno znak slabljenja mentalnih sposobnosti; uobičajeno se javlja u žaru borbe, prim. aut.).
Ostalo je da se ista pretraga ponovi nekoliko puta uz izmenu godine uz operator inurl: kako bismo dobili napise iz svake tražene godine (inurl:2002, pa inurl:2003). Naime, nije moguće istovremeno Googlu zadati da u URL-ovima traži više termina – u ovom slučaju godina.
Napredni operatori za što bezbolniju pretragu
Sličnu pretragu, ovako preciznu, ne bismo mogli da izvedemo u formularu za naprednu pretragu u Googlu. Mogli bismo da zadamo samo jedan izbor sa OR (npr. samo varijante imena povezane sa OR), ali ne i tri istovremeno, što smo uradili tražeći varijante imena, varijante reči hapšenje/uhapšen, i varijante fraze „izjavio je“/“rekao je“. Na stranici za naprednu pretragu opcija inurl: krije se pod stavkom Pojavljivanja ili Where your keywords show up u drop-down meniju kao “in the URL of the page” ili “u URL-u stranice”.
Nakon što sam ovaj primer pretrage predočila novinarima na par prezentacija i seminara koje sam držala po regionu, javilo mi se nekoliko ljudi koji su 'fazon' uspešno upotrebili za rad na pričama.
Po sličnom principu koji smo objasnili u tekstu, novinari jednog beogradskog lista su tako prikupili materijal za tekst o predizbornim obećanjima iz 2003. da bi naknadno istražili koja su ispunjena a koja nisu. Kako su mi rekli, operator inurl: im je bio od pomoći jer su shvatili da veliki broj medija u Srbiji vodi arhive na sajtovima po godinama.
Jedna od varijatni njihovog upita je išla ovako:
"Tadić je obećao" OR "Koštunica je obećao" OR "Nikolić je obećao" inurl:2003
Koristili su sve varijante kojih su mogli da se sete: npr. "DSS obećava" OR "iz DSS obećavaju"
Zatim su pretraživali pojedinačne sajtove tako što su upitu dodali operator site: , dakle tražene fraze ili reči a posle njih site:adresamedija.co.yu inurl:2003
Operator site: koristan je i za ograničavanje pretrage samo na jednu ekstenziju domena, npr. .yu ili .com…, ili za pretragu samo jednog sajta, pri čemu se upiše adresa tog sajta u obliku site:adresa.com . Naime, kod nas i dalje veliki broj sajtova ima lošu pretragu ili je nema uopšte, pa je često ovakva indirektna pretraga sajta jedini način.
Tako je bar nekoliko priloga i članaka u ovom regionu bezbolnije i brže urađeno zahvaljujući dobrom poznavanju naprednijih opcija za pretragu.
Ostale napredne operatore za pretragu u Googlu objasnićemo u nekom od narednih članaka jer smo priču već dobro odužili u ovom. Oni nisu nikakva tajna, štaviše Google ih ukratko objašnjava na stranicama koje nude pomoć u pretrazi. Ali većina novinara nikada ne uspe da odvoji malo vremena da se u njih udubi i počne da ih primenjuje.
Za bilo kakva dodatna objašnjenja možete se javiti gorepotpisanoj (nevena(at)media.ba i rsumovic(at)gmail.com).