Википедија:Masovni unos/naseljena mesta u Srbiji
Ovo je koordinaciona strana vezana za masovni unos srpskih sela.
Sa unosom srpskih sela se počelo 20. avgusta 2007. godine! --filip ⁂ 11:51, 20. avgust 2007. (CEST)
Mišljenja i ideje
[uredi | uredi izvor]Podaci
[uredi | uredi izvor]Podaci su uglavnom u PDF-ovima u vidu "ćiriličnih tabela". Iz njih bi trebalo izdvojiti podatke u neki uniformni format i konvertovati takav autput u neki više mašin-ridabl. Postoji i gomila .xls tabela, ali one su samo za opštine. Iz njih može da se izvuče gomila podataka, ali treba uvrstiti samo najbitnije. Ono što nije za tabele, može se smestiti u tekst. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. mart 2007. (CET)
Podaci u trenutno dostupnim .xls tabelama se odnose na opštine (i tu će biti korisni) pa se za sela ne mogu upotrebiti. -- JustUser JustTalk 19:30, 20. mart 2007. (CET)
Mogli bi smo iz onog miloševog algoritma (Korisnik:Miloš/Kraljevo) da dodamo i podnaslove Obližnji potoci u Srbiji i Crnoj Gori i Obližnji manastiri u Srbiji i Crnoj Gori. Pri tome bih naziv potoci promenio u vodeni tokovi, pošto se u člancima uglavnom navode reke. I naravno promenio bih onu višeznačnost, pošto kod miloša mnogo loše izgleda. Znači ako u nazivu same odrednice postoji reka ili potok, ne mora u zagradi da dodaje potok, a ako ne postoji ništa, onda samo doda ispred Reka tako da bi smo dobili Reka Ibar. Isto važi i za manastire. A ukoliko automatski mogu da se unesu i one slike, mogli bi i njih da stavimo negde u članak --Jovan Vuković (r) 12:27, 26. mart 2007. (CEST)
Ajde ovo sa obližnji manastiri i kapiram, jer je manstir tačkasta lokacija, ali potoci, vodotkovi, reke ....? Kako ćeš razlikovati šta je reka, šta potok a šta kanal. Pa da li prolazi kroz selo, pored sela ili iza brda? Mislim da je sadržaj informacije vodotok Dž ide 2 km od sela Lj tanak, jer ako ide 2 km od centra sela, možda prolazi kroz obod sela, ili graniči sa drugim selom ili je iza Jelice planine i ko zna kom ataru. -- JustUser JustTalk 14:25, 26. mart 2007. (CEST)
Sinoć sam završio prikupljanje demografskih podataka, tako da sada polako prelazim na geografske. --filip ⁂ 10:50, 11. maj 2007. (CEST)
Sukobi
[uredi | uredi izvor]Već postojeći
[uredi | uredi izvor]Dosta članaka je već napravljeno. Šta da radimo kada bot stigne do članka koji već postoji? Da li da pokuša da spoji (kako?) ili da negde privremeno smesti članak (skoro apdejtovani kreš, Vikipedijin imenski prostor?), koji bi se kasnije mogao ručno pridružiti već postojećem. Ili možda da "pregazi" već postojeće, ako su suviše kratki (jer u njima nema korisnih informacija koje se ne nalaze i u novom članku)? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. mart 2007. (CET)
- Kada su poljaci masovvno unosili njihova mesta, oni su ovakve probleme rešavali tako što bot napiše članak na stranici za razgovor već postojećeg članka ukoliko naiđe na njega. --Jovan Vuković (r) 12:15, 26. mart 2007. (CEST)
Nakon razmišljanja, smatram da je najbolje da se negde u Vikipedijinom imenskom prostoru stavljaju svi konflikti. Tako bi postojala strana npr. Vikipedija:Srpska mesta i tu bi bio spisak svih podstrana te stranice (jer bi svako mesto imalo svoju podstranu). Onda bi se ručno spajali članci (ako već postojeći članak ima nekih informacija) ili bi neki administrator prosto premeštao preko već postojećih (za slučaj da članak o tom selu sadrži samo osnovne podatke koji su ionako sadržani u automatski unešenom članku). --filip ⁂ 10:50, 11. maj 2007. (CEST)
- Trenutno se prosto preskaču takvi članci, ali će u nekom od narednih prolaza verovatno biti priča o ovome. --filip ⁂ 11:51, 20. avgust 2007. (CEST)
Višeznačne
[uredi | uredi izvor]Znamo da ima gomila sela koja su (da li međusobno ili ne) homonimi i to treba rešavati preko višeznačnih odrednica. Imam osećaj da algoritam vezan za takvu problematiku ne može da bude jednostavan, pa treba dobro porazmisliti u ovom pravcu. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. mart 2007. (CET)
- Nema potrebe za višeznačnim odrednicam (mnogo bi ih bilo) već bolje staviti To i to selo kod tog i tog većeg mesta ili u zagradi naziv opštine ako je to izvodljivo. --Vojvoda 11:07, 8. maj 2007. (CEST)
- Pa da. Tako sam i planirao, ali opet je potrebna višeznačna odrednica da poveže sva ta različita sela, za slučaj da neko želi da vidi npr. koliko ima Novih Sela u Srbiji. Uostalom, pravljenje višeznačnih smanjuje šansu da članci nekada postanu "siročići" (tj. povećava povezanost). --filip ⁂ 10:50, 11. maj 2007. (CEST)
A jel bi se višeznačne odrednice pravile automatski ili ručno?--Vojvoda 23:34, 9. jul 2007. (CEST)
- Najverovatnije automatski, tj. botovski. --filip ⁂ 01:16, 10. jul 2007. (CEST)
Problemi
[uredi | uredi izvor]Naišao sam na jedan poveći problem. Kod prikupljanja geografskih podataka za svako naseljeno mesto (koordinate), može biti svašta! Generisao sam spisak svih naselja u užoj Srbiji i Vojvodini i javljaju se ovakve stavke (ćirilizacija je moja; originalno, sve je latinicom, pa zato i ovi mađarski nazivi izgledaju prirodnije):
Сзербарадáцз -73931 Тóт-Арадáцз -73931 Тóтарадáцз -73931 Арангјеловац -73933 Аранђеловац -73933 Араповац -73938 Араповиће -73939 Араповићи -73939 Арбанасце -73944 Арбанасци -73944 Арбанашка -73948
Brojevi desno su jedinstveni brojevi geografske lokacije. Na koji način bot može da zna da li je pravilno Arangjelovac ili Aranđelovac? Najveći problem je upravo naselje -73931 (Aradac) koje ima 17 homonima, zatim Bašaid (-74547), koji postoji u 14 varijanti itd. Sveukupno, postoji 1965 lokacija koje imaju 2 ili više naziva. E sad, stvari komplikuje višeznačnost (npr. pet Leskovaca, petnaest Novih Sela itd). U tom slučaju, koje koordinate, odnosno koji jedinstveni broj da spoji sa kojim selom? Ovi podaci koje imam su preuzeti od NGA. Da li postoji neki pouzdaniji izvor za ovo? --Φ ί λ ι π π ο ς | ⌘ 22:30, 3. april 2007. (CEST)
- Spisak naselja imaš u onom statističkom godišnjaku srbije. --Jovan Vuković (r) 16:27, 6. april 2007. (CEST)
- To je očigledno, s obzirom da se podaci najviše uzimaju odatle. Ali i dalje stoji gornji problem. --Φ ί λ ι π π ο ς | ⌘ 16:51, 6. april 2007. (CEST)
- Pa tamo nemaš ova mađarska imena. Verovatno su imena tih sela na srpskom u statističkom godišnjaku. — Prethodni nepotpisani komentar ostavio je korisnik Jovanvb (razgovor • doprinosi)
- Da, ali, opet ponavljam, ima 5 Leskovaca! Otkud bot da zna koji se "Leskovac" odnosi na koje mesto? Jedino da imam tačne koordinate prostiranja svakog okruga, pa da pokušam da utvrdim na osnovu koordinata sela u kom se okrugu ono nalazi. Ali, čini mi se da to neće ići baš tako lako. --Φ ί λ ι π π ο ς | ⌘ 23:18, 11. april 2007. (CEST)
- Pa tamo nemaš ova mađarska imena. Verovatno su imena tih sela na srpskom u statističkom godišnjaku. — Prethodni nepotpisani komentar ostavio je korisnik Jovanvb (razgovor • doprinosi)
- To je očigledno, s obzirom da se podaci najviše uzimaju odatle. Ali i dalje stoji gornji problem. --Φ ί λ ι π π ο ς | ⌘ 16:51, 6. april 2007. (CEST)
Grafik
[uredi | uredi izvor]Praveći bota za unos, došao sam do problema što se tiče tajmlajna, odnosno grafika. Brojne vrednosti u grafiku nisu prave vrednosti broja stanovnika po godinama, već neki oko šest puta umanjeni brojevi. E sad, nije ni šest prava brojka jer za dosta male vrednosti, linija ide ispod površine grafika. Interesuje me koji je tačno algoritam izračunavanja brojnih vrednosti iz datih vrednosti po godinama. --filip ⁂ 22:50, 14. maj 2007. (CEST)
- Malo si me zbunio svojom rečenicom. Idemo iz početka. Da bi se iz broja stanovnika dobile brojke koje će ići u tajm lajn vrši se reskaliranje na dimenzije okvira unutar maksimalnih dimenzija grafika. Pretpostavljam da se tom prilikom javlja nekakav broj blizu šestice za jednu od dimenzija. Da li se tvoje pitanje odnosi na to koja je funkcija preslikavanja (godina, stanovnika)->(x, y)? -- JustUser JustTalk 00:11, 15. maj 2007. (CEST)
- Da, to je moje pitanje. Interesuje me kako da na jedinstven način utvrdim kako se broj stanovnika preslikava u drugu koordinatu tačke za tajmlajn. Trebaju mi druge koordinate, jer pretpostavljam da su prve svugde iste (s obzirom da svugde imamo podatke sa tačno određenih popisa stanovništva). --filip ⁂ 00:31, 15. maj 2007. (CEST)
- Da ne bih ovde pisao formule i primere poslacu ti excell fajl sa upravo tim formulama i primerom. -- JustUser JustTalk 21:57, 15. maj 2007. (CEST)
- Da, to je moje pitanje. Interesuje me kako da na jedinstven način utvrdim kako se broj stanovnika preslikava u drugu koordinatu tačke za tajmlajn. Trebaju mi druge koordinate, jer pretpostavljam da su prve svugde iste (s obzirom da svugde imamo podatke sa tačno određenih popisa stanovništva). --filip ⁂ 00:31, 15. maj 2007. (CEST)
Analiza
[uredi | uredi izvor]Izvršio sam malu analizu nad podacima koje imam, a oni obuhvataju
- Statistički godišnjak iz Republičkog zavoda za statistiku (nadalje, RZS)
- Podaci američke nacionalne geoprostorne agencije (nadalje, NGA)
Kao što sam ranije naglasio, postoje izvesni duplikati u samim statistikama RZS, u smislu da nazivi naselja nisu unikatni (npr. postoji 13 Slatina i 11 Kamenica). Po analizi, postoji ukupno 1085 naseljenih mesta koja po podacima RZS imaju konfliktna imena, pa kompjuterska skripta ne može na siguran način da "spoji" takvo naseljeno mesto sa geografskim podacima iz NGA. Tih 1085 naseljenih mesta dele 413 različitih (duplikatnih) imena. To znači da će neko morati ručno da prođe kroz sva ta naselja i napravi pravilnu asocijaciju (nije isključeno da se napravi skriptica koja će procenjivati na osnovu koordinata kom okrugu pripada određeno naselje). Pored ove brojke, postoji tačno 628 naseljenih mesta koja po podacima RZS nisu duplikati, ali po podacima NGA jesu. Tu spada 260 naziva (tj. 260 naseljenih mesta po podacima RZS). Ovo je već teži posao, jer na jednu odrednicu za koju znamo demografske podatke "dolazi" više odrednica sa geografskim podacima - logično, treba odrediti koje od tih naselja po podacima NGA odgovara datom naseljenom mestu po podacima RZS (naravno, i ovde može pomoći već pomenuta skripta). 2666 naselja su potpuni pogoci, odnosno nehomonimni su po podacima i RZS i NGA (uspostavljen je unekvivoko). To znači da, s obzirom da ukupno ima 4715 naseljenih mesta, preostalih 704 mesta (koja nisu duplikati po podacima RZS) ima u Statističkom godišnjaku, ali ne i u podacima NGA. I ovakvi slučajevi će morati ručno da se rešavaju, u smislu da treba ipak pronaći odgovarajući podatak među podacima NGA (kod dobrog dela je to moguće, jer moja analizatorska skripta nije povezala dva mesta zbog konvencija u nazivima; u RZS se koriste imena poput "Oraovica (kod Grdelice)", "Oraovica (kod Crkovnice)", "Grdelica (varoš)", "Grdelica (selo)" i sl. dok u NGA ne). Na kraju, 1085+260+2666+704=4715, pa mi je računica tačna. E sad, ako uzmemo da 2666 zaista jeste realan broj naseljenih mesta kojima nije potrebna intervencija, preostaje nam brojka od 2409 mesta gde jeste potrebna intervencija čoveka, što čini ukupno 43,48% svih naseljenih mesta u Srbiji sa Vojvodinom, bez Kosova, po podacima RZS. Kakvi su komentari na ovakve činjenice? Ako se dobro sećam, Nikola je prevideo 20-ak procenata... očigledno će biti više problema nego što smo svesni. --filip ⁂ 00:47, 29. april 2007. (CEST)
- Pravi izazov za sve mlade željne dokazivanja!!! Eh kada će taj Magacin da proradi, pa da se uvučemo u njega i svi onako zajedno rešavamo šumadijska sela do mile volje? Zezanje, a ...
- Dakle nema spasa od užasa. Napraviti spisak ... pa krenuti redom. Čini mi se da nema druge. -- JustUser JustTalk 01:03, 29. april 2007. (CEST)
- Spiskovi već postoje kod mene. Naime, ove silne brojke su samo nuspojava generisanja spiskova. Doduše, mogao bi ih još malo srediti, ali suštinski, to je to. Ko želi da mu pošaljem te spiskove, neka me kontaktira. --filip ⁂ 01:18, 29. april 2007. (CEST)
- Dobro znači prvo unosimo onih 2.666 naselja koji su skroz dobri. E sad ako uspe da se napravi ona skripta da se duplikati iz RZS spoje sa ne duplikatima iz NGA onda bi to rešilo još 1.085 mesta tako da bi ručno moralo da se prođe kroz još 964 mesta, što dosta smanjuje posao. A ovih 964 mesta ćemo već rešiti --Jovan Vuković (r) 11:08, 2. maj 2007. (CEST)
- Prvo, ta skripta ne bi bila bezgrešna (ali pretpostavljam da ne bi ipak mnogo grešila) i ne verujem da bi mogla da odradi sve, tako da tu brojku od 1085 ipak treba uzeti sa rezervom. Drugo, brojka od 2666 ne znači da će biti toliko novih članaka, s obzirom da već imamo članke o nekim selima, a negde postoje "lažni članci" (famozni primer Padeža - ima čak dva naselja sa tim imenom, a potencijalno može da postoji i članak o gramatičkom pojmu.) --filip ⁂ 18:18, 2. maj 2007. (CEST)
- Da dodam da mislim da treba raditi sve odjednom, a ne prvo ovih 2666, pa ostale. Mada, ako neko ima ubedljiv razlog, otvoren sam da ga čujem. --filip ⁂ 10:50, 11. maj 2007. (CEST)
- Dobro znači prvo unosimo onih 2.666 naselja koji su skroz dobri. E sad ako uspe da se napravi ona skripta da se duplikati iz RZS spoje sa ne duplikatima iz NGA onda bi to rešilo još 1.085 mesta tako da bi ručno moralo da se prođe kroz još 964 mesta, što dosta smanjuje posao. A ovih 964 mesta ćemo već rešiti --Jovan Vuković (r) 11:08, 2. maj 2007. (CEST)
- Spiskovi već postoje kod mene. Naime, ove silne brojke su samo nuspojava generisanja spiskova. Doduše, mogao bi ih još malo srediti, ali suštinski, to je to. Ko želi da mu pošaljem te spiskove, neka me kontaktira. --filip ⁂ 01:18, 29. april 2007. (CEST)
Eto, prvo radim samo ne-duplikate koji već ne postoje, tj. da članak nije zauzet (ne znam tačan broj tih članaka, ali videćemo na kraju). --filip ⁂ 11:51, 20. avgust 2007. (CEST)
Brzina
[uredi | uredi izvor]Kojom brzinom unositi članke? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. mart 2007. (CET)
- Unosite polako da vidimo kako sve to funkcioniše. Projekat Srpska sela mogu da uspeju pa treba biti oprezan.--Vojvoda 11:12, 8. maj 2007. (CEST)
- I pretpostavio sam da ne treba žuriti. S tim što ne moramo ići baš ni po 10 članaka dnevno. Više bih išao u smislu jedan članak u minutu, što će dati 60*24=1440, što znači da ćemo završiti za oko tri dana, a brzina će biti drastično manja u odnosu na onu kada smo unosili francuska sela (gde je u jednom trenutku pet-šest botova radilo paralelno i kroz svaku sekundu ili dve, unešen je jedan članak). --filip ⁂ 10:50, 11. maj 2007. (CEST)
- Ja bih stavio još manje, na oko 400-500 članaka dnevno --Jovan Vuković (r) 19:12, 11. maj 2007. (CEST)
Jedan u minutu je otprilike usaglašena brzina. --filip ⁂ 11:51, 20. avgust 2007. (CEST)
Resursi
[uredi | uredi izvor]- Treba navesti sve mrežne lokacije
- kao i publikacije i
- eventualno nekakvu drugu literaturu koja će se koristiti pri unosu
Koncept članka
[uredi | uredi izvor]Ovde treba da stoji kôd članka, odnosno sadržaj članka sa referencama na resurse (tj, da se zna odakle se koji podatak uzima i na koji način generiše). --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. mart 2007. (CET)
- A ja se pitam šta se desilo sa pokušajima da se ove tabele verbalizuju, čisto onako, konformizma radi, da malo više liči na enciklopediju. E i da, palo mi napamet, kad se već trkamo sa komšijama, da unesemo biračke spiskove Republike Srbije, što da ne, imaju tri validne odrednice - ime i prezime, datum rođenja, mesto rođenja, pa ako zakon dozvoljava i JMBG, br l.k... :))) --¡¿Kale?! 16:18, 7. april 2007. (CEST)
- Ja jesam za verbalizaciju, ali treba mi pomoć. Da li bi ti želeo da izvučeš podatke iz nekih od tih tabela, pa da vidimo na šta liči? --Φ ί λ ι π π ο ς | ⌘ 17:25, 7. april 2007. (CEST)
- Je l` to zahteva programersko znanje? --¡¿Kale?! 19:44, 7. april 2007. (CEST)
- Ne. Samo je potrebno da imaš podsetnik negde u glavi da taj tekst ipak treba jedna skripta da generiše i da zbog toga ne može da bude fleksibilan kao što bi bio da ga čovek sastavlja. --Φ ί λ ι π π ο ς | ⌘ 23:09, 7. april 2007. (CEST)
- `Aj da vidimo i to, pošalji mi na mejl, ako ti nije teško. --¡¿Kale?! 23:44, 7. april 2007. (CEST)
- Svi podaci koji će biti korišćeni su na stranici Korisnik:Dungodung/Bzenice u tabelama. Ako nešto može još da se izvuče odatle, super. --filip ⁂ 10:50, 11. maj 2007. (CEST)
- `Aj da vidimo i to, pošalji mi na mejl, ako ti nije teško. --¡¿Kale?! 23:44, 7. april 2007. (CEST)
- Ne. Samo je potrebno da imaš podsetnik negde u glavi da taj tekst ipak treba jedna skripta da generiše i da zbog toga ne može da bude fleksibilan kao što bi bio da ga čovek sastavlja. --Φ ί λ ι π π ο ς | ⌘ 23:09, 7. april 2007. (CEST)
- Je l` to zahteva programersko znanje? --¡¿Kale?! 19:44, 7. april 2007. (CEST)
- Ja jesam za verbalizaciju, ali treba mi pomoć. Da li bi ti želeo da izvučeš podatke iz nekih od tih tabela, pa da vidimo na šta liči? --Φ ί λ ι π π ο ς | ⌘ 17:25, 7. april 2007. (CEST)
Prolazno vreme
[uredi | uredi izvor]Noćas su završena spajanja podataka iz botovski generisanih i pisanih članaka. Trebaće još neko vreme da se prekontrolišu sva sela u smislu klasifikacije homonima, ali glavni posao je završen.
Možda je sad pravo vreme da bot uradi par izmena. Prvo, konačno da rešimo onu grešku subst("je u velikim delom","je velikim delom"). Usput bih predložio da u Šablon:Popis izvrši zamena |п1948=.<ref>.</ref> sa |извор=<ref>.</ref>|п1948=. i to u svim selima. Takođe, imam predlog i za Šablon:Grafikon piramida da se uradi za srpska sela botovski ono što je urađeno za crnogorska. -- JustUser JustTalk 12:00, 6. novembar 2007. (CET)
- Sad sam primetio. Ova poslednja stavka pod obavezno i što pre. Kod crnogorskih sela se pojavljuje treća referenca duplo, jednom u okviru šablona statistički zavod u Beogradu a drugi put na dnu u spisku referenci kao statistički zavod u Podgorici.
- |извор=Књига 2, ''Становништво, пол и старост, подаци по насељима'', Републички завод за статистику, Београд, фебруар 2003, ISBN 86-84433-01-7
-- JustUser JustTalk 12:08, 6. novembar 2007. (CET)
Samo da javim da sam video ovo i da imam na umu, te da ću, kad mi vreme dozvoli, odraditi to. --filip ※ 21:09, 6. novembar 2007. (CET)
Primeri
[uredi | uredi izvor]Primeri su:
Takođe, postoje i neki stari primeri koji se sada smatraju anahronizmima: Korisnik:Miloš/Kruševac kod Podgorice i Korisnik:Miloš/Kraljevo.
Ostalo
[uredi | uredi izvor]- Spisak homonimnih naselja
- Spiskovi naseljenih mesta sa koordinatama koje treba srediti (RZS vs. NGA) (dalja uputstva ovde)
- Spisak članaka koji treba da se unesu, a već postoje ili ne postoje na Vikipediji
- Potpuni spisak naseljenih mesta sa koordinatama (NGA)
- Vikipedija:Srpska sela, spisak sela za spajanje