Wikipédia:Botgazdák üzenőfala/Archív 19

A lap korábbi változatát látod, amilyen JwtBot (vitalap | szerkesztései) 2015. január 2., 03:04-kor történt szerkesztése után volt. Ez a változat jelentősen eltérhet az aktuális változattól. (Bot: Egy szakasz archiválása a Wikipédia:Botgazdák üzenőfala lapról.)

Legutóbb hozzászólt Ato 01 9 évvel ezelőtt a(z) Takarítás a filmes cikkekben témában

Mini egyértelműsítés

Kérlek, javítsátok a Mini --> Mini (egyértelműsítő lap)ra mutató hivatkozásokat. --Hkoala 2014. november 8., 15:08 (CET) Köszönöm! --Hkoala 2014. november 20., 22:01 (CET)

Arco egyértelműsítés

Kérlek, javítsátok az Arco --> Arco (egyértelműsítő lap)ra mutató hivatkozásokat. --Hkoala 2014. november 8., 16:42 (CET)

A legtöbb hivatkozást az {{AVE}} sablon okozta, ezek nélkül már nem is biztos, hogy botfeladat. --B.Zsolt vita 2014. november 8., 22:58 (CET)

Ahogy sejtettem, 11 lap maradt csupán. --B.Zsolt vita 2014. november 9., 20:30 (CET) Köszönöm! --Hkoala 2014. november 20., 22:01 (CET)

Takarítás a filmes cikkekben

Sziasztok! Egy összetet botfeladatról lenne most szó, mely túl nehéz nekem. Elkezdtem kicserélni a filmes szócikkekben az eredeti_cím, angol cím, angol_cím paramétereket egységesen eredeti cím-re, de észrevettem, hogy akad még sok más régi maradvány is a cikkekben. Többek között rengeteg képaláírás van kép nélkül (xy film DVD borítója), továbbá van háttérszín és címszín paraméter is, mely szintén nincs már használatban.

Tehát a feladat:

  • eredeti_cím, angol cím, angol_cím paraméterek egységesen eredeti cím formára;
  • képaláírás paraméter törlése, ha nincs kép;
  • háttérszín, címszín paraméterek törlése tartalmukkal együtt.

Kb. 4000 szócikket kell átnézni.

Előre is köszönöm a segítséget! --B.Zsolt vita 2014. november 20., 15:17 (CET)


@B.Zsolt: Én is elkezdtem takarítani (cserélgetni) a következő reguláris kifejezésekkel:

  1. (\s*?\|\s*?)(eredeti_cím|angol\scím|angol_cím)(\s*?=) → $1eredeti cím$3
  2. (\|\s*?képaláírás\s*?=\s*?)[^\n]+ → $1 ha tartalmazza ezt: \|\s*?kép\s*?=\s*?\n és nem tartalmazza ezt: \|\s*?képaláírás\s*?=\s*?\n
  3. \s*?\|\s*?(háttérszín|címszín)\s*?=[^\n]* → semmi

de ettől még maradhatnak duplikátum "eredeti cím" paraméterek. Az egymás utáni duplikátum paraméterekre a következő két csere-szabályt adtam meg attól függően, hogy az első vagy a második az üres:

  1. (\s*?\|\s*?eredeti\scím\s*?=\s*?[^\n]+\n)(\s*?\|\s*?eredeti\scím\s*?=\s*?\n) → $1
  2. (\s*?\|\s*?eredeti\scím\s*?=\s*?\n)(\s*?\|\s*?eredeti\scím\s*?=\s*?[^\n]+\n) → $2

de A Jó, a Rossz és a Csúfnál elakadtam. Most meg se időm, se ötletem a további takarításhoz. Szerintem ezekkel neked is menne. -- ato vita 2014. november 20., 23:04 (CET)

Rendben, nekifogok! Meglátjuk én meddig jutok! :) A héten ezt letudjuk! :) --B.Zsolt vita 2014. november 20., 23:09 (CET)

Lehet, hogy a kép nélküli aláírásokat is hagyni kéne. Sok helyen csak imdb-s információk voltak amikből már eddig is töröltem. A képekhez sokszor közük sincs. -- ato vita 2014. november 20., 23:16 (CET)

Perceken belül végez, így ezt lezártnak tekinthetjük! @Ato 01: Te egy zseni vagy, ezek a reguláris kifejezések remekül működnek, nekem ez lehetetlen feladat lett volna! :) --B.Zsolt vita 2014. november 21., 01:44 (CET)

Na szuper. Akkor már csak azt nem tudom, mit csináljunk a dupla "eredeti cím"-ekkel, pl. A Jó, a Rossz és a Csúfnál Vigyor. -- ato vita 2014. november 21., 06:49 (CET)
Ezek a cikkek bekerültek a Kategória:Dupla paramétermegadást tartalmazó lapok kategóriába. Kell egy metszet a film infoboxok és a kategória között, majd a listát kézzel átnézni. Szerintem kezelhető mennyiségű cikkről lesz szó. --B.Zsolt vita 2014. november 21., 14:45 (CET)
Erre való a CatScan. Szerinte annyira kezelhető mennyiség, hogy nekem pontosan 0 találatot sikerült kicsikarnom belőle, még A Jó, a Rossz és a Csúfot sem adta ki. --Tacsipacsi vita 2014. november 21., 18:39 (CET)

Én úgy csináltam volna, hogy a database scannerrel kigyűjteném a film infoboxokat tartalmazó lapokat, majd ezt hasonlítanám össze az awbben a Kategória:Dupla paramétermegadást tartalmazó lapok kategóriával. A metszetbe kerülnek a hibásak. --B.Zsolt vita 2014. november 21., 22:48 (CET)

Akkor én pywikibottal menteném ki listába a következő paranccsal:

replace.py -transcludes:"film infobox" "\|\s*?eredeti\scím\s*?=.*?\n(.*?\n)*\s*?\|\s*?eredeti\scím\s*?=" "b" -regex -save:lista.txt -- ato vita 2014. november 22., 21:08 (CET)