Umap, Twitterreko euskarazko jardunaren batzailea

2010/10/22
Umap edo, zehatzago esanda, bere lehen garapena, eu.umap.eu, Twitterreko euskarazko jardun guztiaren batzailea da. CodeSyntax-ek garatu duen produktu berri bat, erabilgarri suerta daitekeena, gure iritziz.

Umap Twitterretik mezuak jaso eta prozesatzeko produktu bat da. Produktuaren lehen webgunea euskarazko instantzia hau da, eu.umap.eu baina etorriko dira gehiago.


Argazkiak.org | Umap euskaraz, Ipad batetik ikusia © cc-by-sa: sustatu

Umap-en lehen bertsioa da hau. Funtzio berriak gehituko zaizkio hurrengo asteetan Umap-i. Funtsean, zenbait prozesu automatiko dabiltza martxan aplikazio honetan:

  1. Twitterreko erabiltzaile euskaldunak detektatzeko metodo bat.
  2. Erabiltzaile horien tuit edo mezu guztiak denbora errealean jaso, eta horietan euskarazkoak diskriminatzeko sistema.
  3. Jasotako mezuetan, termino eta gako/trend esanguratsuenak konputatzeko metodoa.

Prozesu hauek ez dira perfektuak, eta asko dute hobetzeko. Baina %100eko doitasunarekin ez bada ere, emaitza zuzenak lortu ditugu. Erabiltzaile euskaldunen detekzioari dagokionez, sinesten dugu potentzialki Twiterren dabiltzan euskaldun guztiak harrapatzeko gaitasuna duela gure sistemak (agian ez da hain hona erabiltzaile robotikoekin). Nolanahi ere, behin euskaldun bat detektaturik, haren mezuetan erdara errepikatzen bada etengabe, ez badu euskaraz idazten, ezabatu egiten du sistemak automatikoki. Datubasean ez dagoen norbait gehitu beharko genukeela uste baduzu, aukera duzu proposamena egiteko orri honetatik; baina ez badu euskaraz egingo, alferrik da.

Euskarazko mezuen detekzioan, %95eko zuzentasunean gabiltzala uste dugu. 1. eta 2. metodoaren artean, euskarazko tuit guztiak ez badira, gehien-gehienak batu eta prozesatzeko gauza gara. Trend edo gakoak konputatzeko metodoan, berriz, algoritmo bihurri samar eta aldakorra erabiltzen dugu, batuketa soiletik haratago; baina funtsean oinarrizko arauak sinplea da: berba bat, puntu bat; #hashtag bat, 10 puntu. Kalkulu sinple hauekin, eguneko komentagaiak, albisteak, eztabaidak jarraitzeko pista interesgarriak lortzen direla uste dugu. Denborarekin, gero eta zehatzago egingo dugu hau, Twitterrera erabiltzaile gehiago gehitu ahala, eta euskaldunok euskaraz gehiago jardun ahala.

Euskararen normalizazio komunikatiboaren eta aurrerapen teknologikoaren aldetik, Umap martxan jartzea pizgarria izan daitekeela uste dugu; tarteka euskaraz egiten duenak, motibazio gehigarri bat izan dezake orain euskaraz sarriago idazteko, bere eta bere lagunen mezu-jario edo timeline-etan erdi-galduta geratzen diren mezuak izan barik, Umap-eko jarioetan elkarrizketa aberats eta osoago baten parte izan baitaitezke euskarazko tuitak.

Umap-en hasierako funtzioen artean, honako hauek ditugu:

  • Trend edo gakoen jarraipen bizia, hamar minutuero egiten da kalkulua. Azkenekoak, ordu gutxi batzuetakoak konputatuz; gero, azken 24 orduak, azken astea eta azken 30 egunetako gakoak zenbatzen ditugu.
  • Artxibo batean, egun bakoitzeko 24 orduetan gehien errepikatutakoak gordetzen ditugu.
  • Umap bertatik parte hartu daiteke elkarrizketan: egin login zure Twitter erabiltzailearekin, eta retweet-ak zein erantzunak bidali ahal izango dituzu.
  • Erabiltzaile bakoitzaren tuit edo mezuen estatistikak, euskara zenbat erabiltzen duen bakoitzak, bereziki.

Ez bazaude oraindik Twitterren, Umap-eko elkarrizketatik kanpo zaude. Baina komunikazio fenomeno eta informazio tresna oso interesgarri batetik kanpo ere bazaude. Erraza da bat egitea. Sortu kontu bat Twitterren, jarraitu beste zenbait pertsona, hangoak eta hemengoak, eta hasi zu ere tuiteatzen: euskaraz badiharduzu, Umap-ek aurkitu egingo zaitu.

Erantzun

Erantzuna emateko identifikatu egin behar zara, gure webgunean erabiltzaile bat sortuz edo zure Twitter edo Facebook kontua erabiliz.

Luistxo Fernandez

Proiektu asmatzailea. Diplomaziaren guru bat.