Aldaketak UMAPen azpiegituran eta erabiltzaileen parseoan

2016/07/12
2010. urteaz geroztik Twitterreko euskarazko jardunaren analisia egiten dugu UMAP erremintaren bitartez. Azken asteotan aldaketa txiki batzuk egin ditugu azpiegitura tekniko horretan. Ez du eragin handirik, ez bada euskara-erabileraren emaitzetan.

UMAPen euskal txiolarien jarduna jaso eta aztertzen dugu. Horretan dihardugu duela 6 urtetik hona, 2 helburu nagusirekin:

  1. Twitterreko aktualitatearen jarraipena egitea (zer den albiste eta zeintzuk diren uneko joerak euskaldunon artean).
  2. Txiolarien hizkuntza ohiturak neurtzea eta aztertzea.

Orain arte biak batera aztertzen genituen, azpiegitura tekniko berean. Azken hilabeteotan, ordea, aldaketa batzuk egin ditugu gure azpiegitura tekniko horretan, goiko 2 azterketak bereizteko. Horrek malgutasuna handitzen digu, makinei karga kendu, eta emaitza are finagoak lortzen ditugu.

Orain arte, guztia batera egiten genuen, eta denbora errealean aztertzen genituen parametro guztiak. Horrek muga txiki batzuk ezartzen zizkigun; batez ere, Twitterrek berak datuetara iristeko ezartzen zizkigunak; baina baita uneko arazo puntualen ondorio izan zitezkeenak ere. Hemendik aurrera, azterketak bi azpiegituratan banatuta ditugu. Aktualitateko elementuak (Sustatuko albistegi automatikoa eta Joerak) denbora errealean aztertzen jarraituko dugu, baina Euskal Txiolarien jarraipena, aldiz, aldatu egin dugu. Horrela, muga gutxiago izango dugu, txiolari gehiago jarraitu ahal izango ditugu, eta hizkuntza-erabileraren datuak are zehatzagoak izango dira (parseoan suertatu daitezkeen arazo puntualak saihesten dituelako).

Euskara-erabileraren datuetan ondorioak

Funtsean ez dago aldaketa handirik, baina ondorio txiki batzuk izango ditu azpiegitura berriak. Batez ere, txiolarion hizkuntza-erabilera aztertzeko orduan. Orain arte, Twitterrek ezartzen zizkigun mugengatik, astean zehar "interesgarrienak" (euskaraz aktiboenak eta jarraituenak) izan ziren 5000 erabiltzaileen txioak bakarrik aztertzen genituen. Orain, aldiz, gure datu-basean ditugun guztiak aztertzeko aukera daukagu, mugarik gabe. Maiatzean, esate baterako, 14.500 txiolari inguru parseatu ditugu (horien artean 9.500 inguru aktiboak).

Horren ondorioz, euskara-erabilera jaitsi egin da, noski, "euskaldunenak" parseatzetik, datu-basean ditugun erabiltzaile guztien datuak aztertzera igaro garelako.

UMAPen hilero-hilero kaleratzen ditugu euskal txiolarion estatistiken txostenak. Zenbat txiolari aktibo dauden, zein den euskara-erabilera horien artean, eta abar. Aldaketa horiek 2016ko urtarrileko txostenetik aurrera aplikatu ditugu. 2016ko txosten guztiak, beraz, egitura eta datu berrietara egokitu ditugu.

Erantzun

Erantzuna emateko identifikatu egin behar zara, gure webgunean erabiltzaile bat sortuz edo zure Twitter edo Facebook kontua erabiliz.

Asier Sarasua

Biologoa. Filologoa. 21. mendeko Da Vinci bat