Categorías: albisteak-berriak

HiTZ zentroak Latxa hobetu du

Hizkuntza eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo gaztelaniarako Geminik dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua askoz baxuagoa da. Horrek handitu egiten du baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa, tresna digitalei dagokionez behinik behin. UPV/EHUko HiTZ Hizkuntza Teknologiako Zentroak Latxa garatu du, muga horiek gainditzeko eta euskarazko ikerketa, berrikuntza eta produktuen garapena sustatzeko.

Latxaren bertsio berria euskarazko corpus publiko handienaren gainean entrenatu da, eta corpus hori ereduekin batera banatzen da. Corpus horrek hedatu egiten du aurretik dagoen eta gehien bat Interneteko eduki publikoarekin sortutako corpusak darabiltzan EusCrawl. Guztira 4 milioi dokumentu baino gehiago dira eta 1.200 milioi hitz, aurretik zeuden corpusak baino bi aldiz handiagoa.

Ereduen kalitatea ebaluatzeko, hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba banku osatu dira. Grafikoan erakusten da ereduen errendimendua proba mota bakoitzaren arabera, eta eskuinaldean emaitzen batezbestekoa ikus daiteke. HiTZ zentroko zuzendari Eneko Agirrek honako hau adierazi du: “ingeleseko Llama ereduak probatu ditugu, bai eta GPT-3.5 Turbo (2022ko azaroan abiarazitako ChatGPTren baliokidea) eta GPT-4 Turbo (OpenAI duen eredu onena) ere, eta argi ikusten da Latxaren eredu onenak gainditu egiten dituela Llamak eta GPT-3.5 Turbo, proba kasu guztietan. Eredu onenak gainditu egiten du, halaber, GPT-4 Turbo hizkuntza gaitasunari dagozkionez, lehenengo aldiz baliabide digital urriko hizkuntzen eredu ireki batentzat, baina ez gainerako proba bankuetan. Azkenik, azpimarratu behar da Latxa tamainan handitzen ari den neurrian, emaitzak ere hobeak direla”.

Julen Etxanizek, Naiara Pérezekin eta Oscar Sainzekin batera Latxaren egile nagusiak, honako hau dio: “nabarmena da hain corpus txikiarekin halako emaitza onak lortzea; izan ere, horrek aukera ematen digu teknologia berriak ikertu ahala hobekuntza gehiago egin ahal izateko. Oso emaitza esperantzagarria da, euskararentzat ez ezik baliabide digital urriko gainerako hizkuntzentzat ere bai”. Naiara Pérezek hau gaineratu du: “euskara munduko hizkuntzen 50. postuan dago. Interneten dauden testuen arabera, eta badira dozenaka hizkuntza testuen antzeko kopuruak dituztenak; hortaz, euskarari aplikatutako teknikak beste hizkuntza horiei ere aplika dakizkieke, eta emaitzak antzekoak izango direla pentsatu”.

Oscar Sainzek azpimarratu du GPT-4 Turbo gainditu dela hizkuntza gaitasunari dagokionez baina ez gainerako probetan; eta horrek esan nahi du hizkuntza jakin bateko tamaina handiko hizkuntza ereduen gaitasunak ez dituztela soilik haien hizkuntza gaitasunek mugatzen. Horrek baliabide digital urriko hizkuntzen (besteak beste, euskara) emaitzak hobetzeko aukera ematen du, ingelesarentzat eredu ireki hobeak garatzen diren heinean. Arlo horretako lehia gero eta handiagoa denez, nahikoa litzateke Llama baino eredu ireki hobeen zain egotea, eta orduan GPT-4 gaindituko lukeen Latxa entrenatu ahal izango genuke”.

Latxa ereduak oinarrizko ereduak dira, erabiltzaileentzako jarraibideak edo lehentasunak doitu gabekoak. Hortaz, eredu horiek ez dira publiko orokorrak zuzenean erabiltzeko modukoak. Hala ere, Latxa ereduak funtsezkoak dira euskararentzako hizkuntza teknologia erabiliko duten tresna arrakastatsuak eraikitzeko. “Eredu ireki horiek argitaratu ditugu teknikari adituek erabil ditzaten produktuak egiteko edo interesatzen zaizkien aplikazioetara doitzeko. Aldi berean, erabiltzaileen jarraibideei jarraitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago argi euskaraz gaztelaniaren edo ingelesaren antzeko kalitatea izango duten elkarrizketa ereduak eraiki daitezkeen ala ez. Horixe da, hain zuzen ere, gure ikerketen helburua. Zenbait ikerketa egiten ari gara, beste hizkuntza batzuetarako dauden elkarrizketa gaitasunak euskarara eramatea ahalbidetzen duten tekniken ikerketa barne”, azaldu du Eneko Agirrek; eta, era berean, azpimarratu du 70B eredua Estatuko edozein hizkuntzatarako entrenatutako eredurik handiena dela eta horrek sendotu egiten duela HiTZ ikerguneak tamaina handiko hizkuntza ereduetan duen lidergoa.

Informazio osagarria

Berrikusten ari diren zientzia artikulua, ereduak, corpusak eta proba bankuak hemen eskura daitezke: https://github.com/hitz-zentroa/latxa. Latxa ereduak Llama-2 License izenekoa hartzen dute oinordetzan. Eredu horrek ikerketa eta merkataritza jarduera ahalbidetzen ditu.

Latxa Eusko Jaurlaritzak finantzatutako IKER-GAITU proiektuaren esparruan garatu da Eraldaketa Digitalerako eta Funtzio Publikorako Ministerioak eta Suspertze, Eraldatze eta Erresilientzia Planak –Europar Batasunak-NextGenerationEUk finantzatutakoa– finantzatutako ILENIA proiektuarekin lankidetzan, 2022/TL22/00215335 erreferentzia duen proiektuaren barruan. HiTZek errendimendu handiko zenbaketa plataforma (HPC) propioa erabili du, eta azken ereduak CINECAren Leonardo superordenagailuan entrenatu dira, EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

albisteak

Compartir
Publicado por
albisteak

Entradas recientes

26_0335 Gizon bat atxilotu dute Irunen dirua zuen gutunazal bat lapurtzeagatik

Ertzaintzak ikertzen ari zen eta makuluak zituen pertsona bati, laguntzeko itxurak eginez, 6.000 euro lapurtu…

13 minutos hace

26_0334 Bi atxilotu Gasteizen piper-gasa erabiliz egindako lapurreta-saiakuntza bana leporatuta

Ertzainek bi gazte atxilotu dituzte Arabako hiriburuan, indarkeria erabiliz egindako lapurreta-saiakuntza bana leporatuta. Lapurretetako bat…

13 minutos hace

26_0333 Gasteizen gizon bat atxilotu dute adineko gizon bati indarkeriaz lapurreta egiteagatik

Ertzaintzak Arabako hiriburuan adineko gizon bati lapurreta egin zion gizonetako bat atxilotu du. Biktimari bere…

13 minutos hace

Dos detenidos en Irun tras estafar 28.500 euros con un teléfono móvil robado

La Ertzaintza ha arrestado en Irun a dos hombres acusados de los delitos de hurto…

3 horas hace

El Parque Cristina Enea se convierte en el escenario del XXII Campeonato Nacional de Trepa de Árboles

Por primera vez, Donostia es la sede de este certamen estatal que reúne a los…

3 horas hace

‘Bilbao Moda’, una iniciativa del Ayuntamiento para fomentar la colaboración entre los comercios y el talento de los diseñadores locales

“Se trata de un proyecto basado en el trabajo colaborativo con numerosos agentes de Bilbao,…

3 horas hace