Pomembnost realistične evalvacije

Med napake pri pisanju v standardni slovenščini sodi raba neustreznega slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine n...

Full description

Saved in:
Bibliographic Details
Main Authors: Timotej Petrič, Špela Arhar Holdt, Marko Robnik-Šikonja
Format: Article
Language:English
Published: University of Ljubljana Press (Založba Univerze v Ljubljani) 2024-12-01
Series:Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
Subjects:
Online Access:https://journals.uni-lj.si/slovenscina2/article/view/14902
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1832583548921446400
author Timotej Petrič
Špela Arhar Holdt
Marko Robnik-Šikonja
author_facet Timotej Petrič
Špela Arhar Holdt
Marko Robnik-Šikonja
author_sort Timotej Petrič
collection DOAJ
description Med napake pri pisanju v standardni slovenščini sodi raba neustreznega slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine namesto dvojine. Za vrednotenje in spreminjanje besednih oblik v vhodnih povedih smo uporabili standardna orodja za obdelavo naravnega jezika, kot sta oblikoskladenjski označevalnik CLASSLA-Stanza in leksikon besednih oblik Sloleks. Predlagani popravki temeljijo na statistiki besednih oblik pri uporabi napovedovanja maskirane besede z velikim jezikovnim modelom. Zaradi pomanjkanja zadostne količine učnih podatkov smo napovedne modele učili na umetno generiranih napakah. Uspešnost strojnega popravljanja smo najprej ovrednotili na umetnih množicah in korpusu Lektor, kasneje pa še na novoustvarjeni evalvacijski množici Šolar-Eval. Evalvacija na prvih dveh množicah je pokazala visoko uspešnost razvite metodologije (zaznanih več kot 90 % napačno nastavljenih besed), Šolar-Eval pa je razkril mnogo slabšo uspešnost na realističnih podatkih (zaznanih le 29,5 % težav tipa rodilnik-tožilnik in 11,4 % težav tipa dvojina-množina). V celoti rezultati kažejo na nevarnost pretiranega prilagajanja podatkovnim množicam in pomembnost evalvacije na ciljno grajenih avtentičnih podatkih, ki pa so za slovenščino še vedno pomanjkljivi.
format Article
id doaj-art-d56c16ebbc674c5d967d8982915d2f21
institution Kabale University
issn 2335-2736
language English
publishDate 2024-12-01
publisher University of Ljubljana Press (Založba Univerze v Ljubljani)
record_format Article
series Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
spelling doaj-art-d56c16ebbc674c5d967d8982915d2f212025-01-28T12:06:37ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362024-12-0112110.4312/slo2.0.2024.1.106-130Pomembnost realistične evalvacijeTimotej Petrič0Špela Arhar Holdt1Marko Robnik-Šikonja2Univerza v Ljubljani, Fakulteta za računalništvo in informatikoUniverza v Ljubljani, Filozofska fakulteta; Univerza v Ljubljani, Fakulteta za računalništvo in informatikoUniverza v Ljubljani, Fakulteta za računalništvo in informatikoMed napake pri pisanju v standardni slovenščini sodi raba neustreznega slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine namesto dvojine. Za vrednotenje in spreminjanje besednih oblik v vhodnih povedih smo uporabili standardna orodja za obdelavo naravnega jezika, kot sta oblikoskladenjski označevalnik CLASSLA-Stanza in leksikon besednih oblik Sloleks. Predlagani popravki temeljijo na statistiki besednih oblik pri uporabi napovedovanja maskirane besede z velikim jezikovnim modelom. Zaradi pomanjkanja zadostne količine učnih podatkov smo napovedne modele učili na umetno generiranih napakah. Uspešnost strojnega popravljanja smo najprej ovrednotili na umetnih množicah in korpusu Lektor, kasneje pa še na novoustvarjeni evalvacijski množici Šolar-Eval. Evalvacija na prvih dveh množicah je pokazala visoko uspešnost razvite metodologije (zaznanih več kot 90 % napačno nastavljenih besed), Šolar-Eval pa je razkril mnogo slabšo uspešnost na realističnih podatkih (zaznanih le 29,5 % težav tipa rodilnik-tožilnik in 11,4 % težav tipa dvojina-množina). V celoti rezultati kažejo na nevarnost pretiranega prilagajanja podatkovnim množicam in pomembnost evalvacije na ciljno grajenih avtentičnih podatkih, ki pa so za slovenščino še vedno pomanjkljivi. https://journals.uni-lj.si/slovenscina2/article/view/14902strojno slovnično pregledovanjeslovnični sklonslovnično številoveliki jezikovni modelievalvacija
spellingShingle Timotej Petrič
Špela Arhar Holdt
Marko Robnik-Šikonja
Pomembnost realistične evalvacije
Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
strojno slovnično pregledovanje
slovnični sklon
slovnično število
veliki jezikovni modeli
evalvacija
title Pomembnost realistične evalvacije
title_full Pomembnost realistične evalvacije
title_fullStr Pomembnost realistične evalvacije
title_full_unstemmed Pomembnost realistične evalvacije
title_short Pomembnost realistične evalvacije
title_sort pomembnost realisticne evalvacije
topic strojno slovnično pregledovanje
slovnični sklon
slovnično število
veliki jezikovni modeli
evalvacija
url https://journals.uni-lj.si/slovenscina2/article/view/14902
work_keys_str_mv AT timotejpetric pomembnostrealisticneevalvacije
AT spelaarharholdt pomembnostrealisticneevalvacije
AT markorobniksikonja pomembnostrealisticneevalvacije