Towards an Estonian dataset on document-level subjectivity

This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics an...

Full description

Saved in:
Bibliographic Details
Main Authors: Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts
Format: Article
Language:English
Published: University of Tartu Press 2025-06-01
Series:Eesti ja Soome-ugri Keeleteaduse Ajakiri
Subjects:
Online Access:https://ojs.utlib.ee/index.php/jeful/article/view/24547
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1850119664751869952
author Karl Gustav Gailit
Kadri Muischnek
Kairit Sirts
author_facet Karl Gustav Gailit
Kadri Muischnek
Kairit Sirts
author_sort Karl Gustav Gailit
collection DOAJ
description This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics and formal semantics, as well as natural ­ language processing where computational methods are used to create models for detecting subjectivity, often for further processing. However, many of these models could be improved, and for some it is questionable whether they classify subjectivity or something else, such as text genre. These issues are caused by the datasets these models are trained on, from the text collection method to the unnuanced labels of “objective” and “subjective”. To solve this issue, we propose a dataset of documents from various registers with annotations for subjectivity with a scalar value, where zero represents a fully objective document and one a subjective document. Kokkuvõte. Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts: Eestikeelse terviktekstide subjektiivsuse andmestiku suunas. Artikkel selgitab eestikeelse subjektiivsuse andmestiku loomise ettevalmistavat sammu, andes seejuures ülevaate varasematest subjektiivsuse käsitlustest ning teoreetilise aluse andmestiku koostamiseks. Subjektiivsust on käsitletud mitmes lingvistika harus, sh pragmaatikas ja formaalses semantikas, aga ka loomuliku keele töötluses, kus kasutatakse arvutuslikke meetodeid, et luua mudeleid subjektiivsuse tuvastamiseks, mille eesmärk on sageli andmestiku edasi töötlemine. Mitut sellist mudelit on võimalik edasi arendada, mitme puhul tekib aga küsimus, kas need klassifitseerivad subjektiivsust või midagi muud, näiteks žanrit. Probleemid on tingitud andmestikest, mille peal on mudelid treenitud, kuidas tekste on kogutud ning sellest, et sildid „objektiivne“ ja „subjektiivne“ on jäigad. Nimetatud probleemide lahendamiseks pakume välja andmestiku, mis sisaldab tekste mitmest registrist ning mis on märgendatud arvuliste subjektiivsuse hinnangutega, kus null tähistab objektiivset teksti ning üks subjektiivset teksti.
format Article
id doaj-art-e2f1fd1fcbd94d0d9ecfdcf8663ecbd9
institution OA Journals
issn 1736-8987
2228-1339
language English
publishDate 2025-06-01
publisher University of Tartu Press
record_format Article
series Eesti ja Soome-ugri Keeleteaduse Ajakiri
spelling doaj-art-e2f1fd1fcbd94d0d9ecfdcf8663ecbd92025-08-20T02:35:34ZengUniversity of Tartu PressEesti ja Soome-ugri Keeleteaduse Ajakiri1736-89872228-13392025-06-0116110.12697/jeful.2025.16.1.05Towards an Estonian dataset on document-level subjectivityKarl Gustav Gailit0Kadri Muischnek1Kairit Sirts2University of TartuUniversity of TartuUniversity of Tartu This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics and formal semantics, as well as natural ­ language processing where computational methods are used to create models for detecting subjectivity, often for further processing. However, many of these models could be improved, and for some it is questionable whether they classify subjectivity or something else, such as text genre. These issues are caused by the datasets these models are trained on, from the text collection method to the unnuanced labels of “objective” and “subjective”. To solve this issue, we propose a dataset of documents from various registers with annotations for subjectivity with a scalar value, where zero represents a fully objective document and one a subjective document. Kokkuvõte. Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts: Eestikeelse terviktekstide subjektiivsuse andmestiku suunas. Artikkel selgitab eestikeelse subjektiivsuse andmestiku loomise ettevalmistavat sammu, andes seejuures ülevaate varasematest subjektiivsuse käsitlustest ning teoreetilise aluse andmestiku koostamiseks. Subjektiivsust on käsitletud mitmes lingvistika harus, sh pragmaatikas ja formaalses semantikas, aga ka loomuliku keele töötluses, kus kasutatakse arvutuslikke meetodeid, et luua mudeleid subjektiivsuse tuvastamiseks, mille eesmärk on sageli andmestiku edasi töötlemine. Mitut sellist mudelit on võimalik edasi arendada, mitme puhul tekib aga küsimus, kas need klassifitseerivad subjektiivsust või midagi muud, näiteks žanrit. Probleemid on tingitud andmestikest, mille peal on mudelid treenitud, kuidas tekste on kogutud ning sellest, et sildid „objektiivne“ ja „subjektiivne“ on jäigad. Nimetatud probleemide lahendamiseks pakume välja andmestiku, mis sisaldab tekste mitmest registrist ning mis on märgendatud arvuliste subjektiivsuse hinnangutega, kus null tähistab objektiivset teksti ning üks subjektiivset teksti. https://ojs.utlib.ee/index.php/jeful/article/view/24547subjectivity analysissubjectivitydatasetscorporaEstonianNLP
spellingShingle Karl Gustav Gailit
Kadri Muischnek
Kairit Sirts
Towards an Estonian dataset on document-level subjectivity
Eesti ja Soome-ugri Keeleteaduse Ajakiri
subjectivity analysis
subjectivity
datasets
corpora
Estonian
NLP
title Towards an Estonian dataset on document-level subjectivity
title_full Towards an Estonian dataset on document-level subjectivity
title_fullStr Towards an Estonian dataset on document-level subjectivity
title_full_unstemmed Towards an Estonian dataset on document-level subjectivity
title_short Towards an Estonian dataset on document-level subjectivity
title_sort towards an estonian dataset on document level subjectivity
topic subjectivity analysis
subjectivity
datasets
corpora
Estonian
NLP
url https://ojs.utlib.ee/index.php/jeful/article/view/24547
work_keys_str_mv AT karlgustavgailit towardsanestoniandatasetondocumentlevelsubjectivity
AT kadrimuischnek towardsanestoniandatasetondocumentlevelsubjectivity
AT kairitsirts towardsanestoniandatasetondocumentlevelsubjectivity