Towards an Estonian dataset on document-level subjectivity

This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics an...

Full description

Saved in:

Bibliographic Details
Main Authors:	Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts
Format:	Article
Language:	English
Published:	University of Tartu Press 2025-06-01
Series:	Eesti ja Soome-ugri Keeleteaduse Ajakiri
Subjects:	subjectivity analysis subjectivity datasets corpora Estonian NLP
Online Access:	https://ojs.utlib.ee/index.php/jeful/article/view/24547
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1850119664751869952
author	Karl Gustav Gailit Kadri Muischnek Kairit Sirts
author_facet	Karl Gustav Gailit Kadri Muischnek Kairit Sirts
author_sort	Karl Gustav Gailit
collection	DOAJ
description	This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics and formal semantics, as well as natural language processing where computational methods are used to create models for detecting subjectivity, often for further processing. However, many of these models could be improved, and for some it is questionable whether they classify subjectivity or something else, such as text genre. These issues are caused by the datasets these models are trained on, from the text collection method to the unnuanced labels of “objective” and “subjective”. To solve this issue, we propose a dataset of documents from various registers with annotations for subjectivity with a scalar value, where zero represents a fully objective document and one a subjective document. Kokkuvõte. Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts: Eestikeelse terviktekstide subjektiivsuse andmestiku suunas. Artikkel selgitab eestikeelse subjektiivsuse andmestiku loomise ettevalmistavat sammu, andes seejuures ülevaate varasematest subjektiivsuse käsitlustest ning teoreetilise aluse andmestiku koostamiseks. Subjektiivsust on käsitletud mitmes lingvistika harus, sh pragmaatikas ja formaalses semantikas, aga ka loomuliku keele töötluses, kus kasutatakse arvutuslikke meetodeid, et luua mudeleid subjektiivsuse tuvastamiseks, mille eesmärk on sageli andmestiku edasi töötlemine. Mitut sellist mudelit on võimalik edasi arendada, mitme puhul tekib aga küsimus, kas need klassifitseerivad subjektiivsust või midagi muud, näiteks žanrit. Probleemid on tingitud andmestikest, mille peal on mudelid treenitud, kuidas tekste on kogutud ning sellest, et sildid „objektiivne“ ja „subjektiivne“ on jäigad. Nimetatud probleemide lahendamiseks pakume välja andmestiku, mis sisaldab tekste mitmest registrist ning mis on märgendatud arvuliste subjektiivsuse hinnangutega, kus null tähistab objektiivset teksti ning üks subjektiivset teksti.
format	Article
id	doaj-art-e2f1fd1fcbd94d0d9ecfdcf8663ecbd9
institution	OA Journals
issn	1736-8987 2228-1339
language	English
publishDate	2025-06-01
publisher	University of Tartu Press
record_format	Article
series	Eesti ja Soome-ugri Keeleteaduse Ajakiri
spelling	doaj-art-e2f1fd1fcbd94d0d9ecfdcf8663ecbd92025-08-20T02:35:34ZengUniversity of Tartu PressEesti ja Soome-ugri Keeleteaduse Ajakiri1736-89872228-13392025-06-0116110.12697/jeful.2025.16.1.05Towards an Estonian dataset on document-level subjectivityKarl Gustav Gailit0Kadri Muischnek1Kairit Sirts2University of TartuUniversity of TartuUniversity of Tartu This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics and formal semantics, as well as natural language processing where computational methods are used to create models for detecting subjectivity, often for further processing. However, many of these models could be improved, and for some it is questionable whether they classify subjectivity or something else, such as text genre. These issues are caused by the datasets these models are trained on, from the text collection method to the unnuanced labels of “objective” and “subjective”. To solve this issue, we propose a dataset of documents from various registers with annotations for subjectivity with a scalar value, where zero represents a fully objective document and one a subjective document. Kokkuvõte. Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts: Eestikeelse terviktekstide subjektiivsuse andmestiku suunas. Artikkel selgitab eestikeelse subjektiivsuse andmestiku loomise ettevalmistavat sammu, andes seejuures ülevaate varasematest subjektiivsuse käsitlustest ning teoreetilise aluse andmestiku koostamiseks. Subjektiivsust on käsitletud mitmes lingvistika harus, sh pragmaatikas ja formaalses semantikas, aga ka loomuliku keele töötluses, kus kasutatakse arvutuslikke meetodeid, et luua mudeleid subjektiivsuse tuvastamiseks, mille eesmärk on sageli andmestiku edasi töötlemine. Mitut sellist mudelit on võimalik edasi arendada, mitme puhul tekib aga küsimus, kas need klassifitseerivad subjektiivsust või midagi muud, näiteks žanrit. Probleemid on tingitud andmestikest, mille peal on mudelid treenitud, kuidas tekste on kogutud ning sellest, et sildid „objektiivne“ ja „subjektiivne“ on jäigad. Nimetatud probleemide lahendamiseks pakume välja andmestiku, mis sisaldab tekste mitmest registrist ning mis on märgendatud arvuliste subjektiivsuse hinnangutega, kus null tähistab objektiivset teksti ning üks subjektiivset teksti. https://ojs.utlib.ee/index.php/jeful/article/view/24547subjectivity analysissubjectivitydatasetscorporaEstonianNLP
spellingShingle	Karl Gustav Gailit Kadri Muischnek Kairit Sirts Towards an Estonian dataset on document-level subjectivity Eesti ja Soome-ugri Keeleteaduse Ajakiri subjectivity analysis subjectivity datasets corpora Estonian NLP
title	Towards an Estonian dataset on document-level subjectivity
title_full	Towards an Estonian dataset on document-level subjectivity
title_fullStr	Towards an Estonian dataset on document-level subjectivity
title_full_unstemmed	Towards an Estonian dataset on document-level subjectivity
title_short	Towards an Estonian dataset on document-level subjectivity
title_sort	towards an estonian dataset on document level subjectivity
topic	subjectivity analysis subjectivity datasets corpora Estonian NLP
url	https://ojs.utlib.ee/index.php/jeful/article/view/24547
work_keys_str_mv	AT karlgustavgailit towardsanestoniandatasetondocumentlevelsubjectivity AT kadrimuischnek towardsanestoniandatasetondocumentlevelsubjectivity AT kairitsirts towardsanestoniandatasetondocumentlevelsubjectivity

Towards an Estonian dataset on document-level subjectivity

Similar Items