Автоматическая генерация аннотаций научных статей на основе больших языковых моделей

Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций...

Full description

Saved in:
Bibliographic Details
Main Authors: Andrey Golubinskiy, Andrey Tolstykh, Marina Tolstykh
Format: Article
Language:English
Published: Russian Academy of Sciences, St. Petersburg Federal Research Center 2025-01-01
Series:Информатика и автоматизация
Subjects:
Online Access:https://ia.spcras.ru/index.php/sp/article/view/16617
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1832592277826961408
author Andrey Golubinskiy
Andrey Tolstykh
Marina Tolstykh
author_facet Andrey Golubinskiy
Andrey Tolstykh
Marina Tolstykh
author_sort Andrey Golubinskiy
collection DOAJ
description Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей.
format Article
id doaj-art-412cda99292446bcb8b43ae15affeb12
institution Kabale University
issn 2713-3192
2713-3206
language English
publishDate 2025-01-01
publisher Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format Article
series Информатика и автоматизация
spelling doaj-art-412cda99292446bcb8b43ae15affeb122025-01-21T11:27:24ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062025-01-0124127530110.15622/ia.24.1.1016617Автоматическая генерация аннотаций научных статей на основе больших языковых моделейAndrey Golubinskiy0Andrey Tolstykh1Marina Tolstykh2Institute for Information Transmission Problems (Kharkevich Institute) Russian Academy of SciencesOOO “RTK”Moscow State Linguistic UniversityПредложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей.https://ia.spcras.ru/index.php/sp/article/view/16617аннотациягенерациябольшие языковые моделицифровизациямашинное обучение
spellingShingle Andrey Golubinskiy
Andrey Tolstykh
Marina Tolstykh
Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
Информатика и автоматизация
аннотация
генерация
большие языковые модели
цифровизация
машинное обучение
title Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
title_full Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
title_fullStr Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
title_full_unstemmed Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
title_short Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
title_sort автоматическая генерация аннотаций научных статей на основе больших языковых моделей
topic аннотация
генерация
большие языковые модели
цифровизация
машинное обучение
url https://ia.spcras.ru/index.php/sp/article/view/16617
work_keys_str_mv AT andreygolubinskiy avtomatičeskaâgeneraciâannotacijnaučnyhstatejnaosnovebolʹšihâzykovyhmodelej
AT andreytolstykh avtomatičeskaâgeneraciâannotacijnaučnyhstatejnaosnovebolʹšihâzykovyhmodelej
AT marinatolstykh avtomatičeskaâgeneraciâannotacijnaučnyhstatejnaosnovebolʹšihâzykovyhmodelej