Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций...
Saved in:
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Russian Academy of Sciences, St. Petersburg Federal Research Center
2025-01-01
|
Series: | Информатика и автоматизация |
Subjects: | |
Online Access: | https://ia.spcras.ru/index.php/sp/article/view/16617 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1832592277826961408 |
---|---|
author | Andrey Golubinskiy Andrey Tolstykh Marina Tolstykh |
author_facet | Andrey Golubinskiy Andrey Tolstykh Marina Tolstykh |
author_sort | Andrey Golubinskiy |
collection | DOAJ |
description | Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей. |
format | Article |
id | doaj-art-412cda99292446bcb8b43ae15affeb12 |
institution | Kabale University |
issn | 2713-3192 2713-3206 |
language | English |
publishDate | 2025-01-01 |
publisher | Russian Academy of Sciences, St. Petersburg Federal Research Center |
record_format | Article |
series | Информатика и автоматизация |
spelling | doaj-art-412cda99292446bcb8b43ae15affeb122025-01-21T11:27:24ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062025-01-0124127530110.15622/ia.24.1.1016617Автоматическая генерация аннотаций научных статей на основе больших языковых моделейAndrey Golubinskiy0Andrey Tolstykh1Marina Tolstykh2Institute for Information Transmission Problems (Kharkevich Institute) Russian Academy of SciencesOOO “RTK”Moscow State Linguistic UniversityПредложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей.https://ia.spcras.ru/index.php/sp/article/view/16617аннотациягенерациябольшие языковые моделицифровизациямашинное обучение |
spellingShingle | Andrey Golubinskiy Andrey Tolstykh Marina Tolstykh Автоматическая генерация аннотаций научных статей на основе больших языковых моделей Информатика и автоматизация аннотация генерация большие языковые модели цифровизация машинное обучение |
title | Автоматическая генерация аннотаций научных статей на основе больших языковых моделей |
title_full | Автоматическая генерация аннотаций научных статей на основе больших языковых моделей |
title_fullStr | Автоматическая генерация аннотаций научных статей на основе больших языковых моделей |
title_full_unstemmed | Автоматическая генерация аннотаций научных статей на основе больших языковых моделей |
title_short | Автоматическая генерация аннотаций научных статей на основе больших языковых моделей |
title_sort | автоматическая генерация аннотаций научных статей на основе больших языковых моделей |
topic | аннотация генерация большие языковые модели цифровизация машинное обучение |
url | https://ia.spcras.ru/index.php/sp/article/view/16617 |
work_keys_str_mv | AT andreygolubinskiy avtomatičeskaâgeneraciâannotacijnaučnyhstatejnaosnovebolʹšihâzykovyhmodelej AT andreytolstykh avtomatičeskaâgeneraciâannotacijnaučnyhstatejnaosnovebolʹšihâzykovyhmodelej AT marinatolstykh avtomatičeskaâgeneraciâannotacijnaučnyhstatejnaosnovebolʹšihâzykovyhmodelej |