Uso de deep learning para a construção de um modelo de recuperação da informação aplicado para o setor de mineração no Brasil

Diante do crescimento exponencial de dados e informações, proporcionado por sensores e mídias sociais, um ecossistema composto por novas infraestruturas de armazenamento e processamento, denominado Big Data, foi desenvolvido. Todo esse desenvolvimento redundou em uma nova área do conhecimento, denom...

Full description

Saved in:
Bibliographic Details
Main Authors: Luander Cipriano de Jesus Falcão, Brenner Lopes, Renato Rocha Souza, Ricardo Rodrigues Barbosa
Format: Article
Language:English
Published: Universidade Federal do Rio Grande do Sul 2024-01-01
Series:Em Questão
Subjects:
Online Access:https://doi.org/10.1590/1808-5245.30.135550
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Diante do crescimento exponencial de dados e informações, proporcionado por sensores e mídias sociais, um ecossistema composto por novas infraestruturas de armazenamento e processamento, denominado Big Data, foi desenvolvido. Todo esse desenvolvimento redundou em uma nova área do conhecimento, denominada Ciência de Dados. Apesar de haver um ecossistema e uma área do conhecimento para tratar esse bloco massivo de dados e informação, o incomodo da superabundância de dados ainda permanece, e se torna mais expressivo quando as empresas tomam consciência que podem usar zetabytes de dados e informações para direcionarem a estratégia e as operações. Baseado nisso, essa pesquisa buscou desenvolver um método para resumir as notícias do setor de mineração do Brasil, identificando o efeito da similaridade semântica na análise, possibilitando a recuperação da informação e uso em processos de compreensão do setor. Nesse método foi aplicado o transformer BERTSUM para sumarizar as notícias, e após sumarizadas o transformer BERT foi aplicado para medir a similaridade entre as notícias. O método permitiu reduzir em 75% todo o bloco de texto, retirar notícias com o mesmo teor semântico, e deduzir que há um padrão no discurso das notícias relacionadas ao setor de mineração.
ISSN:1808-5245