Telefone/Ramal: | (98) 2016-8166/8942 |
ESTUDO SEMÂNTICO DE PALAVRAS FORA DO VACABULÁRIO UTILIZANDO REDES NEURAIS RECORRENTES.
PLN; OOV; Redes Neurais; Recorrentes; bidirecional; semelhança por
cosseno; marcação gramatical.
O processo de reconhecimento da escrita de textos computacionais por meio do Proces-
samento de Linguagem Natural (PLN) passa por alguns desafios quando há palavras que
ainda não foram categorizadas, as quais são denominadas Fora do Vocabulário (OOV).
Comumente são conteúdos que fazem uma representação, como gírias locais ou erros de
digitação. Estes tipos de conteúdo têm crescido exponencialmente à medida que a In-
ternet popularizou, fazendo com que as pessoas interajam mais assiduamente através de
textos. Este trabalho apresenta seis modelos a base de Redes Neurais (RN) para o trata-
mento dessas palavras desconhecidas na linguagem portuguesa, que são Redes Neurais
Recorrentes Simples (RNN), bidirecional RNN (BIRNN), Memória Longa de Curto
Prazo (LSTM), bidirecional LSTM (BILSTM), Unidades Recorrentes Fechada (GRU)
e bidirecional GRU (BIGRU). Foi realizado treinamentos com os modelos citados utili-
zando três bases distintas, porém ambas na linguagem portuguesa. Após o treinamento,
foi feito uma função que fosse capaz de categorizar as OOVs, criando vetores válidos.
Além disso, o significado delas também foi verificado utilizando a semelhança por cos-
seno e a marcação gramatical. Com todos os testes, foi possível obter uma acurácia de
99,99% com uma das bases utilizando o modelo GRU.