Trabalho de conclusão de Curso - MAC0499


Informações gerais

Informações

A monografia pode ser baixada clicando aqui

Resumo

REN é uma subárea de Processamento de Linguagem Natural que consiste de classificar palavras ou frases em entidades pré determinadas. Neste trabalho, estudamos os desafios em realizar o refinamento de um modelo BERTimbau para executar essa tarefa. Utilizamos como objeto de estudo o dataset LeNERBr. Analisamos a distribuição de etiquetas no conjunto de dados e constatamos desequilibrio de etiquetas, um problema comum em REN. A performance de refinar um modelo nesse dataset foi analisada em 1 época e 8 épocas, onde constatamos overfitting na classe desbalanceada e saturação de desempenho. Também comparamos a performance de diferentes modelos BERT, em português e inglês, e mostramos como todos eles apresentaram performance similar, sugerindo que o texto jurídico é suficientemente diferente linguisti- camente tanto de português quanto de inglês. Propomos como possível solução a esse problema a inclusão de palavras específicas no vocabulário do tokenizador, ou o pré treino de um modelo BERT em texto jurídico. Durante o trabalho também foi desenvolvido um canal de refinamento que esconde as dificuldades de treino expostas nesse trabalho. O canal de refinamento é agnóstico o bastante a conjuntos de dados de maneira que possa ser adaptado a outros conjuntos.

Link para os slides da apresentação Link para o vídeo da apresentação

Monografia completa

Proposta de TCC