Cirillo Ribeiro Ferreira
Supervisor: Prof. Dr. Alair Pereira do Lago
1 de Dezembro de 2014
Classificação não-supervisionada hierárquica de artigos jornalísticos
A tarefa de classificar e agrupar documentos escritos remonta desde a antiguidade, iniciando-se na criação da primeira biblioteca do mundo em Nínive, Assíria (atual Iraque), por volta do século 7 a.C. Desde então, profissões como bibliotecário, documentarista e arquivista foram criadas para atuar na organização de todo esses documentos que têm sido produzidos.
Porém com a criação da Internet e a popularização de seu uso como ferramenta de comunicação, acabou gerando uma explosão de informações que tornou praticamente impossível a classificação dos novos documentos da maneira manual usual.
A área de classificação de documentos é de grande interesse e possui diversas aplicações práticas como classificação de spam, identificação do idioma utilizado e análise de sentimento, porém, em especial, artigos jornalísticos têm um enorme desafio devido à grande quantidade de documentos que são gerados diariamente e a diversidade de temas abordados, especialmente em blogs, mas que carecem de melhor organização.
Os objetivos com esse trabalho são:
As principais atividades previstas são:
Mar | Abr | Mai | Jun | Jul | Ago | Set | Out | Nov | |
---|---|---|---|---|---|---|---|---|---|
Estudo dos algoritmos de agrupamento | x | x | x | x | |||||
Comparação dos algoritmos de agrupamento quando usados em artigos jornalísticos |
x | x | x | ||||||
Desenvolvimento do protótipo para consulta e visualização dos documentos e suas classes |
x | x | |||||||
Estudo de caso dos artigos do jornalista José de Paiva Netto | x | x | x | ||||||
Monografia | x | x | x | x | x | ||||
Preparação do pôster e apresentação do trabalho | x | x |
Estudo dos seguintes métodos de agrupamento e de extração de características:
1. Agrupamento K-means
É um método de Clustering (agrupamento) não supervisionado que particiona um certo conjunto de dados em k clusters, onde cada um dos um dos dados pertence ao cluster mais próximo da média.
2. Agrupamento hierárquico
É também um método de Clustering não supervisionado que cria um hierarquia de classes ao continuamente fundir os dois grupos mais semelhantes.
Segaran, Toby. Programming collective intelligence : building smart Web 2.0 applications.
Sanjiv K. Bhatia. “Adaptive K-Means Clustering”