Proposta de trabalho

Cirillo Ribeiro Ferreira

Supervisor: Prof. Dr. Alair Pereira do Lago

1 de Dezembro de 2014

Tema

Classificação não-supervisionada hierárquica de artigos jornalísticos

Introdução

A tarefa de classificar e agrupar documentos escritos remonta desde a antiguidade, iniciando-se na criação da primeira biblioteca do mundo em Nínive, Assíria (atual Iraque), por volta do século 7 a.C. Desde então, profissões como bibliotecário, documentarista e arquivista foram criadas para atuar na organização de todo esses documentos que têm sido produzidos.

Porém com a criação da Internet e a popularização de seu uso como ferramenta de comunicação, acabou gerando uma explosão de informações que tornou praticamente impossível a classificação dos novos documentos da maneira manual usual.

A área de classificação de documentos é de grande interesse e possui diversas aplicações práticas como classificação de spam, identificação do idioma utilizado e análise de sentimento, porém, em especial, artigos jornalísticos têm um enorme desafio devido à grande quantidade de documentos que são gerados diariamente e a diversidade de temas abordados, especialmente em blogs, mas que carecem de melhor organização.

Objetivos

Os objetivos com esse trabalho são:

  1. Criação de uma biblioteca para agrupamento de artigos jornalísticos.
  2. Proposta e implementação do sistema hVINA (Hierarchical Viewer of News Articles) para análise de agrupamento de artigos jornalísticos.

Cronograma

As principais atividades previstas são:

Mar Abr Mai Jun Jul Ago Set Out Nov
Estudo dos algoritmos de agrupamento x x x x
Comparação dos algoritmos de agrupamento
quando usados em artigos jornalísticos
x x x
Desenvolvimento do protótipo para consulta e visualização
dos documentos e suas classes
x x
Estudo de caso dos artigos do jornalista José de Paiva Netto x x x
Monografia x x x x x
Preparação do pôster e apresentação do trabalho x x

Atividades já realizadas

Estudo dos seguintes métodos de agrupamento e de extração de características:

Referências

Segaran, Toby. Programming collective intelligence : building smart Web 2.0 applications.

Sanjiv K. Bhatia. “Adaptive K-Means Clustering”