Aluno: João Vitor Baldini Soares 1
Orientador: Roberto Marcondes Cesar Junior 1
Colaboradores: Jorge de Jesus Gomes Leandro 1
e Herbert F. Jelinek 2
Os trabalhos foram realizados em conjunto com Jorge de Jesus Gomes Leandro (realizando mestrado pelo Departamento de Ciência da Computação - IME) e Herbert F. Jelinek (professor da Escola de Saúde Pública da Universidade Charles Stuart, Austrália), além do orientador Roberto Marcondes Cesar Junior.
O foco da iniciação científica foi o desenvolvimento de algoritmos eficazes para a segmentação automática de vasos sangüíneos em imagens digitais do fundo óptico. A segmentação dos vasos é a etapa inicial da análise automática de imagens de retina, cujo objetivo é auxiliar os médicos na detecção de doenças. A doença mais preocupante, cujo diagnóstico requer uma análise qualificada e laboriosa, é a retinopatia diabética, uma das causas mais comuns de cegueira em adultos.
Trabalhamos com uma abordagem diferenciada para a segmentação, visando a classificação dos pixels da imagem baseada na transformada wavelet e reconhecimento de padrões. Contudo, tal abordagem toma como base algoritmos de segmentação anteriores, alguns dos quais desenvolvidos pelo próprio grupo junto ao qual o trabalho é realizado.
A classificação utilizada para a segmentação é supervisionada e consiste basicamente em rotular cada pixel das imagens como vaso ou não vaso, com base em suas características. Para tanto, tais características são comparadas com as de padrões adquiridos por treinamento, extraídos de segmentações manuais dos vasos. As características mais importantes usadas para classificar os pixels são obtidas através de transformadas wavelets contínuas aplicadas sobre as imagens. Mais especificamente, utilizamos a wavelet de Morlet (também conhecida como wavelet Gabor), com variadas escalas e parâmetros. As respostas das transformadas são usadas para gerar características dos pixels, a serem usadas para obter as classificações desses pixels, resultando na segmentação desejada.
Durante o ano de 2003 realizei minha iniciação científica, na área de visão e processamento de imagens. Tive a oportunidade de aprender na prática vários conceitos difíceis de adquirir durante o curso, em particular uma introdução a metodologias científicas.
O trabalho foi apresentado no XVII Colóquio de Iniciação Científica do
IME (onde foi realizada uma apresentação oral e entregue um texto para
a ata); no 11
Simpósio Internacional de Iniciação
Científica da USP (para o qual preparei um cartaz); no Simpósio
Brasileiro de Computação Gráfica e Processamento de Imagens de 2003
(no artigo de título ``Blood Vessels Segmentation in Non-Mydriatic
Images using Wavelets and Statistical Classifiers'') e no ``Graefe's
Archive for Clinical and Experimental Ophthalmology''. Para maiores
informações, estas fontes podem ser consultadas.
A iniciação científica tem como objetivo fazer uma segmentação precisa dos vasos sangüíneos presentes em imagens de retina. O objetico de tal segmentação é auxiliar médicos na análise diagnóstica, podendo servir como a primeira fase para uma análise automática das imagens.
A análise de imagens do fundo óptico (figura 1 (a)) é freqüentemente praticada por oftalmologistas para diagnóstico de doenças, incluindo aquelas que provocam anormalidades na fóvea, estrutura vascular, disco óptico e retina. A inspeção dos vasos sangüíneos pode revelar sinais de doenças como hipertensão, diabetes, arteriosclerose, doenças cardiovasculares [7], além da retinopatia diabética. A retinopatia diabética é uma das causas mais comuns de cegueira em adultos e um diagnóstico precoce pode permitir intervenções que evitem grandes perdas visuais [9,12].
![]() ![]() |
Esforços para reduzir o número de pessoas seriamente afetadas pela retinopatia diabética envolvem a obtenção e análise de imagens do fundo óptico de pacientes diabéticos a intervalos regulares (em geral, de seis meses ou um ano). A identificação de anomalias requer uma trabalhosa inspeção de muitas imagens por especialistas e freqüentemente as imagens não apresentam anomalias nas primeiras inspecoes. Tendo em vista essas dificuldades, vários cientistas vêm desenvolvendo métodos computacionais para análise das imagens, para que trabalhadores não especializados possam coletá-las de pacientes diabéticos e rapidamente obter indicadores a respeito da presença de anormalidades. Como exemplo de anormalidades causadas pela retinopatia diabética, temos micro-aneurismas, alterações na estrutura vascular devidas a diminuição na largura dos vasos, obstruções completas dos vasos e neovascularização.
Boa parte da análise automática da vasculatura do fundo óptico está começando a ser realizada usando imagens de câmeras digitais coloridas, do tipo non-mydriatic [6,10] (que não requerem a dilatação forçada da pupila através de colírios), em oposição ao tradicional uso de imagens de fluorescências angiográficas (que requerem injeção de substâncias de características radioativas no sangue). Nesse trabalho, nos concentramos no uso de imagens de câmeras non-mydriatic, uma vez que as imagens de fluorescência só podem ser obtidas por especialistas em clínicas e podem causar efeitos colaterais adversos aos pacientes. Contudo, as idéias principais dos algoritmos são aplicáveis a ambos os tipos de imagens, como veremos.
Será apresentado um novo método cujo ponto de partida foi trabalhos anteriores, baseados na transformada Morlet [6,8], porém introduziremos o uso da análise estatística e reconhecimento de padrões. Uma avaliação automática de possíveis doenças através das imagens do fundo óptico requer uma segmentação precisa dos vasos sangüíneos, para que haja posteriormente a extração e processamento corretos das características desses vasos. Muitos métodos têm sido desenvolvidos para a segmentação, porém buscamos um resultado mais acurado através de uma nova abordagem e tentaremos obter resultados significativos sobre as imagens do tipo non-mydriatic. Ademais, para que trabalhadores comunitários não especializados possam obter resultados sobre imagens captadas, é importante que não haja necessidade de intervenção ou configuração de parâmetros do algoritmo, o que é um dos objetivos do nosso trabalho.
Métodos de segmentação dos vasos baseados na transformada wavelet [8] apresentaram resultados significativos, mostrando que essa transformada é uma ótima ferramenta para a detecção dos vasos. Nesses trabalhos, foram usados morfologia matemática aliada à transformada Morlet. Uma grande dificuldade presente nesses métodos é a escolha dos parâmetros que descrevem as wavelets (em principal sua escala) de tal modo que vasos de diferentes tamanhos e qualidades sejam detectados, ao mesmo tempo que ruídos e outros componentes da imagem não sejam erroneamente caracterizados como vasos. Nossa estratégia procura contornar esse problema ao incluir, entre as características de um pixel a ser classificado, uma série de valores de resposta de transformadas Morlet (de variados parâmetros e escalas) correspondentes à posição daquele pixel. As características usadas para a classificação dos pixels foram o canal verde da imagem (que apresentou o melhor contraste entre vasos e o fundo) e transformadas Morlet desse canal, com diversas escalas e formatos.
De forma genérica, qualquer classificação de objetos requer a
enumeração de suas propriedades, cuja escolha pode depender do
observador e ser bastante subjetiva. Em análise de imagens e padrões,
as propriedades são medidas numéricas extraídas dos objetos através de
ferramentas matemáticas específicas. Dado um conjunto de tais
ferramentas, o processo de extração de características pode ser visto
como uma série de transformações que levam o objeto em suas
características, que denotaremos ;
. Cada
conjunto de características extraído de um objeto representará seu
vetor de características, que deve determinar sua classificação.
Nesse trabalho, os pixels foram vistos como objetos representados
pelas
características descritas a seguir. A classificação é feita
usando classificadores estatísticos e tem como resultado uma das
classes: vaso ou não vaso. O conjunto de treinamento
é obtido através de segmentações desenhadas à mão e é a partir dele
que cada pixel será classificado.
Para reduzir os efeitos de ruídos no precessamento, todas as imagens
foram pré-processadas por um filtro da média de dimensões
. Além disso, dado o formato circular que as imagens possuem,
demarcarcamos uma região de interesse dentro da imagem, assim
desconsiderando a região externa e também sua borda (para evitar
efeitos peculiares que costumam ocorrer por influência da borda).
As imagens que usamos foram obtidas por câmeras coloridas. Vimos (figura 2) que o maior contraste entre os vasos e o resto do fundo óptico estava na componente verde da imagem, enquanto que a vermelha apresentava quase nenhum contraste e a azul mostrava pouca qualidade. Assim, toda a extração de características foi feita sobre o canal verde e o escolhemos para compor o vetor de características, isto é, a intensidade do canal verde de cada pixel foi usada como uma de suas características.
![]() ![]() ![]() |
A transformada contínua wavelet mostra-se como uma poderosa e versátil ferramenta, sendo aplicável a diversos tipos de problemas em processamentos de imagens, desde codificação [11] a análise de formas [3]. As wavelets são adequadas à detecção de singularidades, como bordas em sinais [5], extraindo freqüências instantâneas [1] e realizando análise fractal e multi-fractal. A transformada wavelet usando a wavelet de Morlet, também conhecida como Gabor, tem sido mostrada útil para a segmentação de imagens de fundo óptico em trablhos anteriores [6,8]. Neste trabalho, os resultados foram melhorados ao integrar respostas de diversas escalas, entre outros parâmetros da wavelet.
A notação e as definições usadas seguem [2]. O plano real
é denotado
, e os vetores
por letras em negrito, e.g.
. Seja
uma imagem representada por uma função definida sobre
. A transformada wavelet contínua
é definida como:
onde ,
,
,
e
denotam a constante de normalização, a wavelet analisadora, o vetor de deslocamento, o ângulo de rotação e o parâmetro de dilatação, respectivamente.
denota o complexo conjugado da wavelet analisadora.
Das muitas wavelets analisadoras úteis para processamento de imagens, utilizamos a wavelet Morlet, dada sua capacidade de detectar estruturas em muitas direções e de responder a freqüências específicas. A wavelet Morlet em duas dimensões é definida como:
onde
e
com
.
é uma matriz diagonal
que define o elongamento do
filtro em dada direção. Na equação,
é um vetor que
define a freqüência da exponencial complexa.
![]() ![]() ![]() ![]() |
Ao fixarmos os parâmetros de escala , de dilatação
e de
freqüência
, definimos uma wavelet analisadora
específica (figura 3). Então, para várias
orientações
da equação 1, são computadas as
transformadas Morlet para a wavelet analisadora definida. Utilizamos
variando de 0 a
graus, em passos de
graus. Obtemos, então, uma imagem tomando o máximo dos módulos dessas
respostas sobre as direções (figura 4). Os valores
da imagem formada, serão finalmente usados como característica para os
pixels. Exemplos dessas imagens estão na figura
5. Diferentes imagens de máximo são geradas ao variarmos
os valores de
e
. Cada resposta contida nas imagens pode
ser usada, então, como característica dos pixels para classificação.
![]() ![]() ![]() ![]() |
Para o parâmetro , utilizamos valores maiores que
para
alongar o filtro, e
, fornecendo uma
exponencial de freqüências baixas e em apenas uma dimensão, para que
tenha respostas fortes nas regiões que correspondem a vasos. Em nossos
experimentos, obtivemos 4 respostas da transformada Morlet para cada
pixel, ao variarmos os valores de
e
.
![]() ![]() |
Cada medida usada como característica possui escala e dimensionalidade próprias, o que poderá gerar desigualdade entre a influência de cada característica durante o processo da classificação.
Considerando os elementos do espaço de características como variáveis aleatórias, podemos aplicar uma transformação nesses elementos para obter um novo tipo de variável aleatória relativizada que seja mais apropriada para o processo de classificação.
Um modo de obter uma nova variável aleatória de média zero e desvio padrão unitário, além de tirar a dimensionalidade das características, é a aplicação da transformação normal ao espaço de características, definida como em [3]:
![]() |
(3) |
onde é a
-ésima característica assumida por cada pixel,
é a média dos valores dessa característica e
, seu
desvio padrão.
A classificação supervisionada é aplicada aos pixels de toda a região
de interesse da imagem para a obtenção da classificação, sendo as
classes definidas como
pixels pertencentes a
vasos
e
pixels não pertencentes a
vasos
.
Para a criação do conjunto de treinamento, imagens da retina foram
segmentadas manualmente por um oftalmologista e as características de
seus pixels foram extraídas, permitindo a criação de conjuntos de
treinamento cujos elementos são rotulados como pertencentes a ou
(figura 6). Os métodos usados para a obtenção do
conjunto de treinamento são descrito a seguir.
![]() |
Primeiramente, uma imagem de retina é segmentada manualmente para a obtenção dos rótulos. Um subconjunto de seus pixels é escolhido aleatoriamente para compor o conjunto de treinamento. O conjunto de treinamento é então usado por um classificador para que seja capaz de classificar pixels de outras imagens. A figura 1 (b) mostra a imagem manualmente segmentada que foi usada nesse trabalho. Uma generalização simples desse método seria utilizar várias imagens segmentadas manualmente para a criação do conjunto de treinamento.
Outro modo de criar o conjunto de treinamento, que também foi testado com bons resultados, é de usar apenas uma fração de uma imagem, segmentada manualmente, para treinamento. Os pixels rotulados são então utilizados para treinar o classificador, que deverá ser aplicado à mesma imagem para a obtenção da segmentação final. Esse método poderia ser utilizado para um software semi-automatizado, em que o usuário define alguns pixels pertencentes a vasos e obtém uma segmentação da imagem sem a necessidade de configurar nenhum tipo de parâmetro.
O conjunto de treinamento deverá então ser usado para treinar um classificador. Inicialmente, testamos os três seguintes classificadores: distância mínima ao protótipo; bayesiano (modelando cada classes com uma distribuição gaussiana); k-vizinhos mais próximos. Dentre os três, os melhores resultados foram obtidos pelo classificador dos k-vizinhos mais próximos. Contudo, a classificação usando esse classificador tornou-se muito lenta, dada a grande quantidade de amostras de treinamento e amostras a serem classsificadas. Implementamos então, um outro classificador bayesiano, ao modelar a distribuição de probabilidade de cada uma das classes por um modelo de mistura de distribuições gaussianas [13,4].
O classificador baseado no modelo de misturas mostrou resultados
equivalentes ao classificador k-vizinhos, ao mesmo tempo que foi mais
rápido e permitiu que um volume muito maior de dados fosse usado para
treinamento. Os resultados que serão mostrados foram obtidos por esse
classificador, ao modelarmos a distribuição de probabilidades de cada
classe ( e
) através da soma de 5 gaussianas.
A saída gerada pelo classificador é uma imagem binária onde cada pixel está rotulado com vaso ou não vaso (figura 7). Alguns falsos positivos aparecem na imagem, assemelhando-se a ruídos. Além disso, para alguns vasos, apenas sua parte mais externa foi classificada, o que torna necessário um pós-processamento. Este foi feito utilizando ferramentas morfológicas, para que a segmentação final fosse obtida. Finalmente, a estrutura que deverá ser usada para qualificar os vasos da imagem é o esqueleto da segmentação, obtido através de um algoritmo multi-escala baseado em dilatações e que deverá permitir a análise de suas formas e a comparação entre conjuntos de imagens de fundo óptico de maneira padronizada, por exemplo, para a estimativa da dimensão fractal e outras medidas de formas [6].
O pós-processamento foi feito através de uma série de operações da morfologia matemática, da seguinte forma: primeiramente, é feita uma abertura de áreas para eliminar pequenos componentes ruidosos; em seguida, espaços vazios no interior dos vasos são preenchidos por um fechamento de áreas precedido por uma dilatação; finalmente, a estrutura vascular é extraída na forma de uma esqueleto [3], através de um algoritmo multi-escala baseado em sucessivas dilatações exatas.
![]() ![]() |
Alguns resultados resultados são mostrados na figura 8, de imagens segmentadas obtidas usando a imagem da figura 1(b) para treinar o classificador.
Foram realizados testes para uma série de imagens e uma das maiores falhas em termos de resultados é a apresentação de regiões do disco óptico erroneamente classificadas como vaso (veja as figuras). Outro problema freqüente são os falsos positivos na região da mácula (normalmante localizada no centro das imagens). Há ainda outros desafios, como a segmentação total e correta dos vasos de menor diâmetro e maior tolerância a imagens ruidosas.
![]() ![]() ![]() ![]() ![]() ![]() |
Em áreas rurais e de difícil acesso, há uma falta de especialistas clínicos, enquanto que um resultado inicial da análise do fundo óptico quanto a complicações associadas à diabetes pode ser obtida por trabalhadores comunitários. Como a identificação correta de neo-vascularização é menos de 50% para trabalhadores da saúde [14], métodos automatizados vem sendo desenvolvidos para seu uso em clínicas rurais. Nosso trabalho e o de outros têm investigado a segmentação de imagens angiográficas [8,15] e non-mydriatic [6]. A abordagem descrita aqui apresenta um avanço em relação a resultados anteriores ao reduzir o nível de interação necessária para o programa que faz a segmentação, fornecendo uma ferramenta útil para trabalhadores não especializados como trabalhadores comunitários para o reconhecimento de complicações do fundo óptico associadas à diabetes.
O esqueleto gerado pelo algoritmo deverá ser usado como base para análise através de métodos matemáticos como análise fractal [6] e multi-fractal [10], fornecendo uma quantificaçãao a respeito de neovascularização.
Idéias que temos para melhoria dos métodos e que podem ser usados em trabalhos futuros são: aperfeiçoamento do conjunto de características usadas para classificação; uso de técnicas de rastreamento dos vasos apoiado sobre a abordagem de treinamento e classificação; incorporação de informação de estruturas globais da imagem ao algoritmo.
Nessa seção relato a parte pessoal da realização da iniciação científica, incluindo algumas lições que aprendi, caracterísiticas do trabalho e suas relações com as disiplinas do BCC.
Eu gostei muito de ter realizado a iniciação científica e fico feliz em poder afirmar que minha maior frustração foi não conseguir arrumar mais tempo para realizá-la sem deixar de lado as disciplinas do curso.
O trabalho realizado foi realmente muito desafiador e tenho a impressão de que os maiores frutos da iniciação são os conhecimentos e a experiência adquirida. Em particular, aprendi na prática a importância de uma metodologia científica e como devem ser realizados experimentos e testes.
Comecei também a entender a importância dos trabalhos de pesquisa e interação com pesquisadores da área. Parece-me que na área de visão computacional, essa interação torna-se particularmente importante, uma vez que existe uma convergência de tópicos abordados para a realização de dado trabalho.
Outra coisa que aprendi foi a apresentar e divulgar o trabalho, tendo
participado do XVII Colóquio de Iniciação Científica do IME (onde foi
realizada uma apresentação oral), do 11
Simpósio
Internacional de Iniciação Científica da USP (para o qual preparei um
cartaz) e sendo co-autor nos artigos publicados pelo grupo.
Segue uma lista de disciplinas cursadas relevantes para o trabalho, bem como de que forma os coneceitos estudados nas disciplinas foram aplicados:
Foi muito interessante poder trabalhar com um grupo. A interação mais importante foi com o Roberto Marcondes Cesar Junior (orientador) e o Jorge de Jesus Gomes Leandro (colaborador, realizando mestrado pelo IME).
Normalmente, nos trabalhos realizados em grupo para as disciplinas do BCC, a maior parte do trabalho era realizada em grupo com a presença de todos os membros e uma comunicação muito grande e natural. No trabalho de iniciação científica, tomei consciência da importância da comunicação que fazíamos, uma vez que na iniciação a troca de informações ocorria de forma mais planejada nas reuniões e através de correio eletrônico.
A interação com o Herbert F. Jelinek também foi importante, porém foi menos intensa, dando-se apenas por correio eletrônico. O Herbert dava sugestões e encaminhava os trabalhos de um ponto de vista menos técnico e concentrando nos resultados.
A área de Visão Computacional possui um caráter bastante prático e muitos dos conceitos usados ainda são novos e em desenvolvimento. Para adquirir mais conhecimentos na área, o caminho mais natural seria na área de pesquisa, tanto no meio acadêmico como possivelmente em empresas especializadas.
RMC agradece à FAPESP (99/12765-2) e ao CNPq (300722 / 98-2, 468413 / 00-6). J. Soares agradece ao CNPq (102342/2003-2) e à Fapesp (03/01273-9). HJ estava recebendo uma pequena bolsa CSU (A5141739605). Agradecemos também a contribuição de Graeme Frauenfelder, que forneceu as imagens do tipo non-mydriatic. Dr J. LaNauze da Albury Eye Clinic proveu aconselhamento especializado. Finalmente, Emerson L. N. Tozette nos ajudou com os programas e a revisão bibliográfica.