UNIVERSIDADE FEDERAL DE UBERLÂNDIA Arthur Henrique Soares Marçal Investigando modelos de cores com operadores LBP para Imagens de Linfoma Uberlândia - MG 2015 UNIVERSIDADE FEDERAL DE UBERLÂNDIA Arthur Henrique Soares Marçal Investigando modelos de cores com operadores LBP para Imagens de Linfoma Trabalho de conclusão de curso apresentado à Faculdade de Computação da Universidade Federal de Uberlândia, Minas Gerais, como requisito exigido parcial à obtenção do grau de Bacharel em Ciência da Computação. Orientador: Professor Marcelo Zanchetta do Nascimento Uberlândia - MG 2015 Arthur Henrique Soares Marçal Investigando modelos de cores com operadores LBP para Imagens de Linfoma Trabalho de conclusão de curso apresentado à Faculdade de Computação da Universidade Federal de Uberlândia, Minas Gerais, como requisito exigido parcial à obtenção do grau de Bacharel em Ciência da Computação. Trabalho aprovado. Uberlândia - MG, 10 de julho de 2015: Professor Marcelo Zanchetta do Nascimento Orientador Professor Professor Uberlândia - MG 2015 Sumário Lista de ilustrações . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 1.2 1.2.1 1.3 INTRUDUÇÃO . . . . . . Motivação e Justificativa Objetivos . . . . . . . . . Objetivos Específicos . . . . Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 . 8 . 9 . 9 . 10 2 2.1 2.2 2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.4 2.5 2.6 2.7 2.7.1 2.7.2 2.7.3 2.8 2.8.1 2.8.2 FUNDAMENTAÇÃO TEÓRICA Linfoma . . . . . . . . . . . . . . Processamento de Imagens . . . Aquisição . . . . . . . . . . . . . Modelo de Cores . . . . . . . . . . Modelo RGB . . . . . . . . . . . . Modelo HSV . . . . . . . . . . . . Modelo L*a*b* . . . . . . . . . . . Pré-processamento . . . . . . . . Segmentação . . . . . . . . . . . Extração de características . . . Texturas . . . . . . . . . . . . . . Abordagem estatística . . . . . . . Abordagem espectral . . . . . . . . Abordagem estrutural . . . . . . . . Padrão Binário Local . . . . . . . Padrões Binários Locais Completos . Classificador de Texturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 14 14 14 15 15 17 18 19 19 20 20 21 21 22 25 26 3 3.1 3.2 3.2.1 3.2.2 3.3 3.3.1 3.3.2 3.3.3 METODOLOGIA . . . Visão Geral . . . . . . . Materiais . . . . . . . . . Banco de Imagens . . . . Ambiente computacional . Métodos . . . . . . . . . Pré-processamento . . . . Extração de Características Avaliação dos Descritores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 29 29 29 29 29 30 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 . . . . . . . . . . . . . . . . . . 4 4.1 4.2 4.3 RESULTADOS . . . . . . . . . . . . Introdução . . . . . . . . . . . . . . . Padrões Binários Locais . . . . . . . Padrões Binários Locais Completos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 32 32 34 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Resumo Esse projeto apresenta um método para classificação de diferentes tipos de linfoma com uso de descritores de textura baseado em operadores Local Binary Pattern (LBP), Completed Local Binary Pattern(CLBP). O método proposto é baseado na conversão de imagens do modelo RGB para os modelos HSV e L*a*b* e a aplicação de operadores LBP e a aproximação. Para avaliação das informações obtidas, a técnica 10-fold cross validation foi utilizada com o classificador Support Vector Machine (SVM) e variações do kernel, linear e RBF. O estudo foi realizado em imagens histológicas de linfonodos, oriundos de estudos realizados por pesquisadores americanos do Instituto Nacional do Câncer e Instituto Nacional do Envelhecimento. Para quantificar o método proposto aplicou-se as métricas acurácia, sensibilidade e especificidade. Palavras-chave: linfoma, LBP, CLBP, SVM, textura. Lista de ilustrações Figura 1 – Exemplo de imagem histológica de um linfonodo com Linfoma Folicular Fonte:(SHAMIR et al., 2008). . . . . . . . . . . . . . . . . . . . . . . . Figura 2 – Exemplo de imagem histológica de um linfonodo com Linfoma de Células do Manto Fonte:(SHAMIR et al., 2008). . . . . . . . . . . . . . . Figura 3 – Exemplo de imagem histológica de um linfonodo com Leucemia Linfocítica Crônica Fonte:(SHAMIR et al., 2008). . . . . . . . . . . . . . . . Figura 4 – Diagrama tridimensional: modelo de cores RGB . . . . . . . . . . . . . Figura 5 – Diagrama: modelo de cores HSV . . . . . . . . . . . . . . . . . . . . . Figura 6 – Diagrama Lab e suas componentes . . . . . . . . . . . . . . . . . . . . Figura 7 – Cálculo do Texture Unit Fonte: (HE; WANG, 1990). . . . . . . . . . . Figura 8 – Disposição da vizinhaça para o cálculo do TU Fonte: (HE; WANG, 1990). Figura 9 – Cálculo dos Padrões Binários Locais . . . . . . . . . . . . . . . . . . . Figura 10 – Perímetro circular de um pixel - LBP - Fonte: (OJALA; PIETIKäINEN; MäENPää, 2002). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 11 – Mapeamento do espaço de entrada num espaço de dimensão mais elevada com separação linear entre as classes. fonte: (HAYKIN; NETWORK, 2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 12 – A margem 𝑝 entre os hiperplanos 𝐻1 𝐻2 fonte: (CAMPBELL, 2001). . Figura 13 – Diagrama da metodologia proposta neste trabalho. . . . . . . . . . . . Figura 14 – Resultados obtidos para os diferentes modelos de cores com o descritor LBP e classificador SVM e kernel linear. . . . . . . . . . . . . . . . . . Figura 15 – Valores das métricas para os modelos de cores analisados com LBP e classificador SVM e kernel linear: (a) sensibilidade e (b) especificidade. Figura 16 – Acurácia para os diferentes modelos de cores com o descritor LBP e classificador SVM e kernel rbf. . . . . . . . . . . . . . . . . . . . . . . Figura 17 – Classificador SVM e kernel RBF: (a) sensibilidade e (b) especificidade. Figura 18 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel linear. . . . . . . . . . . . . . . . . Figura 19 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel linear. . . . . . . . . . . . . . . . . Figura 20 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel RBF. . . . . . . . . . . . . . . . . Figura 21 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel RBF: (a) sensibilidade e (b) especificadade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 13 15 16 18 23 23 24 25 27 27 28 33 33 34 34 35 35 36 36 Lista de abreviaturas e siglas HL Linfoma de Hodgkins NHL Linfoma de não-Hodgkins LBP Padrões Locais Binários(Local Binary Pattern) CLBP Padrões Locais Binários Completos (Completed Local Binary Pattern) LLC Leucemia Linfóide Crônica LF Linfoma Folicular LCM Linfoma de Células Manto INCA Instituto Nacional de Cancêr SVM Máquinas de vetores de suporte TU Unidade de Textura CTU Código de Unidade de Textura 1 Introdução 1.1 Motivação e Justificativa Uma das doenças que cresce a cada ano é o câncer, que de acordo com o Instituto Nacional de Câncer (INCA), entre 2003 e 2012, a taxa de mortalidade médio em homens passou de 103,12 para 104,95 para cada grupo de 100 mil homens e em mulheres o índice passou de 72,5 para 75,19 no período para cada 100 mil mulheres. Dentre todos os tipos de câncer, destaca-se o Linfoma como um doença mais complexa visto que ataca o sistema de defesa do corpo. Os tumores do linfoma podem ser subdivididos em dois principais tipos: Hodgkins (do inglês Hodgkins Lymphoma - HL) e não-Hodgkins ( do inglês Non-Hodgkins Lymphoma - NHL). De acordo com o relatório do INCA publicado em 2014 estima-se 4.940 novos casos em homems e 4.850 em mulheres de NLH. A análise histológica realizada por microscópio é ainda um dos principais procedimentos usados para o diagnóstico, que feita num estagio prévio da doença, auxilia a sobrevida e qualidade de vida do paciente. Porém nem sempre essa análise é realizada corretamente, pois depende do conhecimento do especialista que muitas vezes está sobrecarregado ou carece de experiência profissional (RANGAYYAN; AYRES; DESAUTELS, 2007). Assim vem-se desenvolvendo tecnologias que permitem o uso de câmeras digitais em microscópio com o propósito de explorar a análise de imagens digitais de histologia. Com o uso de sistema computacionais permitiu-se o uso de técnicas de processamento de imagens, reconhecimento de padrões e algoritmos para a classificações de padrões. Mesmo havendo um grande desenvolvimento na área de imagens médicas ainda há bastante diversidades e complicações na análise por sistemas computacionais de anormalidades em imagens de tecidos histológicos. Dentre muitos requisitos para o diagnóstico do linfoma destaca-se como pré-requisito a identificação de certas estruturas, tais como glândulas, linfócitos e núcleos de cancêr (GURCAN et al., 2009). Também chamada de segmentação, esse reconhecimento das estruturas pode ser realizado manualmente ou por um sistema CAD (Computer Aided Diagnosis) cujas técnicas pode ser desempenhadas de forma automática ou por um especialista. Dentre as etapas do sistema CAD destaca-se os algoritmos de extração de características, etapa fundamental para o êxito das próximas etapas, no qual tem-se observado um evolução da técnicas em inúmeros trabalhos, tais quais: (NEVES et al., 2014) (NASCIMENTO; RAMOS, 2008). Essas características da imagem podem ser divididas em morfológicas quando se tratam de estruturas tais como forma, tamanho entre ou- tras ou não morfológicas, cuja representação está relacionada as propriedades internas da imagens como por exemplo os pixels e os níveis de cinza. Em consequência da dificuldade de interpretação humana dos descritores não morfológicos, por exemplo a análise dos graus de variações de níveis de cinza, vem-se estudando técnicas para a representação das características da imagem sendo a textura bastante investigada em imagens médicas. O uso dos recursos de textura, fornece informações, tais como distribuição espacial, mudança de brilho e uma descrição detalhada relativa ao arranjo estrutural da superfície (PEDRINI; SCHWARTZ, 2008). Na área de visão computacional, o estudo de texturas é bastante relevante, visto a grande dificuldade na busca de um descritor de texturas eficaz devido à complexidade e multiplicidade da área estudada. Portanto, existe na literatura um número elevado de métodos para análise de informações de textura em uma imagem. Nesse grupo, temse técnicas baseadas em abordagens estatísticas, espectrais e estruturais. Dentre todas as abordagem se destaca o operador LBP, pois mesmo sendo um operador de textura simples, é eficiente pois unifica modelos estatísticos e estruturais, tradicionalmente divergentes na análise de textura. Se tratando de aplicações do mundo real, o LBP tem como característica principal sua consistência contra variações de níveis de cinza monotônicas causadas, por exemplo, por variações de iluminação. Outro ponto positivo é a sua simplicidade computacional, o que torna possível analisar imagens de difícil processamento, em ambientes em tempo real. Em suma, técnicas da área da visão computacional podem auxiliar muito a análise e diagnóstico, por meio de imagens histólogicas, de inúmeros tipos de cancêr. 1.2 Objetivos Neste projeto pretende-se investigar operadores LBP para a extração de características em diferentes modelos de cores avaliando seu desempenho na classificação de anormalidades presentes em imagens histológicas de linfoma. 1.2.1 Objetivos Específicos ∙ Desenvolver algoritmos para a conversão dos modelos de cores RGB, HSV e L*a*b*; ∙ Investigar algoritmos para a extração de características texturais com operadores LBP e CLBP; ∙ Avaliar os descritores de textura com algoritmo de classificação SVM e variações do kernel; ∙ Quantificar os experimentos por meio de métricas como sensibilidade, especificidade e área ROC; ∙ Qualificar o desempenho do método proposto. 1.3 Organização do Trabalho O trabalho está estruturado na seguinte forma: Capítulo 1: Introdução do trabalho apresentando a justificativa e motivação do projeto estudado e os objetivos da pesquisa; Capítulo 2: Apresentação da fundamentação teórica para entendimento e desenvolvimento do projeto; Capítulo 3: Metodologia para o desenvolvimento do projeto como, processamento digital de imagens, método de extração de características e classificação. Capítulo 4: Exposição dos resultados quantitativos dos experimentos executados e a comparação da metodologia com a análise dos dados; Capítulo 5: São apresentados as principais conclusões dos experimentos realizados e técnicas avaliadas no projeto. 2 Fundamentação Teórica 2.1 Linfoma Composto de células isoladas ou estruturadas e distribuídas pelo corpo, o sistema imunitário é responsável pela defesa, detecção e distinção de microrganismos e moléculas estranhas ou toxinas produzidas por microrganismos invasores. Tal distinção é possível devido à diferença das cadeias de proteínas entre células do corpo e células cancerosas ou agressoras. Logo que o sistema detecta possíveis agressores, o sistema imunitário gerencia a destruição ou inativação. Os órgãos linfáticos tais como timo, baço, linfonodos e nódulos linfáticos são as principais estruturas de defesa do sistema linfático. Dos tipos básicos de resposta imunitária temos a imunidade celular e a imunidade humoral, sendo que a primeira as células imunocompetentes, são elas que reagem e matam outras células estranhas ao organismo, por exemplo, bactérias, células cancerosas ou infectadas por vírus e células transplantadas. A segunda é o tipo de imunidade adquirida, que é obtida através de anticorpos cuja função é neutralizar moléculas estranhas. Originadas na medula óssea fetal, os linfócitos são divididos basicamente em dois tipos: os linfócitos B e os linfócitos T. Normalmente, os linfócitos B ficam maturados na medula óssea, ao passo que os linfócitos T migram para o timo para passarem pelo processo de maturação e seleção. Após a maturação, os linfócitos entram na corrente sanguínea, e se reúnem em tecidos linfóides. As células B e T diferenciam ainda mais quando se deparam com antígeno, formando linfócitos efetores e de memória que aumentam ainda mais a imunidade adquirida. O linfoma forma um grupo de neoplasmas em que as células malignas são derivadas de linfócitos, originando-se na medula óssea, e podem ser classificados em duas categorias: os Linfomas de Hodgkin (LH) e os Linfomas de não-Hodgkin (LNH). O mais comum deles é o LNH, que de acordo com o INCA foi estimado 4.940 casos novos de linfoma não Hodgkin (LNH) em homens e 4.850 em mulheres para o Brasil, no ano de 2014. Tais valores correspondem a um risco estimado de 5,04 casos novos a cada 100 mil homens e 4,77 a cada 100 mil mulheres. Esses números só vêm crescendo nos últimos vinte anos e não se sabe ao certo qual a sua causa, porém o surgimento da doença apresenta um risco que pode aumentar em pacientes com sistema imune já comprometido (INCA, 2014). No Brasil, o INCA apresentou em seu relatório que paciente com LNH apresenta um análise clínica muito variável sendo que das 40 formas LNH diferentes, somente 10 são mais comuns e abrange mais que 80% dos pacientes com linfoma. Na prática, é muitas vezes mais simples descrever a doença para o paciente como assintomático ou agressivo. Dentre os LNH assintomáticos, existem três tipos de anormalidades consideradas mais expressivas: o Linfoma Folicular (LF), o Linfoma de Células do Manto (LCM) e Leucemia Linfocítica Crônica (LLC). O subtipo mais comum é o LF tomando 20% dos casos de LNH. Na Figura 1 é apresentado uma imagem exemplo de FL. A apresentação padrão é indolor dessa forma o linfoma pode ter estado presente durante algum tempo antes que o paciente procure atendimento médico. A maioria dos pacientes apresentam a doença em estágio avançado quando diagnosticado. Figura 1 – Exemplo de imagem histológica de um linfonodo com Linfoma Folicular Fonte:(SHAMIR et al., 2008). O LCM que, embora muitas vezes agrupados como linfoma assintomático, tem uma chance significativamente pior de sobrevivência, de 5 anos em cerca de 40% dos casos. Na Figura 2 é apresentado um caso com o linfoma de célula manto. Geralmente, apresenta-se com uma doença em estágio avançado volumosa e envolvimento da medula óssea. Histologicamente, os tumores correspondem a um infiltrado monomórfica de células pequenas ou médias com zonas expandidos do manto. Para aqueles pacientes apto o suficiente para passar por quimioterapia intensiva e transplante de células estaminais, há chances globais de sobrevivência superior a 10 anos conforme casos relatados de uma proporção de pacientes que estão sendo curado de sua doença (LOWRY; LINCH, 2013). Já o LLC, que na maioria das vezes ataca pacientes homens mais de 65 anos, é mais frequente em países ocidentais, tem como característica a acumulação neoplástica e ploriferação clonal. O curso da doença é variável, visto que, enquanto alguns pacientes levam uma vida normal, outros morrem 5 anos depois de diagnosticado a doença (DÖHNER et al., 2000). Na Figura 3 é mostrado uma imagem histológica com o LCC. Figura 2 – Exemplo de imagem histológica de um linfonodo com Linfoma de Células do Manto Fonte:(SHAMIR et al., 2008). Figura 3 – Exemplo de imagem histológica de um linfonodo com Leucemia Linfocítica Crônica Fonte:(SHAMIR et al., 2008). É essencial para o diagnóstico adequado dos LNH, diversos tipos de exames, nos quais permitem definir o tipo certo de linfoma e outras informações, que ajudam para decisão da forma mais eficiente de tratamento a ser aplicado. Porém devido a grande carga de trabalho e os diferentes níveis de experiência dos especialistas erros podem ocorrer durante esse processo de avaliação. Com os avanços tecnológicos, os microscópios são equipados por câmeras digitais que permite capturar as imagens para ampliação de regiões e análise mais precisa dessas estruturas. Também com o uso de algoritmos computacionais e uso de processamento de imagens novas soluções vem sendo propostas com objetivo de auxiliar os especialista nessa tarefa. 2.2 Processamento de Imagens Na área médica, o processamento digital de imagens vem progredindo muito nos últimos anos, destacando-se o estudo de imagens histológicas como um grande contribuidor para o avanço de varias fases do processamento de imagens digitais (GURCAN et al., 2006). Pela definição, o processamento de imagens são técnicas e métodos utilizados em diferentes contextos com o propósito de facilitar o ser humano na observação e detecção de informações relevantes em imagens em várias aplicações. Tratando-se de imagens médicas, o processamento de imagens auxilia nas varias fases do diagnóstico de variados tipos de câncer. Dentre elas, tem-se a aquisição de imagem, pré-processamento, segmentação, extração de características e classificação de padrões. 2.3 Aquisição A primeira etapa é a aquisição da imagem onde realiza-se a transformação do sinal analógico para o sinal digital geralmente utiliza-se dispositivos tais como scanners, câmeras digitais ente outros. A imagem digital é formada por meio de uma matriz em que cada elemento (pixles) representa um ponto na imagem. Desse modo para melhor qualidade e resolução da imagem maior o número de elementos que se deve ter da matriz. Estas imagens são armazenadas em arquivos com diferentes modelos de cores. No caso de linfoma essas imagens estão salvas no modelo de cores RGB. 2.3.1 Modelo de Cores A visão da cor é a capacidade de distinguir objetos baseando-se nas frequências ou comprimentos de onda da luz que é refletida, transmitida ou emitida, assim a cor do objeto depende da frequência do espectro visível que predominantemente reflete da superfície do objeto, ou seja, se um corpo que reflete luz de forma equilibrada em todo o espectro visível, irá aparecer como branca para o observador. Além disso, a cor, assim como a textura, é um poderoso descritor de característica que pode simplificar a identificação e extração de objetos em uma imagem. Conseguentemente existem modelos de cores com o propósito de facilitar as especificações das cores em algum padrão, tal especificação é feita por conjuntos de coordenadas na qual cada ponto representa uma cor específica. Cada modelo de cores utiliza conjuntos de regras distintas para descrever as cores. Em histologia os modelos de cores mais utilizados são RGB, HSV e L*a*b* 2.3.2 Modelo RGB O modelo RGB é um modelo aditivo, que descreve as cores como uma combinação das três cores primárias: vermelho, verde e azul. Assim nada mais justo do que representá-las no sistema de coordenadas Cartesianas 3D. Podemos ver na Figura 4 que a cor vermelha é representada pela coordenada (1,0,0), a cor verde é representado pela coordenada (0,1,0) e a cor azul é representada pela coordenada (0,0,1). Além disso, a cor branca é representada pela coordenada (1,1,1) visto que contém todas as cores primárias enquanto que a cor preta é representado pela coordenada (0,0,0) já que não possui nenhuma cor. Os níveis de cinza se estendem do preto ao branco na linha pontilhada que liga estes dois pontos, na diagonal do cubo. Figura 4 – Diagrama tridimensional: modelo de cores RGB fonte (ANTON; BUSBY, 2006) 2.3.3 Modelo HSV O HSV é um modelo de cores que é definido pelas matiz (H do inglês Hue), saturação (S) e brilho (V - Valor). Como demonstra a Figura 5, o matiz determina a cor ou tonalidade medido em graus de 0 ∘ a 359 ∘ (0 ∘ vermelho; 60 ∘ amarelo; 120 ∘ verde etc), o brilho mede o quão pura é a cor, ou seja, a quantidade de branco que uma cor contém, na qual é medida numa escala de porcentagem que varia de 0% até 100%. A saturação descreve a vivacidade ou o esmaecimento de uma cor e é medida também em porcentagem de 0 a 100% (quanto maior a porcentagem, maior a vivacidade da cor). Figura 5 – Diagrama: modelo de cores HSV O HSV é muito utilizado na especificação de cores em nível de interface com o usuário, pois é um sistema de cores mais intuitivo do que o sistema RGB, outra vantagem é a simplicidade e facilidade de implementação tornando-o bastante popular entre os programadores de computação gráfica. Porém, a cor produzida pode variar de um dispositivo para outro deixando não tão bem representado em imagens no monitor. O espaço de cores HSV é muito utilizado na segmentação da imagem como é possível ver em trabalhos relacionados (CHENG et al., 2001), (ASHARIF; ETEMADNIA, 2003). Para a conversão do modelo de cores RGB para HSV usa-se o diagrama tridimensional para a cálculo das componentes H, S e V. Para tanto, usa-se a diagonal do cubo para traçar a faixa de intensidade (V), e a componente S é nula quando se encontra na faixa de intensidade, logo a matiz é indefinida, e aumenta quando se afasta dessa faixa. Como a matiz (H) é determinada pelo comprimento de onde uma particula cor é mais forte, podemos dizer que as extremidades do cubo que não fazem parte da faixa de intensidade são as únicas informações que contribui para a componente H. Assim, quando as cores têm baixa saturação, ou seja o ponto está perto do eixo da intensidades (preto, cinza e branco) a matiz pode ser difícil de determinar com precisão. Para a conversão do modelo RGB para o modelo HSV, primeiramente definimos que para cada componente do RGB, onde R,G e B tem valores de 0 à 1 tem-se a seguintes equações: 𝐶𝑚𝑎𝑥 = 𝑚𝑎𝑥(𝑅, 𝐺, 𝐵) (2.1) 𝐶𝑚𝑖𝑛 = 𝑚𝑖𝑛(𝑅, 𝐺, 𝐵) (2.2) 𝛿 = 𝐶𝑚𝑎𝑥 − 𝐶𝑚𝑖𝑛 (2.3) Os valores de 𝐶𝑚𝑎𝑥 e 𝐶𝑚𝑖𝑛 são o máximo e o mínimo entre as componentes, e delta a diferença entre eles. Assim para obter as componentes H, S e V segue as seguintes equações: 𝐻= ⎧ ⎪ ⎪ 0∘ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨60∘ ⎪ ⎪ ⎪ 60∘ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩60∘ , se Δ = 0 mod 6) , se 𝐶𝑚𝑎𝑥 = 𝑅 × ( 𝐺−𝐵 Δ × ( 𝐵−𝑅 + 2) Δ , se 𝐶𝑚𝑎𝑥 = 𝐺 + 4) × ( 𝑅−𝐺 Δ , se 𝐶𝑚𝑎𝑥 = 𝐵 𝑆= ⎧ ⎪ ⎨0 , se 𝐶𝑚𝑎𝑥 = 0 ⎪ ⎩ Δ , se 𝐶𝑚𝑎𝑥 ̸= 0 𝐶𝑚𝑎𝑥 𝑉 = 𝐶𝑚𝑎𝑥 (2.4) (2.5) (2.6) 2.3.4 Modelo L*a*b* Muito mais intuitivo que o modelo de cores RGB, visto que trabalha com espaços de cores uniformemente distribuídos, ou seja, cromaticidade uniforme. É um modelo baseado na percepção humana das cores, separa luminosidade da cromaticidade, sendo que componente L* (luminosidade) pode variar de 0 a 100, ou seja, do preto ao branco. O componente a* representa cores vermelha e verde, sendo positivo o vermelho e negativo o verde. O componente b* tem um variação entre as cores azul, quando positivo, e amarela para os valores negativos como pode ser visto na Figura 6. O modelo reproduz um espaço de cores que seja perceptualmente mais linear que os outros espaços de cores, ou seja, uma mudança nos valores da cor deve produzir uma mudança visual com a mesma importância. Quando se representam cores com valores de precisão limitada, o uso desses modelos podem melhorar a reprodução dos tons. Outro ponto favorável é um espaço de informações de cores absoluto, há uma definição exatamente da cor, diferente do modelo RGB que mistura luz. De forma geral, um modelo de cores determina a relação entre valores e o espaço de cores define o significado absoluto desses valores como cores. Alguns modelos (como CIE L*a*b) possuem um espaço de cores fixo porque estão diretamente relacionados à maneira como os seres humanos percebem as cores e são descritos como sendo independente do dispositivo. Outros modelos de cores (RGB, HSL e CMYK) podem ter diversos espaços de cores visto que variam de acordo com cada espaço de cores associado ou para cada dispositivo, assim eles são descritos como sendo dependente do dispositivo. Figura 6 – Diagrama Lab e suas componentes O processo de conversão do modelo RGB para L*a*b* ocorre em duas fases. A primeira e transformação do modelo RGB para o modelo XYZ dado pela multiplicação de matrizes: ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 𝑋 0.412453 0.357580 0.180423⎟ ⎜𝑅⎟ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 𝑌 ⎟ = ⎜0.212671 0.715160 0.072169⎟ × ⎜𝐺⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ 𝑍 0.019334 0.119193 0.950227 𝐵 (2.7) Em seguida, o modelo XYZ é convertido para L*a*b* pelas seguintes equações: 𝑌 𝐿* = 116 𝑌𝑛 (︂ 𝑎* = ⎡ (︂ 500 ⎣ 𝑏* = ⎡ (︂ )︂ 13 𝑌 ⎣ 200 𝑋 𝑋𝑛 𝑌𝑛 )︂ 13 )︂ 13 − 16 𝑌 − 𝑌𝑛 )︂ 13 𝑍 − 𝑍𝑛 )︂ 13 (︂ (︂ (2.8) ⎤ ⎦ (2.9) ⎤ ⎦ (2.10) 2.4 Pré-processamento O pré-processamento tem como objetivo melhorar a qualidade das propriedades da imagem e diversos algoritmos e técnicas são utilizados para suavizar, atenuar e eliminar a possível degradação e ou perda de qualidade do processo anterior. Em imagens médicas, geralmente, utiliza-se de técnicas e métodos como filtros e correção de fundo, porém de acordo com o tipo de doença pode-se ter diferentes tipos de pré-processamento. (DEMIR; YENER, 2005). 2.5 Segmentação É nessa fase que ocorre a separação de estruturas de interesse do fundo essencial para análise. Devido as diferentes características de cada tipo de estruturas analisadas na imagem, a etapa de segmentação pode ser um grande desafio, uma vez que há diferentes grupos de características presente em uma imagem. Normalmente os algoritmos são desenvolvidos com propósito específico de uma aplicação (XU et al., 2010). Em geral, em imagens médicas, determina-se limites de forma automatizada de diferentes componentes da imagem que será usado para analisar tipos de estrutura e tecidos e regiões com câncer. A segmentação também pode ser utilizada como um passo inicial para a visualização e compressão. Geralmente, nesse passo também faz-se identificações dos pixels que pertencem ao objeto ou que fazem fronteira à ele. A primeira abordagem leva em conta a intensidade de pixels na região mas também outros atributos, tais como a textura, também pode ser utilizado para a segmentação. Há ainda algumas técnicas que localizam pixels de contorno utilizando o gradiente de imagem que tem valores elevados nas bordas dos objetos (GONZALEZ; WOODS; EDDINS, 2004). As técnicas que se destacam nessa etapa trabalham com algoritmos que variam a intensidade ou textura da imagem, são essas técnicas: limiarização, crescimento de regiões, métodos para reconhecimento de padrão, gabaritos deformáveis (BEUTEL; KUNDEL; METTER, 2000). Há grande número de trabalhos que usam algoritmos próprios para imagens histológicas, tais algoritmos procura descobrir e separar tecidos histológicos do tipo neuroblastomas (cancêr do sistema nervoso simpático), cancêr de próstata e linfomas como se pode ver nos trabalhos de (GURCAN et al., 2006). 2.6 Extração de características A extração de características de imagens digitais é a etapa responsável pela distinção dos dados que possam representar propriedades relacionadas à região de interesse ou objetos obtida durante a fase de segmentação. Essas propriedades são descritas em um vetor de características empregado na técnica de reconhecimento de padrões (AZEVEDO; CONCI, 2003). A obtenção desse vetor de características é um passo de extrema importância para um bom desempenho na etapa de classificação, uma vez que é possível obter informações precisas da imagem. Portanto, é necessário que haja uma representação apropriada das áreas de interesse da imagem (JACOMINI, 2012). Como há informações morfológicas e não morfológicas que pode ser extraída de imagens, de acordo com o problema pode-se determinar qual descritor é mais adequado. Quando o objetivo é a representação da formas geométrica adota-se a utilização de características morfológicas por permtir representar as extremidades da imagem como bordas e margens. As características não morfológicas representa informações internas, dos pixels de regiões da imagem, a qual é mais utilizado na análise da textura. 2.7 Texturas A textura é um dos recursos usados pelo sistema visual humano para análise de informações e pode ser caracterizado pela variação local de valores de pixels, que se repete em um padrão regular ou aleatório em uma imagem. Pode também ser definido como um arranjo repetitivo dos padrões sobre uma região, a qual provê informações quanto à distribuição espacial, mudança de brilho e descrição relativa ao arranjo estrutural da superfície (PEDRINI; SCHWARTZ, 2008). Dessa forma, a análise de textura permite reconhecer estruturas que diferenciam o comportamento da superfície. Por ter uma gama de definições de descritores na Literatura, devido aos diferentes domínios de aplicações, muitas das vezes a formalização de uma definição pode ser complexa (GONZALEZ; WOODS, 2010). Os descritores obtidos por textura podem ser baseadas em estatísticas, espectral ou estrutural. Nas próximas seções são apresentados detalhes dessas abordagens. 2.7.1 Abordagem estatística Na abordagem estatística não há análise das estruturas hierárquicas apresentadas pela textura, mas somente representações das suas propriedades de maneira indireta e probabilística. Em uma imagem digital em tons de cinza, o pixel é a estrutura mais simples a ser definida, e tem o nível de cinza como propriedade. Dessa forma, o arranjo dos níveis de cinza pode ser descrito por estatísticas de primeira ordem, tais como a média e a variância analisados de um histograma. Porém, uma vez que a estatística de primeira ordem não analisa os pixels em conjunto, mas somente de forma individual, para qualquer alteração da imagem essas medidas tornam-se muito sensível. Para tanto, existe a abordagem de estatísticas de segunda ordem, a qual utiliza as transições de nível de cinza entre o pixel e sua vizinhança permitindo uma distribuição espacial melhor dos níveis de cinza na imagem. Na estatística de primeira ordem, computa-se, a partir de um histograma de primeira ordem da imagem, a disposição dos níveis de cinza. Por não levar em conta os pixels da vizinhança a estatística de primeira ordem apresenta a desvantagem de ser invariante quando a mudanças como rotação e translação. Por outro lado, como só medidas simples precisam se calculadas tais como média, variância, o que existe baixo custo computacional. Uma abordagem muito utilizada para a extração de características de textura quanto a transição de níveis de cinza entre pixels em estatística de segunda ordem é a utilização da matriz de co-ocorrência. Os descritores são obtidos por meio de 14 medidas que são computados a partir dessa matriz: segundo momento angular, contraste, correlação, soma dos quadrados, momento da diferença inversa, soma da média, soma da variância, soma da entropia, entropia, diferença de variância, diferença de entropia, duas medidas de informação de correlação, e coeficiente de correlação máxima. 2.7.2 Abordagem espectral Baseados em processamento de sinais, é feita a partir de transformações da imagem onde se extrai descritores por meio dos coeficientes. A transformada de Fourier, transformada Wavelet e Gabor são as mais aplicadas (AZEVEDO; CONCI, 2003). O espectro resultante da transformada de Fourier, pode identificar padrões periódicos ou semi periódicos por possuir três aspectos: a direção dos padrões podem ser determinados pela análise dos picos do espectro; através da posição desses picos é possível encontrar a frequência e o período espacial dos padrões de textura; por métodos estatísticos faz-se também a obtenção de estruturas não periódicas da imagem eliminando, por técnicas de filtragem, os elementos periódicos encontrados (GONZALEZ; WOODS; EDDINS, 2004). Ao passo que a transformada de Fourier padrão só localiza a frequência, as transformadas Wavelet fornecer simultaneamente localização de tempo e frequência, a qual permite a investigação de variação de tempo e sinais não estacionários. Proposto pela primeira vez por Mallat, essa abordagem faz a decomposição de sinais através de estruturas conhecida como wavelet mãe, elaboradas a partir de dilatações e traduções de uma função base. Assim, uma imagem pode ser decomposto em uma hierarquia multiresolução de informações localizadas em diferentes frequências (MALLAT, 1989). Amplamente utilizado para reconhecimento de objetos, os filtros de Gabor apresenta invariância na iluminação, uma vez que detecta frequências espaciais constantes. O filtro de Gabor captura propriedades visuais, tais como a localização espacial, frequência e orientação espacial das estruturas presentes na imagem. 2.7.3 Abordagem estrutural Nessa abordagem a análise são baseadas em primitivas que compõe a textura denominada textels. Existem duas formas para descrição utilizando essa abordagem: a primeira baseada na disposição espaciais das primitivas utilizando-se de regras e a segunda por meio de primitivas. Esse estudo é focado na investigação de técnicas baseadas em descritores de primitivos como, por exemplo, a unidade de textura. Unidade de Textura Um conjunto de pequenas unidades essenciais capazes de caracterizar informação local pode ser visto como textura. Assim, (HE; WANG, 1990), propuseram o conceito de unidade de textura ( do inglês Texture Unit - TU). Para tanto, a informação pode ser obtida de uma vizinhança 3×3 em que os pixels, numa vizinhança de 8 direções são utilizados ( ver Figura 7a). Dada uma vizinhança 3 × 3 composta por elementos 𝑉 = 𝑣0 , 𝑣1 , ..., 𝑣8 , onde 𝑣0 representa a intensidade no pixel central e os 𝑣𝑖 restantes representam a intensidade de seus vizinhos. Para tanto, a cada cada (𝑉𝑖 ) é atribuído um valor (𝐸𝑖 ) entre 0, 1 ou 2 seguindo uma regra de acordo com o pixel central (𝑉0 ), conforme apresentado na Figura 7b. Quando se multiplica os valores dos limiarizados (ver Figura 7c) pelos pesos dados aos pixels correspondente ao da Figura 7d, pode ser definido a unidade de textura. Então, a soma desses valores resultam em um Código de Unidade de Textura (CUT), que caracteriza um micropadrão da imagem. Esse padrão é definido por: 𝑁𝑇 𝑈 = 8 ∑︁ 𝐸𝑖 · 3𝑖−1 (2.11) (𝑖=1) A equação 2.11 define como o índice do CUT é calculado. No entanto, não especifica uma ordem para os pixels 𝑉𝑖 , por 𝑖 > 0. Para isso, considere que os pixels são ordenados em uma ordem no sentido horário (Figura 8, com início em a até o h). Então há 8 ordens possíveis para calcular 𝑁𝑇 𝑈 . Com isso, pode ser obtido até 38 = 6561 CUT, o qual permite elaborar um histograma que caracteriza globalmente a imagem. A vantagem dessa abordagem é que as características da textura de uma imagem são definidas pela sua assinatura e não por um conjunto de medidas. 2.8 Padrão Binário Local Dentre vários tipos de descritores para a extração de características o uso de operadores de padrão binário local (do inglês Local Binary Pattern - LBP) vem se destacando no contexto de imagens histológicas, visto que, tem uma boa resistência a mudanças de iluminação, baixa complexidade computacional e capaz de codificar detalhes finos. Essa técnica tem sido extensivamente estudado em uma ampla gama de campos e tem demons- Figura 7 – Cálculo do Texture Unit Fonte: (HE; WANG, 1990). Figura 8 – Disposição da vizinhaça para o cálculo do TU Fonte: (HE; WANG, 1990). trado um desempenho superior em vários estudos comparativos (AHONEN; HADID; PIETIKAINEN, 2006), (PIETIKÄINEN et al., 2011), (OJALA; PIETIKäINEN; MäENPää, 2002). Baseado no CUT, o LBP representa a estrutura espacial de textura assim como as características de ser invariante a transformações monotônicas dos níveis de cinza. Nesse caso, tem-se uma vizinhança 3𝑥3 limiarizada pelo valor do pixel central em comparação com os vizinhos (ver Figura 9a). Esse procedimento gera uma matriz com os valores binários dado pela seguinte regra: valor "0" nos vizinhos onde o valor é inferior ao valor do pixel central e "1" caso valor é superior ou igual ao pixel central (Figura9b). 𝐿𝐵𝑃 = 7 ∑︁ 𝑠(𝑔𝑝 − 𝑔𝑐 ) · 2𝑖 (2.12) 𝑖=0 Então, a soma dos valores da limiarização dos pixels são multiplicados pelos pesos dados ao pixels correspondentes resultando num valor do padrão LBP (Figuras 9c, 9d e 9e). Figura 9 – Cálculo dos Padrões Binários Locais Após obter o LBP, um histograma é construído para representar as informações de textura da imagem. Observa-se que nessa técnica há apenas 2 níveis para a limiarização da vizinhança, diferente do CUT que usa 3 níveis, o que permite reduzir de 6561 para 256 o número de códigos. Com objetivo obter uma constância na rotação e torná-la apropriada para análise multi-escalar, a definição do LBP foi amplificada para vizinhanças circulares do pixel central. Em uma vizinhança 𝐿𝐵𝑃𝑅,𝑃 é possível escolher o perímetro circular em qualquer escala 𝑅, sendo que a interpolação da vizinhança tem espaçamento semelhante na região do círculo, e o números de vizinhos 𝑃 (Figura 10). Formalmente, a equação 2.13 mostra como o operador LBP é calculado para uma região. 𝐿𝐵𝑃 (𝑅, 𝑃 ) = 𝑃∑︁ −1 𝑃 =0 𝑠(𝑔𝑝 − 𝑔𝑐 ) · 2𝑃 (2.13) Figura 10 – Perímetro circular de um pixel - LBP - Fonte: (OJALA; PIETIKäINEN; MäENPää, 2002). Onde 𝑔𝑐 é o valor de cinza do pixel central; 𝑔𝑝 é o valor de seus vizinhos; 𝑃 representa o número de vizinhos: e, 𝑅 representa o raio. Ao final de todo o procedimento, a extração de característica resultará em um histograma de números binários que descrevem a textura da imagem. 2.8.1 Padrões Binários Locais Completos Nos últimos anos foram propostos um amplo estudo das aproximações LBP. (ZHOU; WANG; WANG, 2008) propuseram uma nova abordagem em que há uma combinação de padrões uniformes com outros padrões não uniformes. Assim surgiu os padrões binários locais completos (do inglês Completed Local Pinary Patterns - CLPB) que leva em consideração tanto as informações de sinais como também as informações de magnitude da diferença d entre o pixel central (𝑔𝑐 ) e os pixels da sua vizinhança (𝑔𝑝 ). Como visto no LBP, somente o sinal 𝑠(𝑔𝑝 − 𝑔𝑐 ) é utilizado para calculo do descritor de textura. No caso do CLBP também é considerado a intensidade do pixel central e a magnitude 𝑚𝑝 e 𝑑𝑝 dado por 𝑚𝑝 = |𝑑𝑝 |. O processo da CLBP retorna três operadores, que são: ∙ 𝐶𝐿𝐵𝑃𝑆 : considera o componente de sinal da diferença; ∙ 𝐶𝐿𝐵𝑃𝑀 : considera o componente de magnitude 𝑚𝑝 ; ∙ 𝐶𝐿𝐵𝑃𝐶 : considera a intensidade do pixel central 𝑔𝑐 em relação a imagem. O operador 𝐶𝐿𝐵𝑃𝑆 representa a operação LBP convencional. No caso, o operador 𝐶𝐿𝐵𝑃𝑀 é definido de acordo com a equação 2.14: 𝐶𝐿𝐵𝑃𝑀(𝑃,𝑅) = 𝑃∑︁ −1 𝑠(𝑚𝑝 − 𝑐)2𝑝 , (2.14) 𝑝=0 onde 𝑐 representa a média dos valores absolutos das diferenças entre um pixel e seu vizinho. Por último, o operador 𝐶𝐿𝐵𝑃𝐶 pode ser definido pela equação 2.15: 𝐶𝐿𝐵𝑃𝑐𝑃,𝑅 = 𝑠(𝑔𝑐 − 𝜏1 ) (2.15) onde: 𝜏1 representa a média dos valores de nível de cinza de todos os pixels da imagem. Após obter os três operadores da CLBP, os mesmos são combinados formando um mapa de características que representa a imagem. 2.8.2 Classificador de Texturas Atualmente, o algoritmo Máquinas de Vetores de Suporte (do inglês Support Vector Machines - SVM) vêm sendo muito utilizadas em diferentes domínios. Exemplos de aplicação: Bioinformática (SCHOLKOPF; GUYON; WESTON, 2003), categorização de textos (JOACHIMS, 2002) e análise de imagens (KIM et al., 2002), (PONTIL; VERRI, 1998). Desenvolvido por (VAPNIK, 1995), baseia-se em teoria de aprendizado estatístico. Para melhor entender a SVM é preciso analisar os conceitos básicos de Aprendizado de Máquinas (AM). A indução uma das técnicas de AM em que a partir de um conjunto específico de exemplos é possível inferir conclusões genéricas é categorizado em dois tipo fundamentais: supervisionado e não supervisionado. No primeiro tem-se a figura de um "supervisor" no ciclo de aprendizagem, no qual apresenta o conhecimento do ambiente e diz se as previsões estão corretas ou não. A extração da representação do conhecimento é feita a partir desses exemplos com a finalidade de gerar uma representação que tenha a capacidade de produzir previsões corretas para entradas que não foram apresentadas anteriormente. O aprendizado supervisionado é mais utilizado quando utiliza-se um banco de dados onde se tem tanto as entradas como as suas respectivas classificações. Já no aprendizado não supervisionado, não há rótulos nas entradas, portanto o algoritmo de aprendizado de máquina deve aprender a interpretar e agrupar essas entradas baseando em regras de qualidade. A classificação da textura geralmente envolve duas etapas principais, o passo de aprendizado e o passo do reconhecimento. Na primeira etapa, é construído um modelo para representar o conteúdo da textura de cada classe presente nos dados de treinamento. Assim, o SVM encontra um hiperplano com máxima separação entre as classes, adotando que os dados são linearmente separáveis, caso contrário, o SVM utiliza uma função kernel em um espaço de características, geralmente, de dimensão mais elevadas para mapear os dados, em que é possível tornar os dados linearmente separáveis como mostra a Figura 11. Figura 11 – Mapeamento do espaço de entrada num espaço de dimensão mais elevada com separação linear entre as classes. fonte: (HAYKIN; NETWORK, 2004). Na segunda etapa, o teor da textura de uma amostra desconhecida é extraído e comparado com aquelas já extraídas na etapa de aprendizado. A amostra deve ser rotulada com a classe mais semelhantes. Portanto, quanto mais distantes a margem entre os hiperplanos, menor é a taxa de erro na segunda etapa de classificação (Figura 12). Figura 12 – A margem 𝑝 entre os hiperplanos 𝐻1 𝐻2 fonte: (CAMPBELL, 2001). 3 Metodologia 3.1 Visão Geral Este capítulo apresenta as etapas da elaboração do trabalho as quais foram divididas em: ∙ Algoritmos para a conversão dos modelos de cores. Nesse passo foi aplicado os algoritmos de conversão de imagem do modelo RGB para os modelos HSV e L*a*b* e separados em canais para cada modelo. ∙ Uso das técnicas de LBP e CLBP para extração de características. Foram utilizados algoritmos de extração de características para cada canal de cor dos diferentes modelos. ∙ Uso do algoritmo de classificação Support Vector Machine (SVM) com a função kernel linear e RBF usando a técnica de amostragem de validação cruzada (Cross Validation) para avaliação quantitativa por métricas: sensibilidade e especificidade e acurácia. A Figura 13 apresenta as principais etapas do método proposto para análise quantitativa das diferentes classes de linfoma. Figura 13 – Diagrama da metodologia proposta neste trabalho. 3.2 Materiais 3.2.1 Banco de Imagens Foram empregadas 30 lâminas histológicas de linfonodos, oriundos de estudos realizados por pesquisadores americanos do Instituto Nacional do Câncer e Instituto Nacional do Envelhecimento (SHAMIR et al., 2008). Foi utilizado as substâncias Hematoxilina e Eosina (H & E) para a coloração dos tecidos nos quais contém 10 casos de 3 tipos de Linfoma: Linfoma de Células Manto (LCM), Linfoma Folicular (LF) e Leucemia Linfóide Crônica (LLC). Para melhor simulação de um ambiente clínico real, as lâminas coletadas foram elaboradas com variações consideráveis de corte e coloração. Através do microscópio Zeiss Axioscope com objetiva de 20 vezes e câmera digital colorida AXio Cam MR5 acoplada, foi possível, com ajuda de especialistas, obter imagens digitais de regiões de interesse selecionada. As imagens foram gravadas sem compressão no formato tif com resolução de 1388x1040 pixels, no padrão de cor RGB, com quantização de 24 bits. Foram utilizadas 122 imagens com a patologia do tipo LCM, 139 com linfoma tipo LF e 113 continha neoplasia LLC, totalizando 374 imagens. 3.2.2 Ambiente computacional O trabalho foi desenvolvido em um microcomputador com processador Intel(R) Core(TM) i5-3330 CPU 3.00 GHz com 8,0 Gigabytes de memória RAM em um sistema operacional windows 7. Foi utilizado linguagem de programação padrão matlab. 3.3 Métodos 3.3.1 Pré-processamento Nesta etapa, cada imagem da base, que originalmente está salva no modelo de cores RGB foi convertida para os modelos propostos nesse estudo. Então, a imagem no modelo RGB foi convertida para o modelo HSV. Esse processo ocorreu com aplicação das equações 2.1, 2.2 e 2.3 e, em seguida, as equações 2.4, 2.5 e 2.6. Esse procedimento resultou em três imagens com os canais do modelo HSV separados. Também foi realizado a conversão do modelo RGB para o modelo L*A*B. Nesse passo, primeiramente, a imagem foi convertida para o modelo XYZ, equação 2.7. Então, o resultado, os canais XYZ, foi convertido para o modelo L*a*b* pelas equações 2.8, 2.9 e 2.10. Esse processo gerou três imagens com os canais L*a*b* separados. 3.3.2 Extração de Características Para o LBP, a equação 2.13 foi empregada para cada imagem de canais de cores separados na etapa anterior. Para esses extratores foram usados o valor de 𝑅 = 1 e o valor de vizinhança 𝑃 = 8. A janela empregada foi tamanho 3 × 3 pixels. O qual resultou num valor de operador LBP. Após realizar esse processo sobre todas as regiões da imagem, o histograma LBP foi então calculado. Os valores LBP foram armazenados em um vetor de características para cada imagem. Esse procedimento foi realizado para todas as imagens de cada modelo de cores. No caso do CLBP, as equações 2.15 e 2.14 foram aplicadas para todas as imagens dos canais de cores. O valor de raio e o valor de vizinhança foram 𝑅 = 1 e 𝑃 = 8, respectivamente. Então, o histograma CLBP foi obtido para cada imagem do canais de cores. Esses valores foram armazenados em um vetor de características para cada imagem. 3.3.3 Avaliação dos Descritores Para fase de classificação foi aplicado o classificador SVM com o objetivo de avaliar a eficiência do métodos propostos. As funções de kernel utilizadas para propósito de comparação de resultados foram a linear e RBF no algoritmo SVM. Para realizar a avaliação deve-se aplicar um padrão de treinamento e testes iguais. Nesse estudo o método utilizado foi a técnica de validação cruzada (n-fold cross validation) com valor de n = 10. Esse método divide todo o conjunto de dados em 10 subconjuntos iguais. Após isso, o primeiro subconjunto é utilizado para executar os testes e os outros nove subconjuntos para efetuar o treino. A seguir, o segundo subconjunto é utilizado para o teste e o restante para o treino, este passo é repetido até que todo os dez subconjuntos tenham sido testados. Os conjuntos de dados para a avaliação das matrizes de características foram agrupados nos seguintes grupos: CLL versus FL, CLL versus MCL e FL versus MCL. Para avaliação da técnica proposta foram utilizados os seguintes métricas: acurácia, sensibilidade e especificidade. A sensibilidade é a componente que estima o número de acertos sobre o total de amostras para o primeiro padrão e a especificidade é a componente que estima o números de acertos sobre o total de amostras para o segundo padrão. Portanto, a sensibilidade verifica a taxas de acertos para a classe CLL para primeira análise, CLL para segunda e FL para a terceira. A especificidade verificou a taxa de acertos para classe FL na primeira análise, MCL na segunda e MCL para terceira. A métrica acurácia estima o total de acertos totais e é usada para determinar o comportamento global do classificador. Essa métrica foi obtida pela razão das somas dos acertos para as duas classes sobre o total de amostras. 4 Resultados 4.1 Introdução Este capítulo tem o propósito de mostrar os resultados obtidos pelos algoritmos computacionais desenvolvidos neste trabalho. Foram extraídos os componentes dos modelos de cores das imagens de linfoma, os quais, em seguida, foram submetidos a algoritmos de extração de características e, finalmente, classificados dentre as classes: LF, LCC e LCM. 4.2 Padrões Binários Locais Na Figura 14 são mostrados os resultados obtidos com a métrica acurácia para os diferentes modelos de cores numa comparação entre as classes de anormalidades com o classificador SVM e kernel linear. O grupo CLL versus FL é mais relevante para os diferentes modelos de cores analisadas. O canal de cor V do modelo HSV resultou no valor de acurácia mais relevante (0,844). Esse canal representa o valor de brilho do pixel, que é mostrado numa escala de 0 à 100%, o qual no experimento foi obtido pelo maior valor de brilho do modelo RGB. Para esse grupo é possível observar que o canal L do modelo L*a*b resultou em valores não expressivos em relação aos demais canais. O canal L representa a luminosidade, também medida em uma escala de 0 à 100%, no intervalo do branco para o preto, o que representa a diferença do mais escuro para o mais claro (acurácia de 0,55). Essa medida é menos significativa em relação as medidas a*, do vermelho para o verde, e b*, do amarelo para o azul, que representa os sinais diferença de cores da imagem. Esse mesmo comportamento também é mostrado para os outros grupos avaliados nesse estudo. Esse gráfico mostra que a avaliação com LBP na conversão de RGB para HSV possibilitou melhorar os valores de acurácia para os diferentes grupos analisados. Em contrapartida, a conversão para o modelo L*a*b* os valores de acurácia não foram expressivos aos outros modelos. Uma análise desses valores de acurácia pode ser melhor detalhada por meio dos gráficos de sensibilidade e especificidades conforme são apresentados na Figura 15. No caso do canal L do modelo L*a*b observa-se que o baixo desempenho ocorrereu devido a diferença entre os resultados obtidos para as métricas sensibilidade (1,0) Figura15a e especificadade (0,0) Figura15b. Ressalta-se que a especificidade reflete o quanto ele é eficaz em identificar corretamente os casos de um grupo. Por exemplo, na comparação entre CLL versus FL a métrica especificidade representa o grupo FL, o qual no caso foi ruim nesse Figura 14 – Resultados obtidos para os diferentes modelos de cores com o descritor LBP e classificador SVM e kernel linear. experimento e a métrica CLL, que nesse caso, foi analisado pela métrica sensibilidade, foi relevante. No entanto, o classificador considerou nessa classificação binária todas as amostras como sendo de apenas um grupo. (a) (b) Figura 15 – Valores das métricas para os modelos de cores analisados com LBP e classificador SVM e kernel linear: (a) sensibilidade e (b) especificidade. O descritor LBP também foi avaliado com o algoritmo SVM e função kernel RBF. Os resultados da métrica acurácia são apresentadas no gráfico da Figura 16. Os resultados são próximos para o grupo CLL versus FL em relação ao canal de cores que resultou em valores mais relevantes de acurácia (HSV). O canal L do modelo L*a*b* também obteve resultados com valores baixos numa comparação com os demais canais avaliados dos modelos de cores. Destaca-se o canal H do modelo HSV como o maior valor de acurácia. O canal H representa o matiz, o qual descreve as cores nesse modelo. É possivel notar pequenas variações em relação aos valores de acurácia para as variações da função do classificador. No entanto, o kernel rbf exige mais poder computacional para separação das classes dos grupos avaliados. Figura 16 – Acurácia para os diferentes modelos de cores com o descritor LBP e classificador SVM e kernel rbf. Os gráficos de sensibilidade e especificadade para o kernel rbf são mostrados na Figura 17. Nota-se que a diferença entre a senbilidade e especificadade para o canal L tem o mesmo comportamento ao que ocorreu com o kernel linear. (a) (b) Figura 17 – Classificador SVM e kernel RBF: (a) sensibilidade e (b) especificidade. 4.3 Padrões Binários Locais Completos A Figura 18 apresenta um gráfico com os resultados obtidos com a métrica acurácia para os diferentes modelos de cores numa comparação entre as classes de anormalidades com o classificador SVM kernel linear e o operador CLBP. Figura 18 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel linear. Analisando os resultados obtidos pela métrica acurácia (Figura 18) é possível observar que os melhores resultados foram alcançados com o grupo CLL versus FL com um valor de acurácia de 0.896 (canal S). Nesse experimento, a saturação, canal S, representa a "pureza"da cor. Esse valor é superior ao obtido com o descritor LBP de 0,835. Nota-se também que os canais do modelo HSV tiveram os melhores resultados para esse grupo. Esse mesmo canal tem resultados próximos aos resultados do canal R do modelo RGB para os demais grupos analisados (CLL versus MCL e MCL versus FL). As Figuras 19a e 19b apresentam os gráficos com os valores de sensibilidade e especificiadade, respectivamente, para o descritor CPLB. Verifica-se que o desempenho das métricas foram próximos aos resultados já obtidos com o modelo LPB, em que apresentou altos valores de sensibilidade e baixos valores de especificidade para o canal L do modelo L*a*b*. (a) (b) Figura 19 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel linear. Na figura 20 são apresentados os valores de acurácia para o descritor CLBP com o classificador SVM e kernel RBF. Os resultados dos experimentos obtidos com a métrica acurácia para os modelos de cores com essa função foram inferiores aos resultados obtidos com a função linear. No entanto, também são inferiores aos demais obtidos com o descritor LBP com as funções linear e RBF. O melhor valor de acurácia foi de 0,733 obtidas no canal a do modelo L*a*b*. Em relação ao modelo de cores HSV, que proporcionou os melhores resultados nos demais experimentos, nota-se que nesse caso também foram baixos. Figura 20 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel RBF. Os gráficos da Figura 21b mostram os resultados ruins em relação aos canais de diferentes modelos de cores. Os valores expressivos são apresentados nos gráficos da Figura 21a. Observa-se que em grande parte dos modelos de cores os valores foram difentes. Isso mostra uma que o classificador não consegue obter uma boa separação entre os conjuntos de dados analisados. (a) (b) Figura 21 – Resultados obtidos para os diferentes modelos de cores com o descritor CLBP e classificador SVM e kernel RBF: (a) sensibilidade e (b) especificadade. Conclusão Nesse trabalho foi apresentado um método para classificação de diferentes tipos de linfoma com uso de descritores de textura baseado em operadores LBP e CLBP. O método proposto inicialmente converte as imagens do modelo de cores RGB para os modelos HSV e L*a*b*. Os extratores de características texturais LBP e CLBP foram empregados na etapa para extração das informações. Foram utilizadas imagens de diferentes tipos de linfoma separadas em cada componentes dos três modelos de cores com objetivo de classificar o melhor modelo para a identificação das anomalias. Para a avaliação dos descritores de textura o algoritmos de classificação SVM foi empregado com variações do kernel e as métricas como acurácia, sensibilidade e especificidade foram empregadas com o intuito de quantificar o método proposto. A utilização do descritor de características LBP por meio dos experimentos realizados mostrou que a conversão das imagens em RGB para o modelo HSV trouxe benefícios para ambos kernels utilizados. Porém, o uso do modelo de cores modelo de cores L*a*b* não proporcionou resultados relevantes em relação as métricas quantitativas utilizadas na avaliação dos experimentos. Os resultados também mostraram que a aplicação da técnica CLBP, classificador SVM e kernel linear foi possível notar um ganho em desempenho para toda componentes de cores, principalmente no modelo de cores HSV. Todavia, esse mesmo desempenho não foi alcançado quando o classificador SVM e kernel RBF foi empregado. O uso dessa função resultou em valores de métricas inferiores aos obtidos com a função linear. Os experimentos realizados neste estudo mostraram que os modelos de cores podem influenciar os resultados da classificação de lesões que ocorrem em imagens histológicas de linfoma. O uso dos descritores baseados em LBP e CLBP sofreram variações em relação as métricas com o uso desses modelos de cores. Apenas no uso do operador CLBP foi possível notar uma diferença entre o uso da função do classificador, pois para a análise com a função RBF não foi possível obter bons resultados para os diferentes modelos de cores. Em estudos futuros pretende-se investigar outras aproximações LBP para verificar se esse tipo de comportamento é semelhante nos diferentes modelos de cores para os grupos de lesões das imagens histológicas de linfoma. Referências AHONEN, T.; HADID, A.; PIETIKAINEN, M. Face description with local binary patterns: Application to face recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on, IEEE, v. 28, n. 12, p. 2037–2041, 2006. Citado na página 23. ANTON, H.; BUSBY, R. Algebra Linear Contemporânea. Bookman, 2006. ISBN 9788536306155. Disponível em: <https://books.google.com.br/books?id= hlNsJuQ6khoC>. Citado na página 15. ASHARIF, M. R.; ETEMADNIA, H. Shadow identification using homomorphic system with hsv color space information. Joint Conference of the IEEJ and IEICE, p. 51–54, 2003. Citado na página 16. AZEVEDO, E.; CONCI, A. Computação gráfica: teoria e prática. [S.l.]: Elsevier, 2003. Citado 2 vezes nas páginas 19 e 21. BEUTEL, J.; KUNDEL, H. L.; METTER, R. L. V. Handbook of medical imaging, volume 1: Physics and psychophysics. Spie Press Bellingham, Washington, 2000. Citado na página 19. CAMPBELL, C. An introduction to kernel methods. Studies in Fuzziness and Soft Computing, PHYSICA-VERLAG, v. 66, p. 155–192, 2001. Citado 2 vezes nas páginas 6 e 27. CHENG, H.-D. et al. Color image segmentation: advances and prospects. Pattern recognition, Elsevier, v. 34, n. 12, p. 2259–2281, 2001. Citado na página 16. DEMIR, C.; YENER, B. Automated cancer diagnosis based on histopathological images: a systematic survey. Rensselaer Polytechnic Institute, Tech. Rep, 2005. Citado na página 18. DÖHNER, H. et al. Genomic aberrations and survival in chronic lymphocytic leukemia. New England Journal of Medicine, Mass Medical Soc, v. 343, n. 26, p. 1910–1916, 2000. Citado na página 12. GONZALEZ, R. C.; WOODS, R. E. Processamento Digital de Imagens. [S.l.]: Sao Paulo: Pearson Prentice Hall, 2010. Citado na página 20. GONZALEZ, R. C.; WOODS, R. E.; EDDINS, S. L. Digital image processing using MATLAB. [S.l.]: Pearson Education India, 2004. Citado 2 vezes nas páginas 19 e 21. GURCAN, M. et al. Histopathological image analysis: A review. Biomedical Engineering, IEEE Reviews in, IEEE, v. 2, p. 147–171, 2009. Citado na página 8. GURCAN, M. N. et al. Image analysis for neuroblastoma classification: Segmentation of cell nuclei. p. 4844–4847, 2006. Citado 2 vezes nas páginas 14 e 19. HAYKIN, S.; NETWORK, N. A comprehensive foundation. Neural Networks, v. 2, n. 2004, 2004. Citado 2 vezes nas páginas 6 e 27. HE, D.-C.; WANG, L. Texture unit, texture spectrum, and texture analysis. Geoscience and Remote Sensing, IEEE Transactions on, v. 28, n. 4, p. 509–512, Jul 1990. ISSN 0196-2892. Citado 3 vezes nas páginas 6, 22 e 23. INCA. Estimativa 2014: Incidencia de Cancer no Brasil. [S.l.], 2014. Disponível em: <http://www.inca.gov.br/estimativa/2012/estimativa20122111.pdf>. Citado na página 11. JACOMINI, R. S. Algoritmos Distribuidos empregados na extracao de descritores morfologicos e nao morfologicos em mamogramas. Dissertação (Mestrado) — Universidade Federal do ABC, Santo Andre, SP, Brasil, 2012. Citado na página 19. JOACHIMS, T. Learning to classify text using support vector machines: Methods, theory and algorithms. [S.l.]: Kluwer Academic Publishers, 2002. Citado na página 26. KIM, K. I. et al. Support vector machines for texture classification. Pattern Analysis and Machine Intelligence, IEEE Transactions on, IEEE, v. 24, n. 11, p. 1542–1550, 2002. Citado na página 26. LOWRY, L.; LINCH, D. Non-hodgkin’s lymphoma. Medicine, Elsevier, v. 41, n. 5, p. 282–289, 2013. Citado na página 12. MALLAT, S. G. A theory for multiresolution signal decomposition: the wavelet representation. Pattern Analysis and Machine Intelligence, IEEE Transactions on, Ieee, v. 11, n. 7, p. 674–693, 1989. Citado na página 21. NASCIMENTO, M.; RAMOS, R. Combinando duas visões mamográficas em extração de características com ridgelet. In: XI Congresso Brasileiro de Informática em Saúde, Campos do Jordão. XI Congresso Brasileiro de Informática em Saúde. [S.l.: s.n.], 2008. v. 1. Citado na página 8. NEVES, L. A. et al. Multi-scale lacunarity as an alternative to quantify and diagnose the behavior of prostate cancer. Expert Systems with Applications, Elsevier, v. 41, n. 11, p. 5017–5029, 2014. Citado na página 8. OJALA, T.; PIETIKäINEN, M.; MäENPää, T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans. Pattern Anal. Mach. Intell., IEEE Computer Society, Washington, DC, USA, v. 24, n. 7, p. 971–987, jul. 2002. ISSN 0162-8828. Citado 3 vezes nas páginas 6, 23 e 25. PEDRINI, H.; SCHWARTZ, W. R. Análise de imagens digitais: princípios, algoritmos e aplicações. [S.l.]: Thomson Learning, 2008. Citado 2 vezes nas páginas 9 e 20. PIETIKÄINEN, M. et al. Computer Vision Using Local Binary Patterns. [S.l.]: Springer, 2011. Citado na página 23. PONTIL, M.; VERRI, A. Support vector machines for 3d object recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on, IEEE, v. 20, n. 6, p. 637–646, 1998. Citado na página 26. RANGAYYAN, R. M.; AYRES, F. J.; DESAUTELS, J. L. A review of computeraided diagnosis of breast cancer: Toward the detection of subtle signs. Journal of the Franklin Institute, v. 344, n. 3-4, p. 312–348, 2007. ISSN 0016-0032. Special Issue: Medical Applications of Signal Processing, Part I. Disponível em: <http://www.sciencedirect.com/science/article/pii/S001600320600127X>. Citado na página 8. SCHOLKOPF, B.; GUYON, I.; WESTON, J. Statistical learning and kernel methods in bioinformatics. Nato Science Series Sub Series III Computer and Systems Sciences, IOS press, v. 183, p. 1–21, 2003. Citado na página 26. SHAMIR, L. et al. Iicbu 2008: a proposed benchmark suite for biological image analysis. Medical & biological engineering & computing, Springer, v. 46, n. 9, p. 943–947, 2008. Citado 4 vezes nas páginas 6, 12, 13 e 29. VAPNIK, V. N. The nature of statistical learning theory. New York, NY, USA: Springer-Verlag New York, Inc., 1995. ISBN 0-387-94559-8. Citado na página 26. XU, J. et al. A weighted mean shift, normalized cuts initialized color gradient based geodesic active contour model: applications to histopathology image segmentation. In: INTERNATIONAL SOCIETY FOR OPTICS AND PHOTONICS. SPIE Medical Imaging. [S.l.], 2010. p. 76230Y–76230Y. Citado na página 19. ZHOU, H.; WANG, R.; WANG, C. A novel extended local-binary-pattern operator for texture analysis. Information Sciences, Elsevier, v. 178, n. 22, p. 4314–4325, 2008. Citado na página 25.