USO DE MÁQUINA DE VETORES DE SUPORTE E TRANSFORMADA
WATERSHED NA SEGMENTAÇÃO INDIVIDUAL DE DENTES A PARTIR DE
IMAGENS DIGITAIS INTRABUCAIS OCLUSAIS
Ramon A. S. Lins∗, Keylly Eyglys∗, Adrião Duarte Dória Neto∗, Luis Noro†, Angelo
Giuseppe Roncalli†, Maria Cristina dos Santos Medeiros†, Pedro Henrique Sette de
Souza†, Samara Martins da Silva†
∗
Laboratório de Sistemas Inteligentes
Departamento de Computação e Automação
Universidade Federal do Rio Grande do Norte, RN, Brasil
†
Departamento de Odontologia
Universidade Federal do Rio Grande do Norte, RN, Brasil
Emails: [email protected], [email protected], [email protected],
[email protected], [email protected], [email protected],
[email protected], [email protected]
Abstract— In this paper we propose the development of an intelligent system capable of segment individual
teeth from occlusal intraoral digital images. The proposed system makes combined use of supervised learning
and digital image processing techniques, support vector machine and watershed transform respectively. The
segmentation is based on the colors of teeth and no teeth present in the image. After segmentation, the watershed
transform is performed to detect the regions of teeth contour. The system had a good performance in the
individual separation of teeth present and observable in images.
Keywords—
form
Occlusal intraoral digital images, Intelligent System, Support Vector Machine, Watershed Trans-
Resumo— Neste tabalho é proposto o desenvolvimento de um sistema inteligente capaz de segmentar individualmente dentes a partir de imagens digitais intrabucais oclusais. O sistema proposto faz uso combinado das
técnicas de aprendizado supervisionado e processamento digital de imagens, máquina de vetores de suporte e
transformada watershed respectivamente. A segmentação é baseada nas cores dos dentes e não dentes presentes
na imagem. Após a segmentação, a transformada watershed é utilizada para detectar as regiões de contorno dos
dentes. O sistema apresentou um bom desempenho na separação individual dos dentes presentes e observáveis
nas imagens.
Palavras-chave— Imagens Digitais Intrabucais Oclusais, Sistema Inteligente, Máquina de Vetores de Suporte,
Transformada Watershed
1
Introdução
O rápido desenvolvimento de sistemas de imagens
médicas tem aprimorado os diagnósticos e suas interpretações. Na indústria odontológica, o procedimento assistido por computador como implante
dentário, planejamento ortodôntico entre outros é
cada vez mais utilizado. Identificar as estruturas
dos dentes é apenas uma das etapas destes procedimentos. Para este propósito a segmentação
é um processo necessário na grande maioria dos
casos de análise de dentes em imagens.
O processo de segmentação em imagens dentárias é uma tarefa difı́cil de ser realizada em processamento digital de imagens. Esta dificuldade
força, na maioria das vezes, o uso de diferentes algoritmos de segmentação para diferentes etapas ou
imagens analizadas. As imagens dentárias podem
ser utilizadas de maneiras diferentes fornecendo
modelos 2D (bidimensional) ou 3D (tridimensional). Dentre as principais utilizadas na prática
temos as radiografias, as fotografias e de tomografia computadorizada.
Muitos esforços foram feitos nessa área para
desenvolver métodos que gerem bons resultados
para diferentes tipos de imagens. Algumas técnicas fazem uso de algoritmos baseados em propriedades estatı́ticas (Choorat et al., 2011), análise
de filtro (Li et al., 2010), morfologia matemática
(Mahsa Sepehrian, 2013) entre outros.
Na saúde bucal coletiva o profissional é responsável pelo diagnóstico dos problemas de saúde
oral em uma comunidade por meio de levantamentos epidemiológicos. A inspeção visual bucal é um
procedimento comumente realizado por estes profissionais, mas possui fatores limitantes, como por
exemplo o número limitado de profissionais habilitados para realização desta tarefa e diferentes
interpretações de diagnósticos.
Com o intuito de tornar esta atividade um
processo ágil, eficiente e de baixo custo foi proposto pelo departamento de odontologia em parceria com departamento de computação, ambos
da Universidade Federal do Rio Grande do Norte
- UFRN, o desenvolvimento de um sistema inteligente capaz de fazer a contagem e classificação dos
dentes de forma automática a partir de imagens
digitais, obtidas através de câmeras intraorais.
Atualmente o sistema é capaz de fazer a contagem de dentes em uma imagem digital oclusal intraoral. Nessa etapa foi proposta uma técnica de aquisição de imagens, que se ajusta as limitações enfrentadas pelos agentes de saúde em
campo, além de favorecer o seu processamento.
Para tanto, foram realizadas diversas medições de
angulação de inclinação e distância da câmera de
aquisição, onde cada uma das amostras foram avaliadas quanto ao seu resultado no processo de contagem.
Dando continuidade ao trabalho desenvolvido,
este artigo propõe uma metodologia para segmentação e detecção das regiões de contorno dos
dentes nas imagens. Estas sub-etapas são prérequisitos para o procedimento de classificação dos
tipos de dentes, atualmente em desenvolvimento.
O método proposto faz uso combinado de técnicas de aprendizado supervisionado e de processamento digital de imagens, em destaque máquina
de vetores de suporte (Support Vector Machine SVM ) e transformada watershed.
A segmentação é baseada nas cores dos dentes e não dentes presentes na imagem realizada
através da utilização da SVM, técnica usada tanto
para problemas de classificação como de regressão.
Em seguida a detecção de contorno dos dentes é feita através do uso da transformada watershed, técnica proposta por Beucher and Lantuejoul (1979) como um modelo geofı́sico de decaimento da chuva em um terreno. A idéia é que uma
gota de chuva caindo em uma superfı́cie irá gotejar através do caminho de descida mais ı́ngreme
até um mı́nimo (Beare and Lehmann, 2006).
Este artigo está organizado da seguinte forma:
Na seção 2 é feita uma revisão bibliográfica da
SVM. Na seção 3 é explicada a metodologia desenvolvida para segmentação individual dos dentes em imagens. Os resultados são descritos na
seção 4. Finalmente, na seção 5, as conclusões são
discutidas.
2
Máquinas de Vetores de Suporte
Uma breve revisão sobre máquina de vetores de
suporte será feita.
A SVM é um classificador de padrões embasado na teoria de aprendizado estatı́stico, proposto por (Vapnick, 1995), que busca encontrar
uma superfı́cie de separação ótima, minimizando
os erros de classificação. Ela pode ser usada tanto
na solução de problemas linearmente quanto não
linearmente separáveis.
Dado um conjunto de treinamento linearmente separável X com n objetos x ∈ X e suas
respectivas classes de saı́das distintas y ∈ Y, em
que Y = {−1, +1}, o hiperplano ótimo que separa
a duas classes é dado pela expressão:
f (x) = w.x + b
(1)
de forma que w.x é o produto escalar entre x e
b
é a
w, vetor normal ao hiperplano ótimo, e ||w||
distância do hiperplano à origem, para um b ∈ <.
A partir da definição do hiperplano, o conjunto de entrada pode ser separado em duas regiões:
(
w.x + b > 0
(2)
f (x) =
w.x + b < 0
Através do uso de uma função sinal sgn(f (x)),
os pontos de X mais próximos do hiperplano canônico, w.x + b = 0, formam as margens de separação (vetores de suporte) e são definidos como:
|w.x + b| = 1
(3)
O problema é restringido de forma que não
ocorram dados de treinamentos entre as margens
de separação (SVM com margens rı́gidas). Na
prática, fatores como ruı́dos, outliers entre outros
fatores tornam a tarefa de separação através de
margens rı́gidas mais difı́ceis. Para que o processo
de separação torne-se mais maleável são inseridas
variáveis de folgas ξ. Essas folgas tornam as margens mais flexı́veis (SVM com margens suaves),
de forma que os vetores de suporte sejam definidos como:
y (w.x + b) − 1 + ξ ≥ 0
(4)
Segundo Campbell (2000), a maximização da
margem de separação dos objetos em relação a
w.x + b = 0 pode ser obtida pela minimização de ||w||. Com a inserção das variáveis de
folga o problema de minimização é definido como
(Burges, 1998):
!
n
X
1
2
ξi
(5)
min ||w|| + C
w,b,ξ 2
i=1
onde C é um termo de regularização que impõe
um peso à minimização dos erros no conjunto de
treinamento em relação à minimização da complexidade do modelo (Katti Facelli, 2011).
O problema de minimização é um problema
de otimização quadrático com restrições lineares e
pode ser resolvido através do uso de multiplicadores de Lagrange. Com isso, o problema de maximização das margens suáveis para separação ótima
dos dados é definido como (Katti Facelli, 2011):
max
α
n
X
i=1
n
1 X
αi αj yi yj (xi . xj )
αi −
2 i,j=1
(
0 ≤ αi ≤ C, ∀i = 1, ..., n
Restrições: Pn
αy =0
i=1 i i
(6)
(7)
sendo α o parâmetro denominado multiplicador de Lagrange.
No caso de padrões não linearmente separáveis, deve ser feito um mapeamento Φ do espaço
de entradas X para o espaço de caracterı́sticas =.
Segundo o teorema de Cover (Haykin, 1999) para
que esse mapeamento garanta com alta probabilidade a separação dos objetos, a transformação
deve ser não linear e o espaço de caracterı́sticas
ter dimensão suficientemente alta.
Mapeando o problema de otimização tem-se
que:
max
α
n
X
i=1
αi −
n
1 X
αi αj yi yj (Φ(xi ) . Φ(xj )) (8)
2 i,j=1
Através do uso de funções kernel K o produto
escalar do espaço de entradas é calculado no espaço de caracterı́sticas (Herbrich, 2001), com isso
tem-se que:
K(xi , xj ) = Φ(xi )Φ(xj )
(9)
Segundo Mercer (1909), qualquer função kernel positiva semi-definida satisfaz a relação:
n
X
αi αj K(xi , xj ) ≥ 0
(10)
i,j=1
Uma vez feito o mapeamento, a otimização
segue como nos casos linearmente separáveis.
3
Método de Segmentação
Em resumo, como mostrado na figura 1, o processo
de segmentação dos dentes a partir de imagens digitais intrabucais oclusais é basicamente definido
em três etapas. A imagem utilizada passa por
um pré-processamento, em seguida acontece a segmentação, onde ocorre a identificação e detecção
dos limites das regiões de interesse. Como resultado são obtidas as regiões de contorno de cada
dente presente na imagem.
3.1
Pré-processamento
O pré-processamento de imagens é um procedimento utilizado com frequência em problemas de
reconhecimento de padrões. Tem como intuito
adequar os dados de entrada para diferentes objetivos, a fim de obter a melhor solução possı́vel
para um determinado problema.
A imagem digital é representada por uma matriz de pixels, menores elementos em uma imagem
digital, que podem receber um valor lógico numa
imagem binária, um nı́vel de cinza em uma imagem preta e branca, ou um vetor de valores RGB
(vermelho, verde, azul; em inglês), em imagens
coloridas, com valores que variam de 0 a 255, que
podem ser normalizados de 0 a 1 (Gonzalez and
Woods, 2010).
Nesta etapa, o dado de entrada é uma imagem digital intrabucal oclusal no sistema de cor
Figura 1: Diagrama de blocos da metodologia proposta
RGB obtida a partir da metodologia de acquisição de imagem descrita na introdução. Existem
ainda outros tipos de representações de imagens,
neste caso, é utilizado a representação denominada YCbCr que será detalhada na seção 3.1.2.
3.1.1
Adaptação de escala
Devido as diferentes escalas resultantes do processo de aquisição da imagem, é realizado um procedimento de adaptação de escala, que reduz ou
amplia a imagem para que seja atingida dimensões
próximas de 640 x 480 pixels.
3.1.2
Conversão RGB para YCbCr
O modelo YCbCr possui redundâncias que podem
ser eliminadas sem prejuı́zo a imagem, tornando os
arquivos de imagens menores sem grande perdas
visuais.
Neste modelo, o Y representa a luminância de
uma imagem, enquanto o Cb representa a crominância azul (B - Y) e o Cr a crominância vermelha
(R - Y). O processo de conversão de RGB para
YCbCr é dado pela seguinte equação:



Y
0.29900
 Cb  =  -0.16874
Cr
0.50000
0.58700
-0.33126
-0.41868


0.11400
R
0.50000   G 
-0.08131
B
(11)

 
 

Y’
Y
0
 Cb’  =  Cb  +  128 
Cr’
Cr
128
(12)
Como descrito por Acharya and Tsai (2005),
as camadas Cb e Cr podem resultar em valores
negativos. Para que sua representação fique entre
0 e 255 é necessário adicionar o escalar 128 e fazer
o seu arredondamento.
3.1.3
Ajuste de Constraste
Para conseguir um melhor contraste aplica-se em
cada camada um aumento de contraste, evidenciando as caracterı́sticas da imagem. A figura 2
mostra o processo de conversão RGB para YCbCr
e o ajuste de contraste.
A etapa de preenchimento de buracos é baseada na técnica de transformação morfológica chamada de reconstrução morfológica por erosão. Basicamente a reconstrução é feita através da erosão
de uma máscara de imagem em função de um marcador de imagem que em geral é a própria imagem.
Dado z ∈ F, sendo F uma imagem de entrada
e B um elemento estruturante, a operação de erosão é definida pela equação abaixo:
F B = {z|(B)z ⊆ F }
Após o preenchimento dos buracos a imagem
sofre uma nova erosão para que ruı́dos e elementos indesejados sejam removidos. Estes procedimentos descritos podem ser observados na figura
3. Ela representa a identificação das regiões de
interesse: (a) Imagem binária de saı́da do classificador; (b) Imagem com buracos preenchidos; (c)
Aplicação da operação morfológica de erosão para
eliminação de ruı́dos e regiões indesejadas.
(a)
Figura 2: Imagem RGB convertida para YCbCr
com ajuste de constraste
3.2
Segmentação
3.2.1
Segmentação por cores
A partir da conversão e ajuste de contraste da
imagem, a segmentação é feita através do uso de
um classificador SVM. Cada pixel da imagem é
classificado como dente ou não dente, que para
este problema foram configuradas como amostras
variadas de cores de dentes e restaurações em uma
classe, e gengiva, lı́ngua e outras texturas bucais
na segunda classe. A saı́da do classificador é uma
imagem binária com as regiões de interesse identificadas, acrescida de ruı́dos e regiões indesejadas,
ver figura 3a. Em seguida, aplica-se a técnica de
reconstrução morfológica por erosão para que regiões indesejadas, como os buracos de imagens e
ruı́dos sejam reduzidas ou eliminadas, como demonstrado a seguir.
3.2.2
Operadores morfológicos
Segundo Soille (2002), buracos de imagens binárias são definidos como um conjunto de componentes de fundo que não são conectados as bordas da
imagem. Seguindo esta ideia, podemos dizer que
buracos são conjuntos de pixels de fundo (pretos)
cercados por pixels de primeiro plano (branco) que
não se conectam as bordas dos objetos.
(13)
(b)
(c)
Figura 3: Etapas de identificação das regiões de
interesse
A combinação das técnicas de preenchimento
de buracos e erosão utilizadas na eliminação de
regiões indesejadas retorna uma imagem binária
adequada para o mapeamento de distância das regiões de interesse. A imagem de distância é utilizada pelo algoritmo watershed e ambas as técnicas
serão explicadas com mais detalhes nas subseções
adiante.
3.2.3
Transformada Watershed
Com a segmentação e adequação da imagem é necessário que as fronteiras das regiões de interesse
sejam detectadas para que cada dente seja individualmente segmentado. Neste trabalho é utilizada a transformada watershed, técnica baseada
na morfologia matemática inspirada na detecção
de superfı́cies em bacias hidrográficas.
A transformada watershed é utilizada principalmente em imagens gradiente. Nela é feita a
detecção das bacias hidrográficas de todos os mı́nimos presentes na imagem de gradientes. Meyer
(1994), define a imagem gradiente como relevos
topográficos. Este relevo sofre um processo de
inundação uniforme a partir de seus mı́nimos regionais. A partir do momento em que as inundações começam a se misturar, barreiras são erguidas
para evitar que isto aconteça, estas barreiras são
conhecidas como linhas de watershed.
A existência de muitos mı́nimos regionas podem levar a um problema de sobresegmentação.
Para que isto não aconteça é feito o uso de marcadores. Neste caso, um conjunto de marcadores é
detectado para cada objeto presente na imagem,
inclusive o fundo. Em seguida o processo de inundação é feito a partir de mı́nimos regionais identicos aos dos marcadores. Após a inundação a
imagem é segmentada de maneira que cada parte
contenha apenas um marcador.
Esta breve descrição intuitiva pode ser definida de forma mais rigorosa. Antes devemos definir a distância topográfica de cada região identificada, ou seja, devemos obter a imagem gradiente.
O cálculo da distância é feito a partir da métrica
de distância chessboard, analogia ao movimento do
rei em um jogo de xadrez. O cálculo depende apenas das coordenadas dos pixels e é definido pela
equação 10 como sendo:
conhecidos como pixels de watershed. O elemento
0 não pertence a nenhuma região watershed. Os
elementos rotulados como 1 pertencem a primeira
região watershed identificada, os elementos rotulados como 2 pertencem a segunda região watershed identificada e assim por diante, gerando
como saı́da uma matriz de rótulos que representam as regiões de interesse segmentadas.
As etapas descritas anteriormente podem ser
observadas na figura 4: (a) Imagem gradiente; (b)
Regiões de contorno.
(b)
(a)
max(|x1 − x2 |, |y1 − y2 |)
(14)
Segundo Meyer (1994), considerando f uma
função distância a partir de <2 em <, supp(f )
como suporte de f, T o intervalo de < e γ uma
função continua de T em supp(f ). Sendo (T, γ) o
caminho contido no suporte de f e Γ(p, q) o conjunto de todos os caminhos entre os pontos p e q, a
distância topográfica entre dois pontos no espaço
continuo é defnida como:
Z
DT (p, q) =
|∇f (γ(s))|ds
inf
γ∈Γ(p,q)
(15)
γ
onde o módulo do gradiente da função f representa
a variação topográfica de f.
As bacias hidrográficas BH(mi ) dos mı́nimos regionais mi como conjunto de pontos x ∈
supp(f ) que estão mais próximos de mi do que
outro mı́nimo regional para a distância topográfica são definidas como:
∀j ∈ I, j 6= i ⇒ DT (x, mi ) < DT (x, mj )
(16)
Descrevendo as linhas de watershed da função f como o conjunto de pontos do suporte de f
que não pertencem a nenhuma bacia hidrográfica
como:
W sh(f ) = supp(f ) ∩ [∪(BH(mi ))]c
i
(17)
Pode-se observar que o algoritmo de integração de imagens é na verdade um algoritmo usado
para computar distâncias ponderadas, ou seja, é o
mesmo que computar o caminho de custo mı́nimo
entre os pixels (Verbeek and Verwer, 1990). O tamanho do caminho de custo mı́nimo é na verdade
a distância topográfica.
Aplicando-se a transformada watershed na
imagem gradiente os elementos são rotulados com
números inteiros maiores ou iguais a zero e são
Figura 4: Identificação das regiões de contorno
através de imagens gradientes
4
Resultados
O método proposto foi desenvolvido no ambiente
de programação Matlab R2013a.
Foram utilizadas 31 imagens no processo de
segmentação de dentes tanto na etapa de separação por cores quanto na detecção das regiões de
contorno.
Na segmentação por cores foi utilizado um
conjunto de dados composto de 22353 pontos de 3
dimensões (YCbCr), representando os pixels pertencentes às classes dentes e não dentes. O conjunto de dados foi divido pela metade, 50% para
treinamento e 50% para teste. Os processos de
treinamento e de teste foram realizados repetidas
vezes para diferentes funções kernel. Ao término
do processo de repetição foram obtidas as informações estatı́sticas de média e variância dos resultados obtidos demostrados na tabela 1 a seguir:
Função Kernel
Quadrático
RBF
MLP
Acerto(%)
96.59
98.13
72.83
Variância
0.01
0.01
4.46
Tabela 1: Resultado da segmentação por cores dos
dentes presentes nas imagens dentais
Na detecção de contornos dos dentes das imagens utilizadas foram visualmente contabilizados
um total de 340 dentes, em que 76 deles são molares, 89 pré-molares, 59 caninos e 116 incisivos,
desconsiderado-se os terceiros molares. Através da
metodologia utilizada foi possı́vel obter uma taxa
de 87,35% de segmentação dos dentes presentes
nas imagens utilizadas.
A tabela 2 mostra de forma concisa os resultados obtidos durante o processo de reconhecimento
dos dentes.
Dentes
Molares
Pré molares
Caninos
Incisivos
Total
Presentes
76
89
59
116
340
Segmentados
56
75
58
108
297
Acerto(%)
73.68
84.27
98.31
93.10
87.35
Tabela 2: Resultado da detecção de contorno dos
dentes presentes nas imagens dentais
Problemas como dentes encobertos por lı́ngua, iluminação entre outros interferem principalmente na performance da segmentação dos dentes
molares (região mais interna da boca). Outro fator limitante está na geração dos marcadores utilizados como mı́nimos regionais nas imagens gradientes para a segmentação watershed.
5
Conclusões
Beucher and Lantuejoul (1979). Use of watershed
in contour detection, pp. 17–21.
Burges, C. J. (1998). A Tutorial on Support Vector Machines for Pattern Recognition, pp. 1–
43.
Campbell, C. (2000). Radial Basis Function
Networks: Design and Applications, Springer Verlag pp. 155–192.
Choorat, P., Chiracharit, W. and Chamnongthai,
K. (2011). A single tooth segmentation using
structural orientations and statistical textures, 4th Biomedical Engineering International Conference pp. 294–297.
Gonzalez, R. C. and Woods, R. E. (2010). Digital
Image Processing, 3 edn, Pearson.
Haykin, S. (1999). Neural Networks: A Comprehensive Foundation, 2 edn, BOOKMAN.
Herbrich, R. (2001). Learning Kernel Classifiers
Theory and Algorithms, MIT Press.
O uso combinado das técnicas de aprendizado supervisionado e processamento digital de imagens
se mostrou promissor na solução deste problema.
O modelo YCbCr utilizado no préprocessamento das imagem tornou as classes
mais separáveis, resultando em uma segmentação
por cores mais robusta.
A utilização da máquina de vetores de suporte
em conjunto com a utilização de operadores morfológicos e transformada watershed, reduziram os
ruı́dos na segmentação e identificaram de forma
adequada as regiões de interesse.
No futuro o processo de segmentação pode ser
aperfeiçoado e modificado através da inserção de
novos elementos restritivos para novas aplicações.
Katti Facelli, Ana Carolins Lorena, J. G. A. C.
P. L. F. d. C. (2011). Inteligência Artificial
- Uma abordagem de Aprendizado de Máquinas, 1 edn, GEN.
Agradecimentos
Mercer, J. (1909). Functions of positive and negative type, and their connection with the
theory of integral equations, 209: 441–458.
Este trabalho foi financiado pelo Conselho Nacional de Desenvolvimento Cientı́fico e Tecnológico
(CNPq).
Os autores gostariam de agradecer ao departamento de odontologia da Universidade Federal
do Rio Grande do Norte - UFRN pela idealização
desse trabalho e por toda assistência fornecida.
Li, H., Guo, L., Chen, T., Wang, X. and Yang, L.
(2010). The corner detector of teeth image
based on the improved SUSAN algorithm,
3rd International Conference on Biomedical
Engineering and Informatic 2: 609–612.
Mahsa Sepehrian, Ali M. Deylami, R. A. Z.
(2013). Individual Teeth Segmentation in
CBCT and MSCT Dental Images Using Watershed, 20th Iranian Conference on Biomedical Engineering pp. 27–30.
Meyer, F. (1994). Topographic distance and watershed lines, Signal Processing 38: 113–225.
Soille, P. (2002). Morphological Image Analysis, 2
edn, Springer.
Refer^
encias
Vapnick, V. (1995). The nature of statistical learning theory, Springer-Verlag .
Acharya, T. and Tsai, P.-S. (2005). JPEG2000
Standard for Image Compression: Concepts,
Algorithms and VLSI Architectures, 1 edn,
Wiley.
Verbeek, P. W. and Verwer, B. (1990). Shading
from shape, the eikonal equation solved by
grey-weighted distance transform, pp. 681–
690.
Beare, R. and Lehmann, G. (2006). The watershed
transform in itk - discussion and new developments, Insight Journal [Online] Available
from: http://hdl.handle.net/1926/202 .