Thiago Buchler
([email protected]): é formado em Processamento
de Dados pela Universidade Unicsul e atua na área de
desenvolvimento de software há 8 anos. Atualmente é
gerente de projetos e responsável pela arquitetura dos
sistemas em Java da Agência Digital Gommo. É sócio da
empresa Buchler Tecnologia, especializada em Consultoria
em Soluções para aplicações Web, com foco em SEO e
armazenamento de informações de alto volume.
Construa Aplicações
Utilizando o Poderoso Apache Solr como
Engine de Buscas
Utilize as funcionalidades
similares aos maiores
buscadores do mundo e
agregue relevância aos
seus resultados
O Solr possui todas as principais funcionalidades dos principais buscadores
da Internet, diferente do popular comando “LIKE” que utilizamos para
pesquisas convencionais nos bancos de dados. Se beneficie dessa poderosa
API de busca e deixe o seu site muito mais atrativo.
ão podemos negar que o Google revolucionou a Internet
e nos tornou dependentes de suas ferramentas. Dentre
elas, a utilização de sua busca e do GMail entre os usuários de Internet é notória, mas não podemos esquecer de outras
tão importantes como o AdSense, AdWords, Analitycs etc. No
meio desse pool de aplicações, existe um aspecto que o torna diferencial e que é a base de todo desenvolvimento, que é a maneira
como o Google organiza e categoriza informações. Chegam a ser
assustadores os resultados exibidos nas pesquisas, principalmente
quando observamos a data em que o conteúdo foi indexado. E
claro que esse novo modelo acabou fazendo com que os outros
buscadores refizessem suas engines de busca, para que o resultado
seja cada vez mais relevante e o mais próximo do que o usuário
realmente quis buscar.
Até agora estamos falando do Google, engine de busca, conteúdo,
indexação e você deve estar pensando o que isso tem a ver com
este artigo? Tem muito a ver, pois vou falar de uma API de busca
muito poderosa e altamente escalável, com diversas funcionalidades para enriquecer suas pesquisas.
Neste artigo falaremos um pouco sobre a API de busca da Apache,
P-VDFOF7BNPTDPOIFDFSBMHVNBTQBSUJDVMBSJEBEFTCFOFGÓDJPTF
como podemos tirar proveito deles. Em seguida, conheceremos
realmente o Solr e como ele veio complementar as funcionaliEBEFT FYJTUFOUFT OP -VDFOF 7BNPT DSJBS VN ÓOEJDF EF $&1 EF
estados, mostrando a adição e consulta da informação no índice.
Falaremos também sobre a ferramenta lukeall, um bom utilitário
para trabalharmos com os índices.
35
: : www.mundoj.com.br : :
Lucene
O Lucene (http://Lucene.apache.org/) é um projeto de busca de
texto open-source da Apache, que conta com uma poderosa engine de pesquisa que se utiliza de diversos analisadores (Analyzers)
que garantem a relevância do termo que está sendo pesquisado,
através de um algoritmo que vai dando pontos (Score) para os
SFHJTUSPT7BMFMFNCSBSRVFÏOFDFTTÈSJPFTUSVUVSBSPOPTTPÓOEJDF
e fazer a escolha certa do analisador, para se trabalhar com o Lucene. A implementação default da API, se utiliza de FileSystem para
armazenar as informações, mas também existe a possibilidade de
utilizarmos o armazenamento em memória. Dentre suas principais características podemos destacar:
t TVHFTUÜFTEFUFSNPTCBTFBEPOPDPOUFÞEPJOEFYBEPNBJTDPnhecido como: “você quis dizer:”;
t PQÎÍPEFIJHIMJHIUEFTUBRVFEFUFSNP
QBSBPDPOUFÞEPQFTquisado;
t BMHPSJUNPRVFSBORVFJBPTUFSNPTCBTFBEPOBSFMFWÉODJBEBJOformação que está sendo indexada (Score). Esse algoritmo influencia direto na ordenação do retorno de uma pesquisa;
t BJOGPSNBÎÍPÏQFSTJTUJEBFNVNBSRVJWPFN'JMF4ZTUFNFPSHBnizada como se fosse um índice de um livro, de uma forma que
a recuperação dos termos indexados é facilmente retornada;
t VNBTÏSJFEFBOBMJTBEPSFTEJGFSFOUFTPRVFQFSNJUFRVFPDPOteúdo seja indexado e pesquisado da forma mais eficiente, com
opção de usarmos um analisador para cada campo (Field) armazenado.
O Score é um assunto muito abrangente e extenso para detalharmos neste artigo, mas é muito importante termos a compreensão
de como um termo é avaliado dentro do índice. Caso queira se
aprofundar um pouco mais no assunto, veja a Classe Similarity no
Javadoc do Apache Lucene (http://Lucene.apache.org/java/2_4_1/
api/org/apache/Lucene/search/Similarity.html). Este link estará
também nas referências ao final do artigo.
Afinal, o Lucene é um Banco de Dados?
Se pesquisarmos a definição de banco de dados no site Wikipédia
(http://pt.wikipedia.org/wiki/Banco_de_dados), podemos afirmar que
sim, pois segundo ele “Um banco de dados (ou base de dados), é um
conjunto de registros dispostos em estrutura regular que possibilita a
reorganização dos mesmos e produção de informação. Um banco de
dados normalmente agrupa registros utilizáveis para um mesmo fim”.
Porém ele não é um Banco de Dados Relacional (RDBMS).
Podemos definir que o índice Lucene de uma única tabela, na qual não
temos como realizar a normalização das informações e sem o suporte
para as consultas relacionais (JOINS). Pode parecer estranho se imaginarmos como podemos substituir um banco de dados e utilizarmos o
Lucene, pois não conseguiríamos colocar em prática as boas práticas de
modelagem de um banco de dados normalizado, para evitarmos a redundância de informação (figura 1). Mas a ideia do Lucene não é essa e
sim oferecer uma forma melhor para realizarmos as pesquisas, agregando funcionalidades que seriam bem complexas e nada performáticas
para implementarmos utilizando um banco de dados relacional.
Score
Como já comentado anteriormente, o Score é o responsável por
DBUFHPSJ[BSBSFMFWÉODJBEFVNDPOUFÞEP7BNPTDPOIFDFSBHPSB
com um pouco mais de detalhes, alguns dos fatores que influenciam o resultado.
Para o Score fazer sentido devemos analisar o resultado de uma
pesquisa e não termos isolados, pois é comum vermos que o score
de um termo possa ser 0.22 e, a primeira vista, parece ser um valor bem baixo de relevância e importância do conteúdo. Porém ao
analisar o mesmo termo em uma busca com mais resultados, percebemos que a faixa de valor atribuída para outros termos respeita
um limite e vemos que esse valor não é baixo ou de pouca relevância como pensamos a princípio. A análise de um documento deve
sempre ser feita baseada em outros resultados do mesmo índice
e sua relevância se faz dentro desse mesmo universo. Conheça
alguns dos fatores que influenciam na composição do Score:
t 'SFRVÐODJBEP5FSNPQBMBWSB
RVBOUPNBJTWF[FTVNUFSNP
é encontrado em um campo pesquisado de um documento,
maior fica sua pontuação.
t 1PTJÎÍP*OWFSTBEP%PDVNFOUPDPSSFTQPOEFBPOÞNFSPFN
que o documento aparece no resultado do termo pesquisado.
Seria o inverso da frequência do documento, só que ligada
diretamente com o score. Resumindo, termos mais raros possuem um score maior.
t $PNQSJNFOUPEPDBNQPRVBOUPNFOPSPDBNQPFNDBSBDUFres) do termo indexado que está sendo pesquisado. Exemplo,
caso exista uma banda Legião e outra Legião Urbana e a busca for realizada apenas por Legião, o documento que contém
apenas o termo Legião receberá uma pontuação maior, pois
possui apenas um termo enquanto o outro possui dois.
36
'JHVSB&YFNQMPEFOPSNBMJ[BÎÍPFÓOEJDF
Além de pensarmos que podemos contar apenas com uma tabela,
devemos ter conhecimento que não conseguimos atualizar um
documento no índice, ou seja, caso precise atualizar, devemos
excluir o documento e inserir um novo com a correção.
Para Saber Mais
Caso você deseje saber um pouco mais sobre como utilizar
a API do Apache Lucene direto, sem utilizar o Apache Solr,
confira o artigo “Introdução ao Apache Lucene” publicado
na edição número 14. O artigo contém um ótimo conteúdo
abrangendo assuntos não relatados aqui, como, por exemplo,
os Analysers, entre outros.
A nossa proposta neste artigo não é explicarmos o Apache Lucene,
e sim conhecermos e entendermos as funcionalidades que o Solr vai
agregar, mesmo porque podemos conferir um ótimo artigo na MundoJ sobre o Lucene, na edição de número 14. Agora que conhecemos
o básico sobre o Apache Lucene, vamos falar sobre o Solr.
Solr
O Solr é um servidor autônomo de pesquisa que roda dentro
de um Web Container como o Tomcat, Jetty, dentre outros, que
usa o Apache Lucene como seu núcleo de pesquisas. O artigo
começa falando do Lucene, pois os dois são facilmente confundidos, porém já sabemos qual a real função de ambos. O Solr
veio para complementar e agregar diversas funcionalidades, como
trabalharmos com buscas distribuídas, replicações dos índices,
clusterização, integração com banco de dados etc. Essa quantidade de novos recursos faz com que o Solr seja altamente escalável,
garantindo todos os principais requisitos que são utilizados nos
maiores sites de buscas do mundo, fazendo com que empresas
DPNPB"55/BTB"QQMF%JTOFZ.57$/&5BEFSJTTFNBFTTB
poderosa engine de busca. Confira mais clientes que aderiram à
utilização através do link http://wiki.apache.org/solr/PublicServers. Junto dessas funcionalidades essenciais para se trabalhar em
um ambiente escalável, podemos destacar também:
t TVQPSUFBSFRVJTJÎÜFTFN)551QBSBJOEFYBÎÍPFDPOTVMUBEF
documentos;
t JNQMFNFOUBÎÜFTEF$BDIFQBSBSFTQPTUBTNBJTSÈQJEBT
t *OUFSGBDF"ENJOJTUSBUJWBWJB8FCOBRVBMQPEFNPTWJTVBMJ[BS
o schema do índice, realizar pesquisas, fazer uma análise de
desempenho dos termos, dentre outras funções;
t DSJBÎÍPEPÓOEJDFBUSBWÏTEF9.-
t JODMVTÍPEFTVHFTUÍPEFQFTRVJTBCBTFBEPOBDPSSFÎÍPPSUPgráfica do termo pesquisado. O famoso “você quis dizer”.
Outras linguagens
Como o Solr trabalha com requisições HTTP com respostas em
XML/Json, ele é facilmente integrado com qualquer outra linguagem como Python, .Net, Ruby, PHP, Perl etc.
Instalando e configurando o Solr
Depois de conhecermos a API, vamos ao que realmente interessa.
Siga os passos abaixo para fazer o download do Solr. No momento
da escrita deste artigo, a versão disponível era a 1.4.0, cujo download possui 59Mb.
1- No site do Solr, na página principal, clique no link “DownloBE4PMSIFSFwOBTFÎÍPi(FU4UBSUFEw7PDÐWBJTFSEJSFDJPOBEP
para a página de escolha de Mirrors. Após clicar em um deles,
entre no diretório 1.4.0/ e baixe o arquivo apache-solr-1.4.0
(zip ou tgz) ou equivalente.
2- Extraia o conteúdo do pacote em um diretório de sua preferência.
Conhecendo o conteúdo do arquivo baixado
Dentro do arquivo baixado temos tudo o que precisamos para
usar o Solr e suas funcionalidades. Conheça as pastas mais importantes nesse nosso início de aprendizado:
t EJTUEJSFUØSJPEFEJTUSJCVJÎÍPOPRVBMmDBPXBSEP4PMS4FS-
ver, no caso apache-solr-1.4.0.war. Com ele, pode-se publicar
em algum container de sua preferência;
t EPDTEPDVNFOUBÎÍPEB"1*²QSBUJDBNFOUFPTJUFEP"QBDIF
Solr off-line. Uma ótima fonte para tirarmos eventuais dúvidas;
t FYBNQMF DPOUÏN VNB JOTUBMBÎÍP EP 4PMS VTBOEP P TFSWJEPS
+FUUZ7BNPTEFTFOWPMWFSOPTTPBQSFOEJ[BEPVTBOEPBTGVODJPnalidades encontradas nesse diretório;
t MJCUPEBTBT"1*TFEFQFOEÐODJBTEP4PMS-VDFOFFVUJMJUÈSJPT
como Apache Commons e Stax para processameno de XML.
Dentro do diretório extraído, vamos focar no diretório example.
7BNPTDPNFÎBSJOJDJBOEPP4PMS7ÈOPEJSFUØSJP%*3&503*0@
DE_INSTALACAO/apache-solr-1.4.0/example e nele execute o
seguinte comando:
java -jar start.jar
Isso vai fazer com que o Solr seja iniciado utilizando o servidor
Jetty, previamente configurado. Percebemos no log que são carregados e configurados diversos Handlers e componentes para as
mais diversas funções, que estão configurados no seu arquivo de
configuração. Se a última linha do seu console for algo parecido
com “Started SocketConnector @ 0.0.0.0:8983”, é só você abrir
o seu navegador e digitar http://localhost:8983/solr e conferir se
você visualiza a página de boas-vindas (figura 2).
Figura 2. Página de Saudação do Solr.
Na página existe um link para o painel administrativo, porém
vamos discutir sobre ele em detalhes em um tópico mais a frente.
Configuração do Jetty
O arquivo de configuração do container está em localizado em /
DIRETORIO_DE_INSTALACAO/solr/apache-solr-1.4.0/example/
etc/jetty.xml, caso precisem realizar alguma modificação ou personalização. Basta alterar e reiniciar o server.
Criando um índice
Um ponto que facilitou muito a utilização do índice e que o
Solr agregou, foi a opção de configurá-lo através de um arquivo
XML. O arquivo que contém a configuração do índice no Solr é
o schema.xml, localizado em /DIRETORIO_DE_INSTALACAO/
BQBDIFTPMSFYBNQMFTPMSDPOG7BNPTBCSJMPFBMUFSBSQBSB
começarmos a fazer nosso índice de CEPs.
O arquivo schema.xml é muito grande para colocarmos na íntegra
neste artigo, por isso vou destacar apenas a parte responsável pelo
índice que é o nó fields do schema, que está localizado aproximadamente na linha 399. Por padrão, vem um índice de produtos
configurados, como podemos conferir na Listagem 1.
Diferentemente do Lucene, vemos que no índice Solr podemos
atribuir o tipo de cada campo como string, float, boolean, date
e inclusive podemos personalizar formatos como o text, textgen,
37
: : www.mundoj.com.br : :
textTight, os quais estão declarados através do nó xml fieldType.
O fieldType é composto por um ou mais analyzers nos quais, além
de informar o seu tokenizador, definimos todos os filtros para
pesquisa e indexação que devem ser utilizados apenas naquele
campo. Podemos definir formas diferentes para realizarmos a
indexação e pesquisa do conteúdo, porém não é muito usual esse
tipo de procedimento, pois quando o conteúdo é indexado ele
aplica os filtros para analisar o conteúdo e atribuir o score, quando
pesquisamos utilizando outro tipo de filtro, acabamos perdendo
UPEBSFMFWÉODJB7BNPTBMUFSBSQBSBPÓOEJDFEB-JTUBHFN
Listagem 1. Índice de produtos padrão.
<fields>
<field name=”id” type=”string” indexed=”true” stored=”true”
required=”true” />
<field name=”sku” type=”textTight” indexed=”true” stored=”true”
omitNorms=”true”/>
<field name=”name” type=”textgen” indexed=”true” stored=”true”/>
<field name=”alphaNameSort” type=”alphaOnlySort” indexed=”true”
stored=”false”/>
<field name=”manu” type=”textgen” indexed=”true” stored=”true”
omitNorms=”true”/>
<field name=”cat” type=”text_ws” indexed=”true” stored=”true”
multiValued=”true” omitNorms=”true” />
<field name=”features” type=”text” indexed=”true” stored=”true”
multiValued=”true”/>
<field name=”includes” type=”text” indexed=”true” stored=”true”
termVectors=”true” termPositions=”true” termOffsets=”true” />
<field name=”weight” type=”float” indexed=”true” stored=”true”/>
<field name=”price” type=”float” indexed=”true” stored=”true”/>
<field name=”popularity” type=”int” indexed=”true” stored=”true” />
<field name=”inStock” type=”boolean” indexed=”true” stored=”true” />
<field name=”title” type=”text” indexed=”true” stored=”true”
multiValued=”true”/>
<field name=”subject” type=”text” indexed=”true” stored=”true”/>
<field name=”description” type=”text” indexed=”true” stored=”true”/>
<field name=”comments” type=”text” indexed=”true” stored=”true”/>
<field name=”author” type=”textgen” indexed=”true” stored=”true”/>
<field name=”keywords” type=”textgen” indexed=”true”
stored=”true”/>
<field name=”category” type=”textgen” indexed=”true” stored=”true”/>
<field name=”content_type” type=”string” indexed=”true” stored=”true”
multiValued=”true”/>
<field name=”last_modified” type=”date” indexed=”true”
stored=”true”/>
<field name=”links” type=”string” indexed=”true” stored=”true”
multiValued=”true”/>
<field name=”text” type=”text” indexed=”true” stored=”false”
multiValued=”true”/>
<field name=”text_rev” type=”text_rev” indexed=”true” stored=”false”
multiValued=”true”/>
<field name=”manu_exact” type=”string” indexed=”true”
stored=”false”/>
<field name=”payloads” type=”payloads” indexed=”true”
stored=”true”/>
<field name=”timestamp” type=”date” indexed=”true” stored=”true”
default=”NOW” multiValued=”false”/>
</fields>
38
Analise antes de criar
O principal segredo da construção e utilização de um índice é
saber estruturá-lo fazendo uma boa análise de como o conteúdo
deve ser armazenado e pesquisado.
Listagem 2. Índice de CEP.
<fields>
<field name=”id” type=”string” indexed=”true” stored=”true”
required=”true” />
<field name=”cep” type=”string” indexed=”true” stored=”true”/>
<field name=”logradouro” type=”text” indexed=”true”
stored=”true”/>
<field name=”bairro” type=”string” indexed=”false” stored=”true”/>
<field name=”localidade” type=”text” indexed=”false” stored=”true”/>
<field name=”uf” type=”string” indexed=”true” stored=”true”/>
</fields>
Agora já que alteramos a estrutura do nosso índice, devemos
informar no schema qual o campo de pesquisa padrão do Solr.
Listagem 3. Alteração do campo default de pesquisa.
<defaultSearchField>logradouro</defaultSearchField>
7BNPTFOUFOEFSDPNPmDPVOPTTPÓOEJDF&TUBNPTSFBMJ[BOEPPBSNBzenamento de todas informações, porém podemos apenas pesquisar
nos fields cep, logradouro e uf, sendo que o id é a nossa chave primária
do documento e o logradouro o campo default de pesquisa não é informado! Com isso, terminamos nossa alteração na estruturação de um
novo índice. Caso queira alterar o campo ou o nome da chave primária, devemos alterar o nome dentro da tag <uniqueKey>, informando
o nome da nova chave. Com isso, agora é só restartarmos o servidor e
conferir se não ocorreu nenhuma exception no log do console.
Manipulando os documentos
Como comentei no começo do artigo, a interface para manipulação dos documentos são em XML, então vamos construir alguns
XMLs para adicionarmos no nosso índice. Crie um diretório ceps
dentro de /DIRETORIO_DE_INSTALACAO/apache-solr-1.4.0/
example e copie o post.jar dentro do diretório exampledocs para
dentro do diretório criado.
Já no diretório de ceps, crie os arquivo post1.xml, post2.xml e
post3.xml com os respectivos conteúdos.
Listagem 4. Conteúdo do arquivo post1.xml.
<add>
<doc>
<field name=”id”>0001</field>
<field name=”cep”>03551000</field>
<field name=”logradouro”>Avenida Cachoeira Paulista</field>
<field name=”bairro”>Cidade Patriarca</field>
<field name=”localidade”>São Paulo</field>
<field name=”uf”>SP</field>
</doc>
</add>
Listagem 5. Conteúdo do arquivo post2.xml.
<add>
<doc>
<field name=”id”>0002</field>
<field name=”cep”>01311000</field>
<field name=”logradouro”>Avenida Paulista</field>
<field name=”bairro”>Bela Vista</field>
<field name=”localidade”>São Paulo</field>
<field name=”uf”>SP</field>
</doc>
</add>
Listagem 6. Conteúdo do arquivo post3.xml.
<add>
<doc>
<field name=”id”>0003</field>
<field name=”cep”>21721150</field>
<field name=”logradouro”>Rua Projetada B</field>
<field name=”bairro”>Santa Cruz</field>
<field name=”localidade”>Rio de Janeiro</field>
<field name=”uf”>RJ</field>
</doc>
</add>
Após a criação dos arquivos, nosso diretório deve estar igual a
figura 3.
Listagem 7. Resposta exibida no log.
SimplePostTool: version 1.2
SimplePostTool: WARNING: Make sure your XML documents are encoded in
UTF-8, other encodings are not currently supported
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file post1.xml
SimplePostTool: POSTing file post2.xml
SimplePostTool: POSTing file post3.xml
SimplePostTool: COMMITting Solr index changes..
Antes de iniciar a adição dos conteúdos, o Solr executa uma requisição de update e logo após postar os conteúdos, ele se encarrega
de realizar o commit das informações no índice. A parte do commit funciona como utilizamos nos banco de dados tradicionais.
Para executar uma ação de update, devemos repetir os mesmos
passos que fizemos para adicionar um documento. O Solr sempre
insere o documento quando realizamos a indexação, ou seja, caso
ele não exista no índice, o documento é incluído e caso exista,
o documento é atualizado. Essa configuração é default, e pode
ser alterada no xml de configuração (solrconfig.xml). Para realizarmos a deleção de um documento, devemos criar um XML e
podemos informar qual é a uniqueKey (chave única) que deve ser
excluída ou uma query, como podemos ver nas Listagens 8 e 11,
respectivamente:
Listagem 8. Exclusão de documento no índice por uniqueKey.
<delete><id>0123</id></delete>
Listagem 9. Exclusão de documento no índice por query.
<delete><query>uf:MG</query></delete>
Painel administrativo
Figura 3. Diretório com os posts.
Agora com o servidor startado, vamos executar as adições dos
conteúdos. No diretório de ceps execute o comando:
java -jar post.jar *.xml
Se não ocorreu nada errado, veremos como resposta da execução
do nosso comando a listagem de posts que foram realizados no
Solr Server. A resposta deve ser parecida com:
Agora que já conhecemos um pouco sobre a forma em que o Solr
trabalha e sua configuração, vamos conhecer o seu painel administrativo. A primeira coisa que pensamos quando imaginamos
um painel administrativo, seria uma interface onde podemos realizar as alterações e configurações que desejamos, porém o painel
administrativo que é disponibilizado, funciona mais como uma
interface para consulta e análise do índice. Ele não possui funcionalidades para realizarmos as alterações diretamente no admin,
em compensação, conseguimos conhecer e saber muitos detalhes
do índice, servidor, realizar consultas, entre outras.
Admin(Home)
7BNPTDPOIFDFSVNQPVDPEPRVFTFSFGFSFDBEBJOGPSNBÎÍP
t "TFHVOEBMJOIBOPUF#VTI
ÏPOPNFEBNÈRVJOBFB
porta no qual o servidor está usando.
t $XETFSFGFSFBPEJSFUØSJPFNmMFTZTUFNRVFFTUÈPTFSWJEPSF
logo a frente no SolrHome, o nome do contexto, no caso solr/.
t 4DIFNBFYJCFEJSFUPEPCSPXTFSPTDIFNB9.-
EPÓOEJDF
que configuramos no início do artigo.
39
: : www.mundoj.com.br : :
t $POmH Ï TJNJMBS Ë PQÎÍP EP TDIFNB QPSÏN WJTVBMJ[BNPT P
arquivo de configuração do Solr.
t 4UBUJTUJDTOPTSFWFMBBTFTUBUÓTUJDBTDPNPUFNQPEFJOEFYBÎÜFT
cachê, entre outros.
t *OGPÏVNBMJTUBHFNTPCSFBTWFSTÜFTEPTDPNQPOFOUFTJOUFSnos do Solr. Esse tipo de informação não nos interessa muito.
t %JTUSJCVUJPO FYJCF P TUBUVT EB %JTUSJCVJÎÍP3FQMJDBÎÍP FOUSF
os índices, quando configurado. Como o foco artigo não se
estende a parte de clusterização, não vamos nos aprofundar
nessa sessão.
t 1JOHÏVUJMJ[BEPQBSBTBCFSTFP4PMSFTUÈOPBSFBUFOEFOEPBT
solicitações. É muito utilizado para configurarmos alertas de
infraestrutura.
t -PHHJOHQFSNJUFBKVTUBSPTOÓWFJTEFMPHQBSBEJGFSFOUFTQBSUFT
do Solr em tempo de execução. Como estamos usando o startup (Jetty) que veio junto com o pacote, vemos a saída direto
no console apenas.
t .BLFB2VFSZQPEFNPTSFBMJ[BSDPOTVMUBTEJSFUPOPÓOEJDFPV
acessar uma pesquisa mais detalhada através do link full interface.
t "TTJTUBODFQPTTVÓNPTMJOLT QBSB BDFTTBSB EPDVNFOUBÎÍPEP
projeto (documentation), as solicitações de correções de eventuais bugs da aplicação (issue tracker), enviar um e-mail para
a equipe de desenvolvimento (send mail) e o link para a página com a sintaxe para construirmos as queries (Solr query
sintaxe). Conseguimos saber também a data em que o server
foi iniciado.
Através do Schema Browser, podemos conhecer como nossos
termos (palavras) foram indexadas no índice e acompanhar a frequência dos principais termos, separados pelos fieds. Isso é muito
importante para sabermos se indexamos de maneira correta a nossa informação. A figura 5 exibe o conteúdo do field logradouro.
Query (Pesquisas)
A composição das querys para elaborarmos nossas pesquisas é
um pouco diferente do que conhecemos nos tradicionais banco
de dados transacionais. Conheça agora as principais sintaxes para
construirmos nossas querys, através da tabela 1.
Query SQL
Query Solr
cep=
+cep:
cep in (xx, yy)
+cep:()
cep <> xx
-cep:
logradouro like '%xxx%'
+logradouro:
AND
AND
OR
OR
5BCFMB$POIFDFOEPBTJOUBYFEFRVFSZOP4PMS-VDFOF
Podemos ver que não é nenhum “bicho de sete cabeças” a sintaxe
para realizarmos as consultas. As mudanças que vemos são na
forma de utilizarmos o like, o in e <> (diferente). Agora que já
criamos nosso índice, indexamos o conteúdo e conhecemos o
administrativo, vamos finalmente testar nossas pesquisas.
Syntax de Consulta
Listagem 10. Pesquisa por CEP.
Figura 4. Home do Painel administrativo.
Schema Browser
'JHVSB"OÈMJTFEPDPOUFÞEPEPmFMEMPHSBEPVSP
40
<response>
<lst name=”responseHeader”>
<int name=”status”>0</int>
<int name=”QTime”>0</int>
<lst name=”params”>
<str name=”indent”>on</str>
<str name=”rows”>10</str>
<str name=”start”>0</str>
<str name=”q”>cep:03551000</str>
<str name=”version”>2.2</str>
</lst>
</lst>
<result name=”response” numFound=”1” start=”0”>
<doc>
<str name=”bairro”>Cidade Patriarca</str>
<str name=”cep”>03551000</str>
<str name=”id”>0001</str>
<str name=”localidade”>São Paulo</str>
<str name=”logradouro”>Avenida Cachoeira Paulista</str>
<str name=”uf”>SP</str>
</doc>
</result>
</response>
Para saber e conhecer as outras opções de consulta, acesse os
links Lucene Query Parser Syntax e Solr Query Syntax que estão
listados nas referências do artigo.
Primeiramente, vamos pesquisar por um determinado cep específico, no caso o 03551000. No Query String disponível no admin,
realize a seguinte query:
cep:03551000
Ao executarmos devemos ter o mesmo resultado da Listagem 10.
Na resposta do XML, vamos dividir em dois principais elementos,
o header de resposta (responseHeader) e o resultado (result).
Dentro do nó de parâmetros (params) disponível no header, vemos os parâmetros utilizados para consulta e paginação:
t SPXTRVBOUJEBEFNÈYJNBEFEPDVNFOUPTEFSFTQPTUB
t TUBSUEPDVNFOUPRVFBDPOTVMUBJOJDJPV
t RRVFSZFOWJBEBQBSBDPOTVMUB
O nó de resultado (result) retorna a resposta da pesquisa, com a
quantidade de documentos que foram retornados (numFound),
OPOPTTPDBTP7BNPTSFBMJ[BSVNOPWPUFTUFFQFTRVJTBSQPS
endereços cujo o estado seja SP. No Query String disponível no
admin, realize a seguinte query uf:SP. Ao executarmos, confira se
o resultado é o mesmo da Listagem 11.
Listagem 12. Pesquisa composta.
<response>
<lst name=”responseHeader”>
<int name=”status”>0</int>
<int name=”QTime”>1</int>
<lst name=”params”>
<str name=”indent”>on</str>
<str name=”rows”>10</str>
<str name=”start”>0</str>
<str name=”q”>uf:SP +logradouro:Cachoeira</str>
<str name=”version”>2.2</str>
</lst>
</lst>
<result name=”response” numFound=”1” start=”0”>
<doc>
<str name=”bairro”>Cidade Patriarca</str>
<str name=”cep”>03551000</str>
<str name=”id”>0001</str>
<str name=”localidade”>São Paulo</str>
<str name=”logradouro”>Avenida Cachoeira Paulista</str>
<str name=”uf”>SP</str>
</doc>
</result>
</response>
Listagem 11. Pesquisa por estado.
<response>
<lst name=”responseHeader”>
<int name=”status”>0</int>
<int name=”QTime”>0</int>
<lst name=”params”>
<str name=”indent”>on</str>
<str name=”rows”>10</str>
<str name=”start”>0</str>
<str name=”q”>uf:SP</str>
<str name=”version”>2.2</str>
</lst>
</lst>
<result name=”response” numFound=”2” start=”0”>
<doc>
<str name=”bairro”>Cidade Patriarca</str>
<str name=”cep”>03551000</str>
<str name=”id”>0001</str>
<str name=”localidade”>São Paulo</str>
<str name=”logradouro”>Avenida Cachoeira Paulista</str>
<str name=”uf”>SP</str>
</doc>
<doc>
<str name=”bairro”>Bela Vista</str>
<str name=”cep”>01311000</str>
<str name=”id”>0002</str>
<str name=”localidade”>São Paulo</str>
<str name=”logradouro”>Avenida Paulista</str>
<str name=”uf”>SP</str>
</doc>
</result>
E, por último, vamos fazer um teste pesquisando todos os "estados" de São Paulo (SP) onde o logradouro contenha a palavra
Cachoeira. Execute a seguinte query uf:SP +logradouro:Cachoeira
e confira se o resultado é o mesmo da Listagem 12.
Agora que já conhecemos como realizar as pesquisas, só precisamos montar nossas novas consultas e desfrutarmos do Solr. Não
podemos esquecer que só conseguimos pesquisar os campos que
configuramos como indexados (indexed="true") no schema do
índice, ou seja, se tentarmos pesquisar por localidade ou bairro,
não vamos obter retorno por mais que exista a informação armazenada. Se precisar alterar essa configuração, o índice precisa ser
gerado novamente!
Considerações finais
7FNPTRVFSFBMNFOUFÏTJNQMFTDSJBSVNÓOEJDFVUJMJ[BOEPP4PMS
porém é necessário saber como a informação deve ser armazenada para modelarmos o índice. Por ser um assunto muito amplo,
procurei explicar de uma maneira bem sucinta essa poderosa
API, não aprofundando muito em termos de extrema importância
como os Filtros, a própria configuração do schema, otimizações,
pesquisas etc. Apresentaremos nos próximos artigos como utilizar
B"1*TPMSKQBSBNBOJQVMBSPÓOEJDFDPN+BWBEJSFUBNFOUFt
Referências
1BSBBQSPEVÎÍPEFTUFBSUJHPVUJMJ[FJEBTSFGFSÐODJBTBCBJYP
t-JWSP4PMS&OUFSQSJTF4FBSDI4FSWFSEF%BWJE4NJMFZ
t-VDFOFoIUUQMVDFOFBQBDIFPSH
t #VTDB QPS 4JNJMBSJEBEF o IUUQMVDFOFBQBDIFPSHKBWB@@BQJ PSHBQBDIF
MVDFOFTFBSDI
Similarity.html
t'"2-VDFOFoIUUQXJLJBQBDIFPSHMVDFOFKBWB-VDFOF'"2
t4PMSoIUUQMVDFOFBQBDIFPSHTPMS
t4PMS1SJODJQBJT'FBUVSFToIUUQMVDFOFBQBDIFPSHTPMSGFBUVSFTIUNM
t4PMS2VFSZ4ZOUBYoIUUQXJLJBQBDIFPSHTPMS4PMS2VFSZ4ZOUBY
t -VDFOF 2VFSZ 1BSTFS 4ZOUBY o IUUQMVDFOFBQBDIFPSHKBWB@@RVFSZQBSTFSsyntax.html
t4JUFT$MJFOUFTRVFVUJMJ[BN4PMSoIUUQXJLJBQBDIFPSHTPMS1VCMJD4FSWFST
t8JLJQÏEJB#BODPEF%BEPToIUUQQUXJLJQFEJBPSHXJLJ#BODP@EF@EBEPT
t#VDIMFS$POTVMUPSJBoIUUQXXXCVDIMFSDPNCS
41
Download

Construa Aplicações Utilizando o Poderoso Apache Solr