Thiago Buchler ([email protected]): é formado em Processamento de Dados pela Universidade Unicsul e atua na área de desenvolvimento de software há 8 anos. Atualmente é gerente de projetos e responsável pela arquitetura dos sistemas em Java da Agência Digital Gommo. É sócio da empresa Buchler Tecnologia, especializada em Consultoria em Soluções para aplicações Web, com foco em SEO e armazenamento de informações de alto volume. Construa Aplicações Utilizando o Poderoso Apache Solr como Engine de Buscas Utilize as funcionalidades similares aos maiores buscadores do mundo e agregue relevância aos seus resultados O Solr possui todas as principais funcionalidades dos principais buscadores da Internet, diferente do popular comando “LIKE” que utilizamos para pesquisas convencionais nos bancos de dados. Se beneficie dessa poderosa API de busca e deixe o seu site muito mais atrativo. ão podemos negar que o Google revolucionou a Internet e nos tornou dependentes de suas ferramentas. Dentre elas, a utilização de sua busca e do GMail entre os usuários de Internet é notória, mas não podemos esquecer de outras tão importantes como o AdSense, AdWords, Analitycs etc. No meio desse pool de aplicações, existe um aspecto que o torna diferencial e que é a base de todo desenvolvimento, que é a maneira como o Google organiza e categoriza informações. Chegam a ser assustadores os resultados exibidos nas pesquisas, principalmente quando observamos a data em que o conteúdo foi indexado. E claro que esse novo modelo acabou fazendo com que os outros buscadores refizessem suas engines de busca, para que o resultado seja cada vez mais relevante e o mais próximo do que o usuário realmente quis buscar. Até agora estamos falando do Google, engine de busca, conteúdo, indexação e você deve estar pensando o que isso tem a ver com este artigo? Tem muito a ver, pois vou falar de uma API de busca muito poderosa e altamente escalável, com diversas funcionalidades para enriquecer suas pesquisas. Neste artigo falaremos um pouco sobre a API de busca da Apache, P-VDFOF7BNPTDPOIFDFSBMHVNBTQBSUJDVMBSJEBEFTCFOFGÓDJPTF como podemos tirar proveito deles. Em seguida, conheceremos realmente o Solr e como ele veio complementar as funcionaliEBEFT FYJTUFOUFT OP -VDFOF 7BNPT DSJBS VN ÓOEJDF EF $&1 EF estados, mostrando a adição e consulta da informação no índice. Falaremos também sobre a ferramenta lukeall, um bom utilitário para trabalharmos com os índices. 35 : : www.mundoj.com.br : : Lucene O Lucene (http://Lucene.apache.org/) é um projeto de busca de texto open-source da Apache, que conta com uma poderosa engine de pesquisa que se utiliza de diversos analisadores (Analyzers) que garantem a relevância do termo que está sendo pesquisado, através de um algoritmo que vai dando pontos (Score) para os SFHJTUSPT7BMFMFNCSBSRVFÏOFDFTTÈSJPFTUSVUVSBSPOPTTPÓOEJDF e fazer a escolha certa do analisador, para se trabalhar com o Lucene. A implementação default da API, se utiliza de FileSystem para armazenar as informações, mas também existe a possibilidade de utilizarmos o armazenamento em memória. Dentre suas principais características podemos destacar: t TVHFTUÜFTEFUFSNPTCBTFBEPOPDPOUFÞEPJOEFYBEPNBJTDPnhecido como: “você quis dizer:”; t PQÎÍPEFIJHIMJHIUEFTUBRVFEFUFSNP QBSBPDPOUFÞEPQFTquisado; t BMHPSJUNPRVFSBORVFJBPTUFSNPTCBTFBEPOBSFMFWÉODJBEBJOformação que está sendo indexada (Score). Esse algoritmo influencia direto na ordenação do retorno de uma pesquisa; t BJOGPSNBÎÍPÏQFSTJTUJEBFNVNBSRVJWPFN'JMF4ZTUFNFPSHBnizada como se fosse um índice de um livro, de uma forma que a recuperação dos termos indexados é facilmente retornada; t VNBTÏSJFEFBOBMJTBEPSFTEJGFSFOUFTPRVFQFSNJUFRVFPDPOteúdo seja indexado e pesquisado da forma mais eficiente, com opção de usarmos um analisador para cada campo (Field) armazenado. O Score é um assunto muito abrangente e extenso para detalharmos neste artigo, mas é muito importante termos a compreensão de como um termo é avaliado dentro do índice. Caso queira se aprofundar um pouco mais no assunto, veja a Classe Similarity no Javadoc do Apache Lucene (http://Lucene.apache.org/java/2_4_1/ api/org/apache/Lucene/search/Similarity.html). Este link estará também nas referências ao final do artigo. Afinal, o Lucene é um Banco de Dados? Se pesquisarmos a definição de banco de dados no site Wikipédia (http://pt.wikipedia.org/wiki/Banco_de_dados), podemos afirmar que sim, pois segundo ele “Um banco de dados (ou base de dados), é um conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação. Um banco de dados normalmente agrupa registros utilizáveis para um mesmo fim”. Porém ele não é um Banco de Dados Relacional (RDBMS). Podemos definir que o índice Lucene de uma única tabela, na qual não temos como realizar a normalização das informações e sem o suporte para as consultas relacionais (JOINS). Pode parecer estranho se imaginarmos como podemos substituir um banco de dados e utilizarmos o Lucene, pois não conseguiríamos colocar em prática as boas práticas de modelagem de um banco de dados normalizado, para evitarmos a redundância de informação (figura 1). Mas a ideia do Lucene não é essa e sim oferecer uma forma melhor para realizarmos as pesquisas, agregando funcionalidades que seriam bem complexas e nada performáticas para implementarmos utilizando um banco de dados relacional. Score Como já comentado anteriormente, o Score é o responsável por DBUFHPSJ[BSBSFMFWÉODJBEFVNDPOUFÞEP7BNPTDPOIFDFSBHPSB com um pouco mais de detalhes, alguns dos fatores que influenciam o resultado. Para o Score fazer sentido devemos analisar o resultado de uma pesquisa e não termos isolados, pois é comum vermos que o score de um termo possa ser 0.22 e, a primeira vista, parece ser um valor bem baixo de relevância e importância do conteúdo. Porém ao analisar o mesmo termo em uma busca com mais resultados, percebemos que a faixa de valor atribuída para outros termos respeita um limite e vemos que esse valor não é baixo ou de pouca relevância como pensamos a princípio. A análise de um documento deve sempre ser feita baseada em outros resultados do mesmo índice e sua relevância se faz dentro desse mesmo universo. Conheça alguns dos fatores que influenciam na composição do Score: t 'SFRVÐODJBEP5FSNPQBMBWSB RVBOUPNBJTWF[FTVNUFSNP é encontrado em um campo pesquisado de um documento, maior fica sua pontuação. t 1PTJÎÍP*OWFSTBEP%PDVNFOUPDPSSFTQPOEFBPOÞNFSPFN que o documento aparece no resultado do termo pesquisado. Seria o inverso da frequência do documento, só que ligada diretamente com o score. Resumindo, termos mais raros possuem um score maior. t $PNQSJNFOUPEPDBNQPRVBOUPNFOPSPDBNQPFNDBSBDUFres) do termo indexado que está sendo pesquisado. Exemplo, caso exista uma banda Legião e outra Legião Urbana e a busca for realizada apenas por Legião, o documento que contém apenas o termo Legião receberá uma pontuação maior, pois possui apenas um termo enquanto o outro possui dois. 36 'JHVSB&YFNQMPEFOPSNBMJ[BÎÍPFÓOEJDF Além de pensarmos que podemos contar apenas com uma tabela, devemos ter conhecimento que não conseguimos atualizar um documento no índice, ou seja, caso precise atualizar, devemos excluir o documento e inserir um novo com a correção. Para Saber Mais Caso você deseje saber um pouco mais sobre como utilizar a API do Apache Lucene direto, sem utilizar o Apache Solr, confira o artigo “Introdução ao Apache Lucene” publicado na edição número 14. O artigo contém um ótimo conteúdo abrangendo assuntos não relatados aqui, como, por exemplo, os Analysers, entre outros. A nossa proposta neste artigo não é explicarmos o Apache Lucene, e sim conhecermos e entendermos as funcionalidades que o Solr vai agregar, mesmo porque podemos conferir um ótimo artigo na MundoJ sobre o Lucene, na edição de número 14. Agora que conhecemos o básico sobre o Apache Lucene, vamos falar sobre o Solr. Solr O Solr é um servidor autônomo de pesquisa que roda dentro de um Web Container como o Tomcat, Jetty, dentre outros, que usa o Apache Lucene como seu núcleo de pesquisas. O artigo começa falando do Lucene, pois os dois são facilmente confundidos, porém já sabemos qual a real função de ambos. O Solr veio para complementar e agregar diversas funcionalidades, como trabalharmos com buscas distribuídas, replicações dos índices, clusterização, integração com banco de dados etc. Essa quantidade de novos recursos faz com que o Solr seja altamente escalável, garantindo todos os principais requisitos que são utilizados nos maiores sites de buscas do mundo, fazendo com que empresas DPNPB"55/BTB"QQMF%JTOFZ.57$/&5BEFSJTTFNBFTTB poderosa engine de busca. Confira mais clientes que aderiram à utilização através do link http://wiki.apache.org/solr/PublicServers. Junto dessas funcionalidades essenciais para se trabalhar em um ambiente escalável, podemos destacar também: t TVQPSUFBSFRVJTJÎÜFTFN)551QBSBJOEFYBÎÍPFDPOTVMUBEF documentos; t JNQMFNFOUBÎÜFTEF$BDIFQBSBSFTQPTUBTNBJTSÈQJEBT t *OUFSGBDF"ENJOJTUSBUJWBWJB8FCOBRVBMQPEFNPTWJTVBMJ[BS o schema do índice, realizar pesquisas, fazer uma análise de desempenho dos termos, dentre outras funções; t DSJBÎÍPEPÓOEJDFBUSBWÏTEF9.- t JODMVTÍPEFTVHFTUÍPEFQFTRVJTBCBTFBEPOBDPSSFÎÍPPSUPgráfica do termo pesquisado. O famoso “você quis dizer”. Outras linguagens Como o Solr trabalha com requisições HTTP com respostas em XML/Json, ele é facilmente integrado com qualquer outra linguagem como Python, .Net, Ruby, PHP, Perl etc. Instalando e configurando o Solr Depois de conhecermos a API, vamos ao que realmente interessa. Siga os passos abaixo para fazer o download do Solr. No momento da escrita deste artigo, a versão disponível era a 1.4.0, cujo download possui 59Mb. 1- No site do Solr, na página principal, clique no link “DownloBE4PMSIFSFwOBTFÎÍPi(FU4UBSUFEw7PDÐWBJTFSEJSFDJPOBEP para a página de escolha de Mirrors. Após clicar em um deles, entre no diretório 1.4.0/ e baixe o arquivo apache-solr-1.4.0 (zip ou tgz) ou equivalente. 2- Extraia o conteúdo do pacote em um diretório de sua preferência. Conhecendo o conteúdo do arquivo baixado Dentro do arquivo baixado temos tudo o que precisamos para usar o Solr e suas funcionalidades. Conheça as pastas mais importantes nesse nosso início de aprendizado: t EJTUEJSFUØSJPEFEJTUSJCVJÎÍPOPRVBMmDBPXBSEP4PMS4FS- ver, no caso apache-solr-1.4.0.war. Com ele, pode-se publicar em algum container de sua preferência; t EPDTEPDVNFOUBÎÍPEB"1*²QSBUJDBNFOUFPTJUFEP"QBDIF Solr off-line. Uma ótima fonte para tirarmos eventuais dúvidas; t FYBNQMF DPOUÏN VNB JOTUBMBÎÍP EP 4PMS VTBOEP P TFSWJEPS +FUUZ7BNPTEFTFOWPMWFSOPTTPBQSFOEJ[BEPVTBOEPBTGVODJPnalidades encontradas nesse diretório; t MJCUPEBTBT"1*TFEFQFOEÐODJBTEP4PMS-VDFOFFVUJMJUÈSJPT como Apache Commons e Stax para processameno de XML. Dentro do diretório extraído, vamos focar no diretório example. 7BNPTDPNFÎBSJOJDJBOEPP4PMS7ÈOPEJSFUØSJP%*3&503*0@ DE_INSTALACAO/apache-solr-1.4.0/example e nele execute o seguinte comando: java -jar start.jar Isso vai fazer com que o Solr seja iniciado utilizando o servidor Jetty, previamente configurado. Percebemos no log que são carregados e configurados diversos Handlers e componentes para as mais diversas funções, que estão configurados no seu arquivo de configuração. Se a última linha do seu console for algo parecido com “Started SocketConnector @ 0.0.0.0:8983”, é só você abrir o seu navegador e digitar http://localhost:8983/solr e conferir se você visualiza a página de boas-vindas (figura 2). Figura 2. Página de Saudação do Solr. Na página existe um link para o painel administrativo, porém vamos discutir sobre ele em detalhes em um tópico mais a frente. Configuração do Jetty O arquivo de configuração do container está em localizado em / DIRETORIO_DE_INSTALACAO/solr/apache-solr-1.4.0/example/ etc/jetty.xml, caso precisem realizar alguma modificação ou personalização. Basta alterar e reiniciar o server. Criando um índice Um ponto que facilitou muito a utilização do índice e que o Solr agregou, foi a opção de configurá-lo através de um arquivo XML. O arquivo que contém a configuração do índice no Solr é o schema.xml, localizado em /DIRETORIO_DE_INSTALACAO/ BQBDIFTPMSFYBNQMFTPMSDPOG7BNPTBCSJMPFBMUFSBSQBSB começarmos a fazer nosso índice de CEPs. O arquivo schema.xml é muito grande para colocarmos na íntegra neste artigo, por isso vou destacar apenas a parte responsável pelo índice que é o nó fields do schema, que está localizado aproximadamente na linha 399. Por padrão, vem um índice de produtos configurados, como podemos conferir na Listagem 1. Diferentemente do Lucene, vemos que no índice Solr podemos atribuir o tipo de cada campo como string, float, boolean, date e inclusive podemos personalizar formatos como o text, textgen, 37 : : www.mundoj.com.br : : textTight, os quais estão declarados através do nó xml fieldType. O fieldType é composto por um ou mais analyzers nos quais, além de informar o seu tokenizador, definimos todos os filtros para pesquisa e indexação que devem ser utilizados apenas naquele campo. Podemos definir formas diferentes para realizarmos a indexação e pesquisa do conteúdo, porém não é muito usual esse tipo de procedimento, pois quando o conteúdo é indexado ele aplica os filtros para analisar o conteúdo e atribuir o score, quando pesquisamos utilizando outro tipo de filtro, acabamos perdendo UPEBSFMFWÉODJB7BNPTBMUFSBSQBSBPÓOEJDFEB-JTUBHFN Listagem 1. Índice de produtos padrão. <fields> <field name=”id” type=”string” indexed=”true” stored=”true” required=”true” /> <field name=”sku” type=”textTight” indexed=”true” stored=”true” omitNorms=”true”/> <field name=”name” type=”textgen” indexed=”true” stored=”true”/> <field name=”alphaNameSort” type=”alphaOnlySort” indexed=”true” stored=”false”/> <field name=”manu” type=”textgen” indexed=”true” stored=”true” omitNorms=”true”/> <field name=”cat” type=”text_ws” indexed=”true” stored=”true” multiValued=”true” omitNorms=”true” /> <field name=”features” type=”text” indexed=”true” stored=”true” multiValued=”true”/> <field name=”includes” type=”text” indexed=”true” stored=”true” termVectors=”true” termPositions=”true” termOffsets=”true” /> <field name=”weight” type=”float” indexed=”true” stored=”true”/> <field name=”price” type=”float” indexed=”true” stored=”true”/> <field name=”popularity” type=”int” indexed=”true” stored=”true” /> <field name=”inStock” type=”boolean” indexed=”true” stored=”true” /> <field name=”title” type=”text” indexed=”true” stored=”true” multiValued=”true”/> <field name=”subject” type=”text” indexed=”true” stored=”true”/> <field name=”description” type=”text” indexed=”true” stored=”true”/> <field name=”comments” type=”text” indexed=”true” stored=”true”/> <field name=”author” type=”textgen” indexed=”true” stored=”true”/> <field name=”keywords” type=”textgen” indexed=”true” stored=”true”/> <field name=”category” type=”textgen” indexed=”true” stored=”true”/> <field name=”content_type” type=”string” indexed=”true” stored=”true” multiValued=”true”/> <field name=”last_modified” type=”date” indexed=”true” stored=”true”/> <field name=”links” type=”string” indexed=”true” stored=”true” multiValued=”true”/> <field name=”text” type=”text” indexed=”true” stored=”false” multiValued=”true”/> <field name=”text_rev” type=”text_rev” indexed=”true” stored=”false” multiValued=”true”/> <field name=”manu_exact” type=”string” indexed=”true” stored=”false”/> <field name=”payloads” type=”payloads” indexed=”true” stored=”true”/> <field name=”timestamp” type=”date” indexed=”true” stored=”true” default=”NOW” multiValued=”false”/> </fields> 38 Analise antes de criar O principal segredo da construção e utilização de um índice é saber estruturá-lo fazendo uma boa análise de como o conteúdo deve ser armazenado e pesquisado. Listagem 2. Índice de CEP. <fields> <field name=”id” type=”string” indexed=”true” stored=”true” required=”true” /> <field name=”cep” type=”string” indexed=”true” stored=”true”/> <field name=”logradouro” type=”text” indexed=”true” stored=”true”/> <field name=”bairro” type=”string” indexed=”false” stored=”true”/> <field name=”localidade” type=”text” indexed=”false” stored=”true”/> <field name=”uf” type=”string” indexed=”true” stored=”true”/> </fields> Agora já que alteramos a estrutura do nosso índice, devemos informar no schema qual o campo de pesquisa padrão do Solr. Listagem 3. Alteração do campo default de pesquisa. <defaultSearchField>logradouro</defaultSearchField> 7BNPTFOUFOEFSDPNPmDPVOPTTPÓOEJDF&TUBNPTSFBMJ[BOEPPBSNBzenamento de todas informações, porém podemos apenas pesquisar nos fields cep, logradouro e uf, sendo que o id é a nossa chave primária do documento e o logradouro o campo default de pesquisa não é informado! Com isso, terminamos nossa alteração na estruturação de um novo índice. Caso queira alterar o campo ou o nome da chave primária, devemos alterar o nome dentro da tag <uniqueKey>, informando o nome da nova chave. Com isso, agora é só restartarmos o servidor e conferir se não ocorreu nenhuma exception no log do console. Manipulando os documentos Como comentei no começo do artigo, a interface para manipulação dos documentos são em XML, então vamos construir alguns XMLs para adicionarmos no nosso índice. Crie um diretório ceps dentro de /DIRETORIO_DE_INSTALACAO/apache-solr-1.4.0/ example e copie o post.jar dentro do diretório exampledocs para dentro do diretório criado. Já no diretório de ceps, crie os arquivo post1.xml, post2.xml e post3.xml com os respectivos conteúdos. Listagem 4. Conteúdo do arquivo post1.xml. <add> <doc> <field name=”id”>0001</field> <field name=”cep”>03551000</field> <field name=”logradouro”>Avenida Cachoeira Paulista</field> <field name=”bairro”>Cidade Patriarca</field> <field name=”localidade”>São Paulo</field> <field name=”uf”>SP</field> </doc> </add> Listagem 5. Conteúdo do arquivo post2.xml. <add> <doc> <field name=”id”>0002</field> <field name=”cep”>01311000</field> <field name=”logradouro”>Avenida Paulista</field> <field name=”bairro”>Bela Vista</field> <field name=”localidade”>São Paulo</field> <field name=”uf”>SP</field> </doc> </add> Listagem 6. Conteúdo do arquivo post3.xml. <add> <doc> <field name=”id”>0003</field> <field name=”cep”>21721150</field> <field name=”logradouro”>Rua Projetada B</field> <field name=”bairro”>Santa Cruz</field> <field name=”localidade”>Rio de Janeiro</field> <field name=”uf”>RJ</field> </doc> </add> Após a criação dos arquivos, nosso diretório deve estar igual a figura 3. Listagem 7. Resposta exibida no log. SimplePostTool: version 1.2 SimplePostTool: WARNING: Make sure your XML documents are encoded in UTF-8, other encodings are not currently supported SimplePostTool: POSTing files to http://localhost:8983/solr/update.. SimplePostTool: POSTing file post1.xml SimplePostTool: POSTing file post2.xml SimplePostTool: POSTing file post3.xml SimplePostTool: COMMITting Solr index changes.. Antes de iniciar a adição dos conteúdos, o Solr executa uma requisição de update e logo após postar os conteúdos, ele se encarrega de realizar o commit das informações no índice. A parte do commit funciona como utilizamos nos banco de dados tradicionais. Para executar uma ação de update, devemos repetir os mesmos passos que fizemos para adicionar um documento. O Solr sempre insere o documento quando realizamos a indexação, ou seja, caso ele não exista no índice, o documento é incluído e caso exista, o documento é atualizado. Essa configuração é default, e pode ser alterada no xml de configuração (solrconfig.xml). Para realizarmos a deleção de um documento, devemos criar um XML e podemos informar qual é a uniqueKey (chave única) que deve ser excluída ou uma query, como podemos ver nas Listagens 8 e 11, respectivamente: Listagem 8. Exclusão de documento no índice por uniqueKey. <delete><id>0123</id></delete> Listagem 9. Exclusão de documento no índice por query. <delete><query>uf:MG</query></delete> Painel administrativo Figura 3. Diretório com os posts. Agora com o servidor startado, vamos executar as adições dos conteúdos. No diretório de ceps execute o comando: java -jar post.jar *.xml Se não ocorreu nada errado, veremos como resposta da execução do nosso comando a listagem de posts que foram realizados no Solr Server. A resposta deve ser parecida com: Agora que já conhecemos um pouco sobre a forma em que o Solr trabalha e sua configuração, vamos conhecer o seu painel administrativo. A primeira coisa que pensamos quando imaginamos um painel administrativo, seria uma interface onde podemos realizar as alterações e configurações que desejamos, porém o painel administrativo que é disponibilizado, funciona mais como uma interface para consulta e análise do índice. Ele não possui funcionalidades para realizarmos as alterações diretamente no admin, em compensação, conseguimos conhecer e saber muitos detalhes do índice, servidor, realizar consultas, entre outras. Admin(Home) 7BNPTDPOIFDFSVNQPVDPEPRVFTFSFGFSFDBEBJOGPSNBÎÍP t "TFHVOEBMJOIBOPUF#VTI ÏPOPNFEBNÈRVJOBFB porta no qual o servidor está usando. t $XETFSFGFSFBPEJSFUØSJPFNmMFTZTUFNRVFFTUÈPTFSWJEPSF logo a frente no SolrHome, o nome do contexto, no caso solr/. t 4DIFNBFYJCFEJSFUPEPCSPXTFSPTDIFNB9.- EPÓOEJDF que configuramos no início do artigo. 39 : : www.mundoj.com.br : : t $POmH Ï TJNJMBS Ë PQÎÍP EP TDIFNB QPSÏN WJTVBMJ[BNPT P arquivo de configuração do Solr. t 4UBUJTUJDTOPTSFWFMBBTFTUBUÓTUJDBTDPNPUFNQPEFJOEFYBÎÜFT cachê, entre outros. t *OGPÏVNBMJTUBHFNTPCSFBTWFSTÜFTEPTDPNQPOFOUFTJOUFSnos do Solr. Esse tipo de informação não nos interessa muito. t %JTUSJCVUJPO FYJCF P TUBUVT EB %JTUSJCVJÎÍP3FQMJDBÎÍP FOUSF os índices, quando configurado. Como o foco artigo não se estende a parte de clusterização, não vamos nos aprofundar nessa sessão. t 1JOHÏVUJMJ[BEPQBSBTBCFSTFP4PMSFTUÈOPBSFBUFOEFOEPBT solicitações. É muito utilizado para configurarmos alertas de infraestrutura. t -PHHJOHQFSNJUFBKVTUBSPTOÓWFJTEFMPHQBSBEJGFSFOUFTQBSUFT do Solr em tempo de execução. Como estamos usando o startup (Jetty) que veio junto com o pacote, vemos a saída direto no console apenas. t .BLFB2VFSZQPEFNPTSFBMJ[BSDPOTVMUBTEJSFUPOPÓOEJDFPV acessar uma pesquisa mais detalhada através do link full interface. t "TTJTUBODFQPTTVÓNPTMJOLT QBSB BDFTTBSB EPDVNFOUBÎÍPEP projeto (documentation), as solicitações de correções de eventuais bugs da aplicação (issue tracker), enviar um e-mail para a equipe de desenvolvimento (send mail) e o link para a página com a sintaxe para construirmos as queries (Solr query sintaxe). Conseguimos saber também a data em que o server foi iniciado. Através do Schema Browser, podemos conhecer como nossos termos (palavras) foram indexadas no índice e acompanhar a frequência dos principais termos, separados pelos fieds. Isso é muito importante para sabermos se indexamos de maneira correta a nossa informação. A figura 5 exibe o conteúdo do field logradouro. Query (Pesquisas) A composição das querys para elaborarmos nossas pesquisas é um pouco diferente do que conhecemos nos tradicionais banco de dados transacionais. Conheça agora as principais sintaxes para construirmos nossas querys, através da tabela 1. Query SQL Query Solr cep= +cep: cep in (xx, yy) +cep:() cep <> xx -cep: logradouro like '%xxx%' +logradouro: AND AND OR OR 5BCFMB$POIFDFOEPBTJOUBYFEFRVFSZOP4PMS-VDFOF Podemos ver que não é nenhum “bicho de sete cabeças” a sintaxe para realizarmos as consultas. As mudanças que vemos são na forma de utilizarmos o like, o in e <> (diferente). Agora que já criamos nosso índice, indexamos o conteúdo e conhecemos o administrativo, vamos finalmente testar nossas pesquisas. Syntax de Consulta Listagem 10. Pesquisa por CEP. Figura 4. Home do Painel administrativo. Schema Browser 'JHVSB"OÈMJTFEPDPOUFÞEPEPmFMEMPHSBEPVSP 40 <response> <lst name=”responseHeader”> <int name=”status”>0</int> <int name=”QTime”>0</int> <lst name=”params”> <str name=”indent”>on</str> <str name=”rows”>10</str> <str name=”start”>0</str> <str name=”q”>cep:03551000</str> <str name=”version”>2.2</str> </lst> </lst> <result name=”response” numFound=”1” start=”0”> <doc> <str name=”bairro”>Cidade Patriarca</str> <str name=”cep”>03551000</str> <str name=”id”>0001</str> <str name=”localidade”>São Paulo</str> <str name=”logradouro”>Avenida Cachoeira Paulista</str> <str name=”uf”>SP</str> </doc> </result> </response> Para saber e conhecer as outras opções de consulta, acesse os links Lucene Query Parser Syntax e Solr Query Syntax que estão listados nas referências do artigo. Primeiramente, vamos pesquisar por um determinado cep específico, no caso o 03551000. No Query String disponível no admin, realize a seguinte query: cep:03551000 Ao executarmos devemos ter o mesmo resultado da Listagem 10. Na resposta do XML, vamos dividir em dois principais elementos, o header de resposta (responseHeader) e o resultado (result). Dentro do nó de parâmetros (params) disponível no header, vemos os parâmetros utilizados para consulta e paginação: t SPXTRVBOUJEBEFNÈYJNBEFEPDVNFOUPTEFSFTQPTUB t TUBSUEPDVNFOUPRVFBDPOTVMUBJOJDJPV t RRVFSZFOWJBEBQBSBDPOTVMUB O nó de resultado (result) retorna a resposta da pesquisa, com a quantidade de documentos que foram retornados (numFound), OPOPTTPDBTP7BNPTSFBMJ[BSVNOPWPUFTUFFQFTRVJTBSQPS endereços cujo o estado seja SP. No Query String disponível no admin, realize a seguinte query uf:SP. Ao executarmos, confira se o resultado é o mesmo da Listagem 11. Listagem 12. Pesquisa composta. <response> <lst name=”responseHeader”> <int name=”status”>0</int> <int name=”QTime”>1</int> <lst name=”params”> <str name=”indent”>on</str> <str name=”rows”>10</str> <str name=”start”>0</str> <str name=”q”>uf:SP +logradouro:Cachoeira</str> <str name=”version”>2.2</str> </lst> </lst> <result name=”response” numFound=”1” start=”0”> <doc> <str name=”bairro”>Cidade Patriarca</str> <str name=”cep”>03551000</str> <str name=”id”>0001</str> <str name=”localidade”>São Paulo</str> <str name=”logradouro”>Avenida Cachoeira Paulista</str> <str name=”uf”>SP</str> </doc> </result> </response> Listagem 11. Pesquisa por estado. <response> <lst name=”responseHeader”> <int name=”status”>0</int> <int name=”QTime”>0</int> <lst name=”params”> <str name=”indent”>on</str> <str name=”rows”>10</str> <str name=”start”>0</str> <str name=”q”>uf:SP</str> <str name=”version”>2.2</str> </lst> </lst> <result name=”response” numFound=”2” start=”0”> <doc> <str name=”bairro”>Cidade Patriarca</str> <str name=”cep”>03551000</str> <str name=”id”>0001</str> <str name=”localidade”>São Paulo</str> <str name=”logradouro”>Avenida Cachoeira Paulista</str> <str name=”uf”>SP</str> </doc> <doc> <str name=”bairro”>Bela Vista</str> <str name=”cep”>01311000</str> <str name=”id”>0002</str> <str name=”localidade”>São Paulo</str> <str name=”logradouro”>Avenida Paulista</str> <str name=”uf”>SP</str> </doc> </result> E, por último, vamos fazer um teste pesquisando todos os "estados" de São Paulo (SP) onde o logradouro contenha a palavra Cachoeira. Execute a seguinte query uf:SP +logradouro:Cachoeira e confira se o resultado é o mesmo da Listagem 12. Agora que já conhecemos como realizar as pesquisas, só precisamos montar nossas novas consultas e desfrutarmos do Solr. Não podemos esquecer que só conseguimos pesquisar os campos que configuramos como indexados (indexed="true") no schema do índice, ou seja, se tentarmos pesquisar por localidade ou bairro, não vamos obter retorno por mais que exista a informação armazenada. Se precisar alterar essa configuração, o índice precisa ser gerado novamente! Considerações finais 7FNPTRVFSFBMNFOUFÏTJNQMFTDSJBSVNÓOEJDFVUJMJ[BOEPP4PMS porém é necessário saber como a informação deve ser armazenada para modelarmos o índice. Por ser um assunto muito amplo, procurei explicar de uma maneira bem sucinta essa poderosa API, não aprofundando muito em termos de extrema importância como os Filtros, a própria configuração do schema, otimizações, pesquisas etc. Apresentaremos nos próximos artigos como utilizar B"1*TPMSKQBSBNBOJQVMBSPÓOEJDFDPN+BWBEJSFUBNFOUFt Referências 1BSBBQSPEVÎÍPEFTUFBSUJHPVUJMJ[FJEBTSFGFSÐODJBTBCBJYP t-JWSP4PMS&OUFSQSJTF4FBSDI4FSWFSEF%BWJE4NJMFZ t-VDFOFoIUUQMVDFOFBQBDIFPSH t #VTDB QPS 4JNJMBSJEBEF o IUUQMVDFOFBQBDIFPSHKBWB@@BQJ PSHBQBDIF MVDFOFTFBSDI Similarity.html t'"2-VDFOFoIUUQXJLJBQBDIFPSHMVDFOFKBWB-VDFOF'"2 t4PMSoIUUQMVDFOFBQBDIFPSHTPMS t4PMS1SJODJQBJT'FBUVSFToIUUQMVDFOFBQBDIFPSHTPMSGFBUVSFTIUNM t4PMS2VFSZ4ZOUBYoIUUQXJLJBQBDIFPSHTPMS4PMS2VFSZ4ZOUBY t -VDFOF 2VFSZ 1BSTFS 4ZOUBY o IUUQMVDFOFBQBDIFPSHKBWB@@RVFSZQBSTFSsyntax.html t4JUFT$MJFOUFTRVFVUJMJ[BN4PMSoIUUQXJLJBQBDIFPSHTPMS1VCMJD4FSWFST t8JLJQÏEJB#BODPEF%BEPToIUUQQUXJLJQFEJBPSHXJLJ#BODP@EF@EBEPT t#VDIMFS$POTVMUPSJBoIUUQXXXCVDIMFSDPNCS 41