Busca em DICAS
Busca na Internet
Cadernos de Informática
DICAS de MPB
DICAS do Charlab
DICAS do Editor
DICAS dos Leitores
DICAS por E-mail
Internet Kids
Notas na Imprensa
Internet Radios
Internet Shopping
Internet TV
Revistas de Informática
Software na Internet
Turismo Virtual


Os Oráculos da Internet - série de reportagens de Sérgio Charlab, sobre os instrumentos de busca da Internet, conforme publicado na sua coluna "Ciberespaço", do Jornal do Brasil, e que o mesmo, gentilmente, nos autorizou a reproduzir, em DICAS da Semana.


Os Oráculos Digitais: HotBot (Tutorial, parte 3)

O que é o que é? Azul piscina com verde abacate, enorme, e com um buraquinho no meio para você, digamos, exercitar a interatividade?

É o HotBot, que anuncia o maior arquivo de páginas Web existente, com 54 milhões de URLs arquivadas. Quando surgiu, em maio de 1996, vinha com uma assinatura de peso: a da revista Wired! Era o ingresso da Wired no mercado de mecanismos de busca (search engines), que então já movimentava mais de uma dezena de empresas, todas disputando atenção dos usuários e o dinheiro de anunciantes e investidores de Wall Street.

Funciona com tecnologia do Inktomi e passou um sufoco danado nas primeiras semanas de lançamento, quando um monte de gente correu para usá-lo e o HotBot não deu conta do recado. Mas se refez e hoje, de um modo geral, não parece ser mais lento do que o Altavista, para citar apenas a usual referência de rapidez.

O HotBot, como qualquer mecanismo de busca, é simples de usar. No pequeno menu acima do espaço para você colocar suas palavras-chaves ou expressões, pode-se escolher antes a busca por todas as palavras ("all the words"); qualquer uma das palavras ("any of the worlds"); pela expressão ("the phrase"); pela pessoa ("the person") ou pela URL ("the URL").

"Tiririca" usada como palavra-chave (você escreve a palavra "Tiririca" no retângulo longo e estreito, de fundo branco, e aperta sua tecla "enter" ou clica com o mouse no botão à direita com a figura do alvo, onde está escrito "search") traz 57 citações no Hotbot (contra apenas 31 no Altavista). "Tiririca Florentina" traz 11 citações. E assim vai: quanto mais precisa for sua busca (em número de palavras utilizadas), mas focado será seu resultado.

Ainda mais específico do que duas palavras é uma expressão de duas palavras. Se você procura informações sobre o conjunto "Iron Maiden" não deve escrever as palavras "iron" e "maiden", mas sim a expressão "Iron Maiden". A resposta não levará em conta a quantidade de vezes que, por exemplo, a palavra "iron" aparece, mas sim a quantidade de vezes que estas duas palavras aparecem tal qual você as escreveu, lado a lado e com um espaço entre elas. Isso significa uma queda de 15.672 citações para 8.738. (Naturalmente, o Iron Maiden é muito popular, mas vamos ver logo adiante o que fazer num caso destes, diante de tão numeroso resultado de uma busca.) No HotBot, a terminologia disso é "phrase" em vez de "all the worlds". Prefira usar sempre "phrase" quando for possível. O Altavista, já vimos, é menos amistoso, pois em vez de oferecer a opção em menu (como o HotBot, que ainda oferece a notação de aspas) apenas aceita o posicionamento dos sinais de aspas.

Coisas interessantes por trás da tecnologia do HotBot são a identificação do browser do usuário, de modo que a página apresentada seja adequada à capacidade de exibição do browser em sua respectiva versão, e a possibilidade de exibir propaganda valendo-se desta informação e também das palavras utilizadas na busca. Mas há muitas promessas ainda. Não é capaz, por exemplo, de fazer uma busca por proximidade de palavras, tal qual o Altavista.

Mesmo assim, o HotBot é muito mais do que um mecanismo de busca cor de abacate. Você pode fazer buscas por tipo de arquivo, local geográfico, domínio ou Web site. As coisas começam a acontecer quando você resolve deixar de ser igual à média das pessoas e arrisca clicar a palavra "modify", à esquerda, na área sob fundo azul. Trata-se da possibilidade de adicionar ou retirar itens de busca. Com o menu "must", "should" e "must not" você define o que deve entrar ou não. "Jornal do Brasil" como expressão de busca e "Charlab" usado sob a configuração "must not" trará como respostas as páginas do "JB" sem referências ao meu nome. "Must" e "should" fazem a mesma coisa e a sutil diferença entre os dois é que o segundo dá ênfase à palavra usada, mas mostra todas as respostas; o primeiro só mostra as respostas que contenham a palavra usada naquele campo.

Lembra das 8.738 citações do Iron Maiden? Vamos reduzi-las! Digamos que você queira ver apenas as páginas que sejam frequentemente atualizadas. Nesse caso, pode ser uma boa idéia usar o "must" com uma palavra adicional, como "Blaze", nome do novo vocalista do Iron Maiden. A resposta passa a ser 425 citações. Uma vitória diante das 8.738 ou das originais 15.672. Digamos que você nem queira ver coisas que falem do passado da banda. Então, clique mais uma vez no sinal de mais "+" ao lado do botão "modify" e use o "must not" com a palavra "bruce" (vocalista anterior e que passou o maior período de anos com a banda). Resultado: 160. E se você quiser saber quais são as páginas mais completas, que respeitam o presente e o mais remoto passado? Use três "must": "blaze", "bruce" e "di'anno" (este último, o primeiríssimo vocalista da banda). O resultado é de apenas 38, mostrando que a memória anda curta.

Naturalmente você não precisa conhecer a história do Iron Maiden para aprender a utilizar o HotBot! É um exemplo. No seu campo de interesse, você poderá agir de forma semelhante. Os melhores resultados de uma busca virão sempre a partir de uma boa dose de reflexão ("elementar, meu caro Watson!").

Mas se você realmente quiser deixar de ser igual à média das pessoas, clique no botão "expert", logo embaixo do "modify". Vá brincando por ali. Semana que vem você confere, na continuação da série, as informações que eu preparei descrevendo estas novas opções. Mas quer uma dica (para usuários do Windows 95 apenas)? Busque pela palavra "powertoys" e use a condição "Media Type", "Extensions" e escreva "exe". Eu instalei aqui e gostei. Mas se você o fizer, é por sua conta e risco.

Esta foi a terceira parte da série sobre os mecanismos de busca e indexadores da Internet. Quem perdeu uma das partes anteriores pode pedir o texto digital enviando mensagem para este endereço especial: charlab@charlab.com.br. Histórias verdadeiras, instrutivas ou pitorescas, sobre o uso de mecanismos de busca são bem-vindas e devem ser enviadas para meu endereço usual, charlab@ax.apc.org. As melhores serão publicadas, com o crédito do autor. Também estou reunindo piadas relacionadas com a Internet. Serão publicadas, com crédito de quem as enviou, em alguma data entre hoje e o dia primeiro de abril. Inclusive.


* Sérgio Charlab (charlab@ax.apc.org) é editor-chefe de Seleções do Reader's Digest, colunista de "Ciberespaço" do Jornal do Brasil e autor dos livros "Você e a Internet no Brasil" e "O Seu Futuro Eletrônico".