terça-feira, 24 de maio de 2011

Como o GOOGLE funciona - PARTE 1

Olá amigos,

É um prazer poder passar para vocês um pouco do conhecimento que a vida e o profissionalismo me legou. Semanalmente estarei postando artigos referentes à Tecnologia da Informação (hardware, software, SO), enfim, o que se refere à tão temida INFORMÁTICA, que hoje é uma realidade, segredos que estão embutidos dentro dos softwares gerenciadores de informação.
Para começar, estarei demonstrando algumas técnicas que estão dentro do maior site de buscas, o Google.
É raro encontrar alguém hoje em dia que use a Internet e não conheça a ferramenta de busca "Google". Trata-se de um fenômeno da Internet atual devido especialmente a sua rápida resposta, algoritimos sensatos de classificação de páginas e sua enorme base de dados. Mas para ter essa base de dados, o Google (e ferramentas de busca em geral) são se preocupa em discriminar páginas e arquivos públicos de dados sensíveis, contando apenas com a boa administração de cada servidor para impedir a inclusão de dados sensíveis nos resultados de buscas.

COMO O GOOGLE FUNCIONA

A primeira coisa a entender é que quando você faz uma busca no Google, você não está realmente buscando a web, mas sim o índice do Google na web, ou pelo menos o quanto dessa podemos encontrar.
Fazemos isso com um software chamado "aranha" (ou spider). Os spiders começam a buscar algumas páginas webs, seguem os linkis nas páginas e buscam as quais esses links apontam, acompanham todos os links nessas outras páginas e assim por diante, até que tenham indexado um bom pedaço da web - muitos milhões de páginas armazenadas em milhares de máquinas.
Agora, vamos que você queira saber o quão rápido um leão pode correr. Você digita na busca: "velocidade corrida leão" e o Google busca em seus índices todas as páginas que incluem esse termo de busca.
Como o Google decide quais documentos você realmente quer (fatores que influenciam o ranking)? Fazendo perguntas - mais de 200 delas. Como:
  • Quantas vezes essa página contém as palavras-chave?
  •  As palavras aparecem no título, na URL, diretamente adjacentes?
  • Será que a página inclui sinônimos para essas palavras?
  • Esta página vem de um site de qualidade alta ou de qualidade baixa, até mesmo spammy?
  • Qual o Page Rank dessa página?
Essa é a fórmula criada no Google que pontua as informações de uma página, baseado na quantidade geral para cada página, então o resultado de sua busa é enviado, cerca de meio segundo depois de você fazê-la. Vamos da uma olhada no resultado da pesquisa:
  • Cada entrada inclui um título;
  • Uma URL;
  • E um trecho do texto para me ajudar a decidir se esta página é o que estou procurando.
Podemos ver também:
  • Links para páginas semelhantes;
  • A versão mais atual daquela página armazenada pelo Google.
Assim o Google cria seus índices.

Até a próxima semana.

Ah, já ia esquecendo ...
Frase da semana:
"Internet Explorer é o navegador mais usado ... para baixar outros navegadores."

Referências:
GOOGLE. Disponível em : http://www.google.com.br
SANCHES, Manuela. Como o Google funciona? Disponível em: http://www.enlinkbuiding.com.br/blog/seo-basico/como-o-google-funciona
MIGLIACCI, Paulo. Ataque ao Google mostra vulnerabilidade das melhores defesas. Disponível em: http://tecnologia.terra.com.br/interna/0..OI4224121-EI4802,00-Ataque+ao+Google+mostra+vulnerabilidade+das+melhores+defesas.html
MILAGRE. José. Google Forensic: Investigando Cybercrimes. Disponível em: http://imasters.com.br/artigo/9741/forense/google_forensics_investigando_cybercrimes
MOREIRA, Adenilson. A importância da Segurança da Informação. Disponível em: http://www.oficinadanet.com.br/artigo/1124/a_importancia_da_seguranca_da_informacao

Sérgio Schütz
seschutz@unicruz.edu.br