É um prazer poder passar para vocês um pouco do conhecimento que a vida e o profissionalismo me legou. Semanalmente estarei postando artigos referentes à Tecnologia da Informação (hardware, software, SO), enfim, o que se refere à tão temida INFORMÁTICA, que hoje é uma realidade, segredos que estão embutidos dentro dos softwares gerenciadores de informação.
Para começar, estarei demonstrando algumas técnicas que estão dentro do maior site de buscas, o Google.
É raro encontrar alguém hoje em dia que use a Internet e não conheça a ferramenta de busca "Google". Trata-se de um fenômeno da Internet atual devido especialmente a sua rápida resposta, algoritimos sensatos de classificação de páginas e sua enorme base de dados. Mas para ter essa base de dados, o Google (e ferramentas de busca em geral) são se preocupa em discriminar páginas e arquivos públicos de dados sensíveis, contando apenas com a boa administração de cada servidor para impedir a inclusão de dados sensíveis nos resultados de buscas.
COMO O GOOGLE FUNCIONA
A primeira coisa a entender é que quando você faz uma busca no Google, você não está realmente buscando a web, mas sim o índice do Google na web, ou pelo menos o quanto dessa podemos encontrar.
Fazemos isso com um software chamado "aranha" (ou spider). Os spiders começam a buscar algumas páginas webs, seguem os linkis nas páginas e buscam as quais esses links apontam, acompanham todos os links nessas outras páginas e assim por diante, até que tenham indexado um bom pedaço da web - muitos milhões de páginas armazenadas em milhares de máquinas.
Agora, vamos que você queira saber o quão rápido um leão pode correr. Você digita na busca: "velocidade corrida leão" e o Google busca em seus índices todas as páginas que incluem esse termo de busca.
Como o Google decide quais documentos você realmente quer (fatores que influenciam o ranking)? Fazendo perguntas - mais de 200 delas. Como:
- Quantas vezes essa página contém as palavras-chave?
- As palavras aparecem no título, na URL, diretamente adjacentes?
- Será que a página inclui sinônimos para essas palavras?
- Esta página vem de um site de qualidade alta ou de qualidade baixa, até mesmo spammy?
- Qual o Page Rank dessa página?
Essa é a fórmula criada no Google que pontua as informações de uma página, baseado na quantidade geral para cada página, então o resultado de sua busa é enviado, cerca de meio segundo depois de você fazê-la. Vamos da uma olhada no resultado da pesquisa:
- Cada entrada inclui um título;
- Uma URL;
- E um trecho do texto para me ajudar a decidir se esta página é o que estou procurando.
- Links para páginas semelhantes;
- A versão mais atual daquela página armazenada pelo Google.
Até a próxima semana.
Ah, já ia esquecendo ...
Frase da semana:
"Internet Explorer é o navegador mais usado ... para baixar outros navegadores."
Referências:
GOOGLE. Disponível em : http://www.google.com.br
SANCHES, Manuela. Como o Google funciona? Disponível em: http://www.enlinkbuiding.com.br/blog/seo-basico/como-o-google-funciona
MIGLIACCI, Paulo. Ataque ao Google mostra vulnerabilidade das melhores defesas. Disponível em: http://tecnologia.terra.com.br/interna/0..OI4224121-EI4802,00-Ataque+ao+Google+mostra+vulnerabilidade+das+melhores+defesas.html
MILAGRE. José. Google Forensic: Investigando Cybercrimes. Disponível em: http://imasters.com.br/artigo/9741/forense/google_forensics_investigando_cybercrimes
MOREIRA, Adenilson. A importância da Segurança da Informação. Disponível em: http://www.oficinadanet.com.br/artigo/1124/a_importancia_da_seguranca_da_informacao
Usando o Google como ferramenta hacker. Disponível em: http://www.backtrack-linux.org/forums/tutoriais-e-howtos/26974-usando-o-google-como-ferramenta-hacker-%96-parte-1-google-hacking.html
Sérgio Schütz
seschutz@unicruz.edu.br