04 / jun / 2024
Estratégia
8 MIN.

Desvendados os segredos do algoritmo do Google (de novo!)

Rodrigo Botinhão

CEO e Fundador - Gear SEO

Desvendados os segredos do algoritmo do Google (de novo!)
Sumário

Estão circulando vários conteúdos sobre mais um “vazamento” de uma documentação da API do algoritmo do Google, em que, supostamente, mais de 14.000 critérios de classificação foram publicados. Entre eles, há contradições de informações: de um lado, afirmações ditas como indiscutíveis pelos porta-vozes do Google (alô, John Muller) e, de outro, a análise desta extensa documentação que vai de encontro àquilo que nós, profissionais de SEO, comprovamos na prática. Exploraremos esse ponto neste artigo.

De todos os conteúdos sobre esse tema, debruçamos-nos sobre o mais completo (e um dos primeiros) a ser veiculado, que é o iPullRank, além do conteúdo original publicado pelo Randy Fishkin, CEO da SparkToro.

Dito isso, utilizamos os conteúdos desses artigos para entender os pontos principais e compartilhar as conclusões que a Gear SEO tem até este momento.

Como essas informações surgiram?

Rand Fishkin recebeu um e-mail de uma pessoa anônima, dizendo que tinha acesso à documentação da API da divisão de busca do Google. Essas informações foram confirmadas como autênticas por ex-funcionários do Google, com comentários adicionais dos profissionais que trabalhavam lá.

Essas informações são confiáveis?

A maioria dos especialistas e dos entusiastas estava cética sobre esse vazamento. Porém, ele foi validado por alguns ex-funcionários. Muito do que foi revelado também vai de encontro àquilo que sabemos pela prática diária com SEO. Mesmo assim, trata-se de parte de uma documentação, sem estar 100% na íntegra.

Por que essas informações foram vazadas?

Segundo o autor do vazamento, a motivação principal é a transparência. A esperança é que essas informações sejam utilizadas para desmentir tudo que o Google dissemina sobre o algoritmo de buscas durante anos.

O que é o Google API Warehouse?

Trata-se de um repositório do Github do Google, em que há informações e documentações dos repositórios públicos e da API do Google Cloud. Também há uma parte em que as informações são privadas, mas, de alguma forma, o autor conseguiu as credenciais de acesso.

Com base em todo o contexto e nas motivações sobre o vazamento de informações que mencionamos acima, listamos os pontos principais e algumas informações que podem mudar ou reforçar o jeito como trabalhamos com SEO.

Algoritmo do Google

1 – O DA (Domain Authority) da Homepage é o mesmo das demais páginas do site

A classificação de um domínio é a mesma em qualquer página dele. É a primeira vez que uma menção a Autoridade de Domínio foi encontrada em um documento do Google. O próprio John Muller havia desmentido tal critério há pouco tempo.

O Google tinha uma classificação para as páginas, chamada Pagerank, em que era possível entender o peso de cada página em termos de relevância. Esses dados não são mais visíveis e foram substituídos por classificações de ferramentas alternativas (Ahrefs, Majestic, SEM Rush).

2 – A taxa de cliques em uma página importa muito para a busca orgânica

Isso vale não só para os cliques, mas para a usabilidade do site e os dados do Chrome. Nesses mais de 14.000 critérios, o total de cliques e a maneira que o site é utilizado e consumido são fatores importantes para o Google, ao contrário daquilo que os porta-vozes negam há mais de uma década (mas o SEO, não).

3 – Os subdomínios, os subdiretórios e a profundidade das páginas na hierarquia de um domínio são considerados fatores de ranqueamento

Conforme a documentação, os subdomínios são classificados de forma separada ao domínio, ou seja, um subdomínio possui o próprio DA, indexa e ranqueia palavras-chave independentemente, etc. Também ficou claro na documentação que a criação de subdiretório, assim como URLs amigáveis e organização dos URLs (nível das / ou pastas) influenciam o fator de classificação.

4 – O Google pode estar prejudicando pequenos sites de propósito

Foi descoberto que o Google possui uma diretriz que indica especificamente se um site se trata de um “site particular pequeno”. Apesar de não ser claro sobre o que é um “site particular pequeno”, isso condiz com relatos e análises de projetos menores que vimos na Gear SEO.

5 – O Google possui uma sandbox para sites novos e autores de conteúdos novos

Ao longo do tempo, o Google é enfático sobre a inexistência de uma sandbox, na qual os novos domínios ou autores sejam segregados por conta da idade e da confiança. No entanto, há um módulo chamado PerDocData que indica justamente o contrário.

Nesse módulo, existe uma atribuição chamada HostAge, usada para “to sandbox fresh spam in serving time”, ou seja, existe a sandbox.

6 – A taxa de cliques é importante

Existe uma métrica importante sendo utilizada: posição da SERP x taxa de cliques e engajamento do site. Ela é usada para subir ou descer o posicionamento de um site, considerando dados coletados nos últimos 13 meses.

O Google coleta dados de navegação, utilizando cliques, taxa de rejeição, engajamento, CTR, entre outros, como fatores de ranqueamento da página.

7 – O Google coleta e utiliza dados do Chrome

Dados do usuário, tais como localização, histórico, etc, também são utilizados pelo Google como fatores de classificação para análise e ranqueamento de sites.

8 – O conteúdo ainda é extremamente importante

As medições de cliques encontradas nos documentos vazados vão de encontro à criação de bom conteúdo (bons cliques, cliques mais duradouros e menções frequentes ao Navboost). Então, isso não mudou. Investir em ótimos conteúdos deve ser prioridade em qualquer estratégia de SEO.

9 – Os autores e a exibição de expertise ainda devem ser considerados

O debate sobre se o EEAT é um fator de classificação ficou no passado a partir desse vazamento. Se você deseja se classificar bem, precisa ser capaz de mostrar expertise por trás do conteúdo. Ficou claro que taxa de cliques, tempo de permanência na página e demais fatores são partes importantes do critério de classificação.

Não houve menções ao número de caracteres, seja em titles e descriptions, seja em textos completos ou descrições curtas. Porém, nós, profissionais do SEO, temos nossas métricas e, de forma geral, em muitos aspectos, seguimos um certo “padrão”. O que vale aqui é aliar a experiência, o teste e os resultados sempre à constante atualização desses critérios – não podem ser eternos.

10 – A idade do domínio ainda é importante

Apesar do Google negar isso por muito tempo, ficou claro que ele armazena a informação de quando o domínio foi registrado em documentações internas. Isso faz sentido se pensarmos sobre a sandbox e abuso de domínios expirados em uma atualização recente nas diretrizes de qualidade, o que sempre foi uma prática bastante comum no meio do SEO.

11 – O posicionamento de indexação afeta o valor do link

Existe uma métrica chamada sourceType, que mostra uma relação entre o posicionamento e o peso da página na SERP. Para ter uma resposta rápida, o Google separou o armazenamento do índice e três tipos diferentes:

    • conteúdos mais importantes, atualizados regularmente e acessados com frequência, são armazenados em uma memória flash;
    • conteúdos menos importantes são armazenados em uma unidade SSD;
    • conteúdos antigos, quase nunca ou que nunca são atualizados, são armazenados em HDDs.

Isso significa que, quanto mais alto o posicionamento de uma página, mais valioso é o link.

Outro ponto importante é que as páginas consideradas “novas” também são consideradas de alta qualidade.

12 – As datas são muito importantes

O Google tem como foco entregar conteúdos relevantes e atuais para os usuários que fazem uma busca. Os documentos vazados ilustram exatamente essa preocupação e a importância da data de uma página para a classificação.

Preocupe-se em destacar a data da página, especificando o valor nas marcações de dados estruturados, nos cabeçalhos e no sitemap do site.

13 – Os embeddings de sites são usados para medir o nível de conteúdo de uma página

Embeddings são técnicas de processamento de linguagem natural (PNL) que representam palavras, frases ou documentos. Os vetores capturam o significado dessas palavras de modo que uma máquina possa compreender as nuances de significado.

O Google está vetorizando as páginas do site e fazendo uma comparação dos embeddings com outros sites para saber se o conteúdo está fora ou dentro do tópico que é esperado.

Conclusão

Em linhas gerais, esse vazamento mostra que o Google utiliza critérios de classificação que nós, profissionais de SEO, temos notado na prática ao longo de anos — para não dizer há mais de uma década.

Essas informações reafirmam o que os profissionais sabem pela experiência, pelo estudo e pela análise dos dados e contradizem o que o Google repetidamente nega ao longo dos anos.

Essa extensa documentação traz à tona uma velha prática muito usada na política e no mercado: desinformação como estratégia e meio para a manutenção da hegemonia. Porém, é importante ressaltar que ela foi publicada de forma anônima, e não há 100% de certeza sobre a veracidade de todas as informações.

Na prática, esse vazamento muda pouco — para não dizer nada — a forma que vemos o Google e trabalhamos o SEO. Ele serve mais para reforçar muitas práticas e hábitos que aplicamos em nossos projetos. Também demonstra nossa convicção de estar sempre na vanguarda quando o assunto é qualidade e expertise.

Vamos começar um projeto de SEO com a sua empresa?

Fazer uma análise de SEO gratuita