Há dados no futebol: apresentamos a coluna “Critério de Desempate”, uma visão a partir dos dados

Uma proposta de um artigo técnico e um texto de análise crítica a partir de dados

Tem algumas coisas que eu mudaria no futebol, sim. A primeira, sem pensar muito, seria que nenhum time pontuasse quando o jogo acaba 0 a 0. A segunda talvez fosse proibir a palavra soccer e derivados. A terceira provavelmente seria basear mais a evolução do esporte em dados. Só que essa, como a maioria das outras ideias que eu dou, é muito difícil de acontecer de verdade.

[foo_related_posts]

O principal problema em análises de dados no futebol é que não tem dados pra analisar. Por dois motivos: o primeiro é que o jogo produz poucos números. Os esportes americanos são referência nisso, especialmente o beisebol. Não necessariamente por mérito dos analistas, mas do próprio jogo.

Um quarterback razoável na NFL soma mais de 3000 jardas lançadas em um ano (não só um razoável, como até o Sam Darnold). Um jogador normal na NBA marca cerca de 700 pontos no ano (Sabe o PJ Washington? Eu também não, e ele marcou). Reforço, estes são números individuais e razoáveis.

No Brasileirão de 2019, o Atlético Mineiro foi o time que mais chutou a gol totalizando 608 finalizações. O time inteiro. O melhor do campeonato. Com menos dados, é evidente que as avaliações ficam comprometidas.

Figura 1 – Todos os eventos de Manchester City 1×0 Wolverhampton, com destaque em azul aos chutes (Fonte: Lotte Bransen, no canal Friends of Tracking do Youtube)

O segundo motivo é que estes raros dados são pouco coletados e ainda menos divulgados. Enquanto alguns esportes disponibilizam, via sites oficiais, milhares de informações detalhadas, no futebol é com muito custo que se pode encontrar informações que vão além do placar do jogo. Há empresas que coletam e vendem estes dados.

Quanto aos clubes, alguns têm estrutura de geração de dados própria. Uma parte deles é capaz de fazer uma análise criteriosa nessas bases. Ainda quando conseguem, há lacunas importantes, como informações semelhantes dos adversários – ou seja, falta metade do jogo.

Ainda assim, a análise de dados vem ganhando força no futebol. Muitas das evoluções táticas que já vimos em campo são provenientes desses estudos – um exemplo muito simples é o tiro de meta, que era cobrado com um chutão por padrão, e hoje é normal ver uma certa tensão entre zagueiros e atacantes antes da cobrança.

Existem analistas dedicados a esse trabalho em diversos clubes do planeta, motivados pelo desafio de extrair o máximo da estatística e da inteligência artificial a partir de uma fonte tão escassa quanto o futebol. Prova dessa evolução foi a competição de análise de dados promovida pelo Seattle Sounders. Foram 56 inscrições, entre elas uma submissão minha, que foi classificada pelos jurados no top 10. Na apresentação, um dos jurados disse que “se este mesmo concurso fosse promovido há cinco anos, talvez houvessem três submissões”.

Figura 2- O trabalho “Improving Defense Against Pressure” listado entre os 10 melhores da competição de análise de dados do Seattle Sounders

Agora, um parágrafo de definição. Prometo que é só esse. Como as análises precisam de dados, o trabalho recente foi criar tais fontes de informação. Há três tipos de dados diferentes hoje no futebol. O primeiro são os dados de “report”, aquela planilha que a gente acha em qualquer portal. Placar, escalação, autores dos gols, cartões, e basicamente é isso com uma outra coisa a mais. O segundo tipo consiste em dados de eventos, que são planilhas com todas as ações do jogo. Não existe uma estrutura padrão, mas a maioria é bastante completa, informando detalhes de cada evento, como o pé com que o jogador fez o passe e para quem. O tipo mais granular, também o mais raro, são os dados de “tracking”, ou rastreamento. Estes informam, a cada quarto de segundo, a posição de cada jogador no campo, e são fonte de cálculo, entre outras coisas, da velocidade dos jogadores e da distância percorrida no campo.

Figura 3- Os 3 tipos de evento de futebol disponível: report, eventos e tracking. (Fonte: Lotte Bransen, no canal Friends of Tracking do Youtube)

A partir do que temos disponível, não é fácil apresentar informações profundas sobre o Campeonato Brasileiro. Por outro lado, qualquer análise um pouco mais detalhada já traz um ganho de visão. Beleza, o Atlético Mineiro foi o time que mais chutou a gol ano passado, como mencionei antes. Mas será que isso não tem a ver com PRECISAR chutar, por estar perdendo, por exemplo? Será que um grande volume de chutes aumenta as chances de vitória? Quantas chances ruins equivalem a uma chance boa? E o que afinal define o que é uma chance boa? Prever alguma coisa, dá? E que histórias os dados nos contam?

Nos próximos textos, eu pretendo responder algumas dessas perguntas. Não todas, talvez outras, enfim, você entendeu. O mais legal, ou pelo menos eu acho mais legal, é que eu vou priorizar o Brasileirão como caso dessas análises, ao que o nome desse espaço poderia ser “O Brasileirão Como Você Nunca Viu” que faria algum sentido.

A proposta do conteúdo é ficar entre um artigo técnico e um texto de análise crítica. O segundo você conhece bem, e caso haja interesse no primeiro, sugiro começar por esse texto do Hugo no Footure ou pelo Algolritmo, que são os melhores conteúdos dedicados à análise de dados que conheço em português. Considerem este espaço como uma abertura a um novo olhar do futebol. E fiquem à vontade pra debater e sugerir.

Quer acompanhar sempre a coluna? É só ficar ligado neste link: Critério de Desempate. Rodrigo Salvador é mestre em Pesquisa Operacional, entusiasta de análise de dados no futebol e top 10 da competição de dados do Seattle Sounders