terça-feira, 24 de junho de 2014

Futebol, a paixão do povo, e big data, uma relação de amor e ódio


Em uma sala localizada no nono andar do edifício da IBM em Botafogo, no Rio de Janeiro, um grupo de pesquisadores e consultores acompanha atentamente os jogos da Copa do Mundo. Eles assistem a todos os jogos, alimentados por muita pizza e refrigerantes. Como todo brasileiro, vibram com os melhores lances e sofrem com a qualidade de alguns jogos. No entanto, mais do que torcer, eles estão ali trabalhando, em um projeto da IBM Research. O que eles fazem é "ouvir" tudo o que os torcedores "falam" no Twitter sobe os jogos e os jogadores e, a partir daí, tentam entender se estão gostando ou não. O objetivo é demonstrar uma tecnologia desenvolvida nos laboratórios da IBM, e transformada em serviço, que faz Análise de Sentimentos em Redes Sociais, e que foi batizada de FAMA.

O processo é complexo. São centenas de milhares de tweets a cada jogo. Apenas no jogo de ontem, entre Brasil e Camarões, um jogador, Neymar, teve seu nome mencionado em 409.971 posts. São 50 mil tweets a mais do que o jogo entre Estados Unidos e Portugal. Nada mal para um único jogador. Ao final do primero tempo, ele teve avaliação positiva em 43% das publicações. 

Durante o jogo o time do Brasil recebeu 1.563.387 menções e, o time de Camarões, 130.846. Dentre as menções ao nosso time, 45% foram positivas, 16% foram neutras e 39% negativas. Definitivamente, não temos unanimidade com relação a nossa seleção.

Termômetro Social,
no aplicativo Segunda Tela, da Globo
Como acompanhar:

Todos os resultados das análises sociais são publicados na mídia, atualmente no site da ESPN e, em uma parceria com a Globo, atraves do aplicativo "segunda tela". Veja abaixo como acompanhar:

  • O site da ESPN, Torcida nas Redes, apresenta as análises feitas pelo time da IBM.
  • O aplicativo "segunda tela da Globo" permite que torcedores participem de um chat, mostra estatisticas gerais sobre os jogos e possibilita acompanhar o sentimento nas rede sociais (este último em parceria com a IBM)

Infográfico do Torcida nas Redes, do site da ESPN
E como isso funciona?

O processo é bem interessante e acontece em tempo real. O FAMA monitora tudo o que é postado no Twitter sobre o tema "Copa do Mundo". Para fazer isso, ele precisa do suporte de um dicionário especial que, basicamente, permite ao sistema saber se o tweet é sobre futebol ou não (para outras aplicações devem ser utilizados outros dicionários). Cada tweet é analisado e se for identificado que ele tem aderência ao tema, ele é selecionado para ser estudado. A partir daí, acontecem 5 etapas:
  1. As palavras que compõem cada tweet são separadas umas das outras em um processo conhecido como parser (ou tokenization)
  2. Em seguida, as palavras são normalizadas, ou seja, erros são corrigidos e, eventualmente, sinônimos são empregados
  3. Depois disso, cada palavra é categorizada de acordo com as regras da gramática portuguesa. São identificados os adjetivos, substantivos, verbos, etc
  4. A seguir, é encontrado o lema de cada verbo. Esta é uma etapa particularmente difícil pois depende do contexto (não é simplesmente encontrar a raiz de uma palavra)
  5. Para finalizar, o sentimento de cada palavra é retornado. Ele pode ser positivo, negativo ou neutro.
O sentimento retornado para cada palavra foi previamente aprendido através de outras técnicas e da repetição (ele é, tecnicamente falando, ensinado ao algorítmo). Uma vez que tenhamos o sentimento de uma palavra, precisamos agora simplesmente calcular o do tweet inteiro. Finalizando, um analisador estatístico vai calcular as frequências com que os nomes dos jogadores são mencionados, com que os temas mais frequentes são usados, e por aí vai. O resultado é, então apresentado, de forma comparativa.

O processo é bastante complexo. Todos sabemos que palavras podem ter um sentido diferente dependendo da forma como são usadas. Por exemplo, o verbo "vamos" é, usualmente, neutro mas, no futebol, quando usado em "vamos Brasil", tem uma conotação positiva. Já quando é usado em "vamos embora, o jogo está péssimo", tem sentido negativo. Da mesma forma, o tratamento a ser dado a outras palavras passa pelo mesmo desafio. Para resolvê-lo, é necessário um processamento preliminar manual, onde analistas montam uma tabela de polaridade.

Onde mais o FAMA pode ser usado?

Aplicar toda esta tecnologia e metodologia em outros ambientes é a grande aposta da IBM. A computação cognitiva aparece como a nova grande promessa da indústria de tecnologia. Analisar as grandes quantidades de dados disponíveis nas redes sociais tem o potencial de oferecer insights extremamente valiosos para empresas de todas as indústrias e portes. Imagine poder analisar, em tempo real, o sentimento dos clientes de um banco com relação a um novo produto lançado no mercado e fazer ajustes nas campanhas de marketing imediatamente. Ou a possibilidade de oferecer serviços e produtos direferenciados, com base nos sentimentos de seus clientes. As aplicações são enormes e podem transformar várias indústrias como o varejo, serviços financeiros, e muitas outras.

Nenhum comentário:

Postar um comentário