quarta-feira, 12 de junho de 2013

IBM Research: Análise de Sentimento durante a Copa das Confederações


Esta semana começa a Copa das Confederações, onde o Brasil vai brigar pelo tetra campeonato (esperamos que de uma forma menos sofrida do que a última, onde vencemos os EUA, na final, depois de estarmos perdendo por 2 a 0). Conhecido por ser o pais de 200 milhões de treinadores, pela primeira vez na história seremos capazes de "ouvir" o que os torcedores estão falando nas mídias sociais sobre o time e suas atuações. Em um projeto pioneiro, a divisão de pesquisas da IBM, a Research Lab do Brasil, acaba de anunciar o projeto Ei!. 

A Análise de Sentimentos Social é uma solução que avalia o que está sendo falado na Web. Mais do que isso, ela também procura apontar tendências com relação a um determinado tema e tem capacidade de transformar toda a indústria de marketing. É uma forma de trazer o cliente final, no caso os torcedores, para uma discussão ativa com a empresa, no caso o treinador da seleção nacional. A ferramenta criada pela IBM vai permitir obter, em tempo real, opiniões sobre os jogadores, as táticas e as expectativas da torcida.

O processo é bem interessante e acontece em tempo real. O Ei! vai monitorar tudo o que é postado no Twitter sobre o tema "futebol". Para fazer isso, ele precisa do suporte de um dicionário especial que, basicamente, permite ao sistema saber se o tweet é sobre futebol ou não (para outras aplicações devem ser utilizados outros dicionários). Cada tweet é analisado e se for identificado que ele tem aderência ao tema, ele é selecionado para ser estudado. A partir daí, acontecem 5 etapas:
  1. As palavras que compõem cada tweet são separadas umas das outras em um processo conhecido como parser.
  2. Em seguida, as palavras são normalizadas, ou seja, erros são corrigidos e, eventualmente, sinônimos são empregados
  3. Depois disso, cada palavra é categorizada de acordo com as regras da gramática portuguesa. São identificados os adjetivos, substantivos, verbos, etc
  4. A seguir, é encontrado o lema de cada verbo
  5. Para finalizar, o sentimento de cada palavra é retornado. Ele pode ser positivo, negativo ou neutro.
O sentimento retornado para cada palavra foi previamente aprendido através de outras técnicas e da repetição. Uma vez que tenhamos o sentimento de uma palavra, precisamos agora simplesmente calcular o sentimento do tweet inteiro. Finalizando, um analisador estatístico vai calcular as frequências com que os nomes dos jogadores são mencionados, com que os temas mais frequentes são usados, e por aí vai. O resultado é, então apresentado, de forma comparativa.

O processo parece simples mas é bastante complexo. Todos sabemos que palavras podem ter um sentido diferente dependendo da forma como são usadas. Por exemplo, o verbo "vamos" é, usualmente, neutro mas, no futebol, quando usado em "vamos Brasil", tem uma conotação positiva. Da mesma forma, o tratamento a ser dado a outras palavras passa pelo mesmo desafio. Para resolvê-lo, é necessário um processamento preliminar manual, onde analistas montam uma tabela de polaridade.

A expectativa é que sejam analisados até 5 milhões de tweets em cada jogo, fenômeno conhecido como Big Data. Somente um sistema com capacidade analítica avançada pode processar tamanha quantidade de informações em tempo real.

A divulgação dos resultados será feita pela Band, com quem a IBM fechou uma parceria, antes, durante e depois das partidas do Brasil.

A análise de comentários e sentimentos expressados pela população no Twitter posiciona a IBM como um dos principais players de soluções de Analytics do mundo, trazendo à tona temas como Big Data, Smarter Analytics, Cloud, Mobile e Social. A solução foi desenvolvida utilizando a plataforma IBM InfoSphere Streams. Mais detalhes em IBM Smarter Planet Sports.

Nenhum comentário:

Postar um comentário