terça-feira, 8 de janeiro de 2013

Para entender Big Data


Publicado na Revista do Marketing Direto e no portal da ABEMD (outubro de 2012)


Fernando Wosniak Steler, da AG Direct, direto de Las Vegas

Muito tem se falado sobre Big Data. No primeiro dia da maior convenção e exposição de Marketing Direto do Mundo em Las Vegas, a DMA (Direct Marketing Association) de 2012, teve como palestra principal de abertura do evento o referido tema. Nesse mês, na capa de uma das principais revistas de gestão mundial, a HBR (Harvard Business Review) está lá estampado, bem grande: BIG DATA. Na principal revista de negócios do Brasil, a Exame, também saiu um artigo sobre o tema, intitulado "Um fenômeno chamado big data".
De acordo com Adam Daum, analista-chefe da Canalys Research, empresa inglesa de pesquisas em tecnologia, “para as empresas, o surgimento do Big Data é uma revolução comparável à massificação da web registrada no começo da década de 90”.

Mas o que é Big Data? Estamos vendo rapidamente o termo virar um "hype", sem que a maioria das pessoas necessariamente entendam o que isso vem a ser. Eu acredito que esteja acontecendo dessa forma, justamente por ser algo muito técnico, que claro, veio a ajudar as empresas a fazer alguma coisa melhor e mais rápido. A própria palestra do Chris Anderson, na abertura da DMA 2012, explorou termos bem técnicos, o que para muitas pessoas com as quais conversei acharam sua palestra "meio chata". Ele discursou sobre ciência, atomicidade, matemática, estatística, curva de Gauss, teste A/B, mostrou até a foto do Thomas Bayes, que criou o Teorema de Bayes, amplamente utilizado pelo Marketing Direto para medir probabilidades e predições de comportamento etc. Enfim: nem todo mundo gosta quando o assunto puxa muito para o técnico. Eu confesso que gostei bastante. Chris Anderson continuou dizendo que a curva de Gauss, representada, pela estatística, pela curva Normal não será a visualização mais utilizada para representar o consumo de algo e sim a representação de uma Hipérbole Equilátera, mais conhecida como a curva de Interpretação geométrica da elasticidade-preço da demanda, estudada pelos alunos de microeconomia, porém desenhada com uma cauda bem longa na coordenada X, onde ele próprio explicou essa teoria no seu livro "Cauda Longa", que por sinal, é extremamente recomendado para entender os motivos do consumo segmentado, seus nichos, bem como a personalização da comunicação.

Big Data não é algo tão novo assim. Em tecnologia da informação, o termo já existe há um bom tempo, diríamos, desde a fundação do Google, que foi em Março de 1996, quando seus fundadores queriam entender como mudar o conceito de consultas estruturadas ou SQL, amplamente conhecida, mas não apropriada para uma quantidade de dados enormes presentes fisicamente de forma distribuída.
O que o Google inventou, na prática, foi o conceito de NoSQL ou "Not only SQL", já que a tecnologia de SQL não permitiria ao Google existir. Eles foram lá e criaram coisas novas, como técnicas de consulta rápida em sistemas distribuídos, como MapReduce, computação em nuvem (cloud computing) etc.
Se usarmos a ferramenta na internet chamada Google Trends [http://www.google.com.br/trends/], e digitarmos os termos "big data" e "nosql" podemos analisar que desde 2005 as pessoas já procuravam por isso. Veja que somente a partir de 2011 o termo Big Data passa a ter um crescimento exponencial.

Para entender Big Data, precisamos entender antes como funcionam as tecnologias de armazenamento e consulta de dados amplamente utilizadas por todas as corporações, conhecidas por SQL (Structured Query Language) ou linguagem de consulta estruturada. Quando o SQL foi criado, as pessoas não sabiam que um dia a Internet seria onipresente, que os dados chegariam a Petabytes (1 PB equivale 1.000.000.000.000.000 Bytes), que seriam desestruturados e que as repostas em cima das consultas precisariam acontecer em milisegundos.

Então, podemos falar que Big Data é literalmente "grandes quantidades de dados". Na prática, em Big Data se encaixa um conjunto de dados com tamanho e tipo que torna impraticável o processamento e a análise em sistemas de dados tradicionais, como a linguagem de consulta estruturada ou SQL. Por isso, juntamente com Big Data, encontramos o conceito de NoSQL, que quer dizer "Not only SQL", já que SQL, sozinho, não resolve os problemas de hoje em dia. Os sistemas de base de dados NoSQL são amplamente utilizados por empresas como Google, Facebook, Foursquare e LinkedIn para horizontalizar o crescimento e resolver seus problemas de escalabilidade, disponibilidade e performance. Dificilmente, vemos essas empresas fora do ar, mesmo crescendo a taxas exponenciais e com bilhões de usuários "pendurados" em suas bases de dados. Resposta conceitual está ai: Big Data. E a resposta técnica também: NoSQL, com ferramentas e softwares como, Hadoop, MongoDB, Cassandra etc.

O que está acontecendo agora é que as corporações estão correndo atrás das tecnologias das start-ups. Sim, todas as maiores empresas da Internet de hoje que faturam bilhões eram start-ups há menos de 10 anos. Como uma start-up não tem nada a perder, foram lá e fizeram. E as corporações estão seguindo, como sempre.