O que é Big Data? Passado, presente e futuro

O que é Big Data? Passado, presente e futuro

Ouvimos falar muito sobre o termo, mas poucos sabem sobre o que se trata. Se você é uma destas pessoas, leia este artigo.

Imagine que a sua casa é um conjunto de dados. Nessas quatro paredes você vai encontrar informações sobre os moradores, quartos, banheiros, alimentos, serviços, cores, tamanhos, decoração, localização, estacionamento, reparos, dívidas e muito mais. Parece muita informação, não acha? Bem, agora multiplique isso por todas as casas do seu bairro. Já? Ok. Eleve isso a uma cidade inteira (ou a um país), quantos dados teria?

Além de ser um exercício de imaginação, o anterior é uma analogia sobre Big Data, termo que engloba quantidades massivas de dados que variam em sua estrutura (podem variar entre dados estruturados e não estruturados), ainda que sempre estão relacionados.

O detalhe com big data é que essas quantidades enormes de dados não tem um limite,  mas crescem sem parar. Exponencialmente. Estamos falando de zettabytes aqui (um bilhão de terabytes — o disco rígido de um computador médio terá um ou dois, no máximo).

Além de seu enorme tamanho e níveis de estrutura, o Big Data possui outras características. Segundo vários autores, seus elementos mais destacados se dividem em quatro Vs:

Volume: Nós já dissemos isso. Quando se trata de grandes quantidades de informações, podemos falar sobre Big Data. Nem todo acúmulo de dados é. Precisa ser uma grande quantidade. Enorme. Enorme.

Variedade: Os dados (estruturados ou não) precisam ter características ou elementos diferentes. Antes, os dados vinham apenas de planilhas ou bancos de dados tradicionais. Hoje eles incluem tudo: Fotos, vídeos, áudios, documentos, PDFs, e-mails, gráficos, etc. O fato de haver variedade fortalece o conceito de Big Data e o torna mais elegível para processamento e mineração de dados.

Velocidade: É algo inato do Big Data. Se gerarmos milhões de bytes de dados todos os dias, o que foi dito acima implica que a acumulação ocorre a uma taxa vertiginosa. A velocidade é algo que precisa existir quando se trata de Big Data, pois vem simultaneamente páginas da web, aplicativos, redes sociais, governos online e muito mais.

Variabilidade: Não está relacionada à variedade, mas à natureza dos dados. Podem ou não estar próximos da verdade ou conter erros de origem que podem dificultar sua análise. Portanto, é bom ter as ferramentas certas para garantir a leitura correta.

Quando nasceu o Big Data?

A história do Big Data é longa, mas começa na década de 1980. A massificação dos computadores como itens domésticos e de trabalho nos transformou em geradores contínuos de informações que precisavam ser armazenadas em algum lugar. Embora isso tenha sido resolvido nos anos 90 com a Internet, nasceu ali uma corrida entre quantos dados geramos e quantos podem ser armazenados. Essa competição continua hoje e continuará nas próximas décadas, à medida que movemos mais informações para o digital.

Por que é preciso analisar dados tão grandes?

Atualmente, Big Data é um conceito onipresente na rede. Qualquer setor onde grandes quantidades de dados estão concentrados é definido como Big Data. Para dar uma ideia melhor do que é e onde fica, compartilhamos alguns exemplos:

  • Mercados de ações: todos os dias, índices de ações como o Dow Jones, BMV, Merval, Bovespa, Nikkei ou o FTSE 100 geram muitos dados sobre ações, altas, baixas, empresas, itens e afins, exigindo uma análise detalhada para saber suas tendências e implicações.
  • Redes sociais: Talvez você não carregue tantos detalhes no Instagram ou Facebook, mas multiplique o que você compartilha por todos os usuários da sua cidade ou país. Torna-se algo enorme, certo? Nossa presença nas redes sociais é considerada Big Data por sua variedade, volume e velocidade com que carregamos conteúdo.
  • Setor de energia: os padrões de consumo de eletricidade ou a localização de depósitos de petróleo e gás também fazem parte do Big Data. As empresas processam milhões de dados para saber onde perfurar um poço ou expandir o fornecimento de energia com benefícios para suas operações ou usuários.
  • Governos online: Órgãos fiscais, de defesa ou de saúde levam em consideração as informações dos usuários para conhecer seu comportamento ou condições específicas. Por exemplo, a pandemia se tornou um Big Data particular porque todos compartilhamos dados sobre idade, endereços, calendários de vacinação, comorbidades, infecções, etc.

Armazenamento e análise de dados

Talvez você possa salvar seus dados pessoais ou trabalho em um pendrive ou em um disco rígido (fixo ou externo), mas quando se trata de Big Data isso não é suficiente. Então, onde estão armazenadas aquelas quantidades enormes de dados que geramos todos os dias?

A resposta pode estar em data lakes. São unidades de armazenamento massivas através de nuvens, clusters Hadoop, plataformas NoSQL ou sistemas similares, capazes de armazenar tudo o que compartilhamos.

Quando toda essa informação é armazenada, computadores e softwares especializados são usados ​​para organizá-la e extrair o que for necessário, dependendo do que for necessário.

O próximo passo é a análise. Aqui, são usados ​​métodos que vão desde modelagem preditiva e mineração de dados até Machine Learning, que geram resultados sobre o sentimento nas redes sociais, impacto no mercado, reações nas redes sociais e muito mais.

Presente e futuro

Longe de ser uma moda ou algo que caia em desuso (como a sua conta no Myspace que você já teve), o Big Data chegou para ficar. Se falarmos sobre quantidades ilimitadas de informações que crescem exponencialmente e da utilidade de analisá-la para empresas ou governos, então dificilmente será algo que desapareça.

Pelo contrário. A migração progressiva de nossos dados e atividades no ambiente digital fortalecerá o Big Data e vice-versa. Nas próximas décadas, as análises de dados para fins corporativos, financeiros, educacionais ou de segurança deixará de ser opcional para ser um requisito fundamental para o planeta. As perspectivas são promissoras. Provavelmente nossas futuras decisões não envolvem tanto um estudo individual e analógico, mas sim uma análise digital através do Big Data. Nós saberemos em breve.