Gestão

A Ciência de Dados Aplicada a Negócios

outubro 26, 2020
big data
Tempo de leitura 11 min

Vivemos uma revolução científica como jamais experimentada ao longo da história. Esta é a chamada Quarta Revolução Industrial.

Um mundo conectado por redes que mudam o padrão da sociedade e é capaz de influenciar na política, perfil de consumo, família e até mesmo nas crenças e nos valores individuais.

Um mundo ligado por câmeras espalhadas em todo canto e munido de informações sobre a hora que acordamos, o que comemos no café da manhã, o trajeto para o trabalho, onde abastecemos, qual modal de transporte que utilizamos e o que compramos no supermercado ou na farmácia.

O IDC (International Data Corporation), estima que o volume de dados aumentou 9 vezes em 5 anos e o crescimento para os próximos anos será ainda maior.

Para se ter uma ideia do volume de dados, o Facebook gera mais de 10 PB (Petabyte) de dados por mês. O Google revelou que é capaz de atender a 1 bilhão de solicitações de pesquisas simultâneas e que armazena 20 Petabyte de dados gerados pelos usuários todos os dias.

E os formatos dos dados são os mais variados possíveis e a velocidade de acesso também aumenta exponencialmente.

Só os usuários do YouTube enviam, em média, 72 horas de vídeos por minuto.

Porém as habilidades, sobretudo a competência analítica das pessoas não evoluiu nesta velocidade provocando um apagão na disponibilidade de talentos com esta capacidade.

Atualmente, estima-se que apenas 0,5% dos dados são analisados. Isto causa uma corrida desleal na competitividade dos mercados, mas ao mesmo tempo gera muitas oportunidades em áreas como o marketing e recursos humanos

INTRODUÇÃO

Nunca se teve tantos dados disponíveis quantos nos dias atuais.

Eles podem estar distribuídos nos mais variados formatos desde dados estruturados, como no caso de banco de dados bancários ou mesmo não estruturados como nos de sistemas de navegação dos dispositivos de smartphones.

Até mesmo as redes sociais armazenam informações e disponibilizam dados que podem envolver textos e também imagens.

Outras importantes fontes são os dispositivos eletrônicos como smartfones e sensores utilizados na chamada internet das coisas.

Entretanto, transformar este emaranhado de zeros e uns, em informações que gerem valor para os negócios, é uma atividade essencialmente humana que demanda muito talento individual e competências analíticas.

BIG DATA E SMALL DATA

Um dos maiores desafios enfrentados pela engenharia da computação foi desenvolver hardware e softwares que viabilizassem o armazenamento de dados considerando variedade, velocidade e volume.

O primeiro disco rígido para armazenar informações foi criado pela IBM em 1957 e possuía 5 MB de memória.

A figura 1 mostra a dimensão do dispositivo sendo elevado por uma empilhadeira para carregar num avião.

Figura 1: Primeiro disco rígido criado pela IBM.

Na ocasião, a empresa o alugava por U$ 36 mil dólares anuais para uma capacidade que hoje não suportaria nem um aplicativo de smartphone.

Com a evolução dos computadores e o domínio da tecnologia, o preço do processamento de dados foi abaixando conforme mostra o Gráfico 1.

Gráfico 1: evolução dos custos para armazenamento de informações.
Fonte: https://mkomo.com/cost-per-gigabyte-update

Observe que a escala do gráfico é a logarítmica. Os dados mostram que o custo de processamento em gigabytes caiu de algo em torno de um milhão de dólares por gigabyte para próximo de dez centavos de dólares.

Deste modo o acesso a hospedagem de dados se tornou acessível universalmente e hoje é possível obter uma capacidade substancial até de forma portátil como é o caso dos pendrives.

Com estas tecnologias cada vez mais acessíveis, empresas como a Amazon, Netflix, Google, Spotify, transformaram seus negócios em escala exponencial e possui milhões de clientes espalhados pelos 6 continentes do planeta.

Small Data

Basicamente, a diferença entre small data e big data estão na quantidade e nos tipos de dados.

Um desktop ou um notebook normalmente possui algum dispositivo de armazenamento de dados como um HD (disco rígido) ou SSD (solid state drive, ou disco em estado sólido).

Seus sistemas operacionais, como Windows, Linux ou IOS, leem estes dados sem maiores necessidades de softwares específicos ou necessidade de pré-processamento de dados.

Big Data

Uma das maiores evoluções da computação está nas big datas.

Normalmente são dados da ordem de petabytes. Neste caso, são ideais para armazenar dados como vídeos, imagens e textos. Isto possibilitou o grande salto das redes sociais como Twitter, Facebook, Instagram e também o Youtube.

Para trabalhar com big data, são necessárias ferramentas específicas como Hadoop, HBase e Mongo DB. Por isto é tão importante desenvolver capacidades analíticas nas equipes para reconhecer o potencial destas ferramentas e como aplica-las.

Assim as organizações garantem vantagens competitivas e tem maior assertividade no processo de tomada de decisões.

O potencial das mídias sociais é importante para qualquer negócio. Especialmente para as áreas ligadas ao marketing digital.

Possuir profissionais internos com competências analíticas viabiliza uma série de diferenciais competitivos que pode ser fator de sucesso nos negócios contemporâneos.

Mineração de Dados

Minerar dados é um processo de extrair padrões não triviais em grandes massas de dados. Estes dados podem mostrar comportamentos, localizar clientes, evitar perda de contratos, maximizar vendas dentre inúmeras outras aplicações. São ferramentas que utilizam algoritmos de machine learning (aprendizagem de máquinas) para seu desenvolvimento (Kubat, 2017).

Basicamente estes algoritmos utilizam modelos matemáticos ou probabilísticos para sua utilização. Daí a importância de desenvolver competências que permitam a familiarização com os termos técnicos especialmente da estatística. As análises de correlações são fundamentais em mineração de dados (Bramer, 2016).   

Métodos de Classificação

Estes recursos, permitem o desenvolvimento de várias aplicações como satisfação de clientes, análise de risco de crédito, previsão da incidência de doenças além de trabalhar com sistemas de reconhecimento de voz e imagens. Atualmente, os algoritmos também conseguem executar funções explorando textos e até mesmo fazendo poesias. Podem utilizar métodos de deep learning (aprendizagem profunda) que são algoritmos extremamente robustos em modelagem de dados (Skansi, 2018).

Algumas ferramentas como as linguagens em Python com a biblioteca TensorFlow tem contribuído muito para a aplicação destes recursos. É uma das principais ferramentas de análise utilizada em redes sociais como no Facebook. A taxa de acerto destes algoritmos é elevadíssima (Geron, 2019), o que possibilitou a evolução da inteligência artificial como nos veículos inteligentes da Tesla Motors.

Modelos Preditivos

Modelos preditivos são utilizados para prever o comportamento de variáveis (Kuhn e Johnson, 2013). São largamente utilizados em aplicações como a previsão de vendas, flutuações de moedas, risco de investimentos, faturamento com cartão de crédito dentre outros. Normalmente são utilizados modelos de regressão linear e não-linear como regressão logística. Atualmente os modelos que utilizam redes neurais também tem mostrado um excelente desempenho chegando a ter mais de 90% de acurácia (taxa de acerto) nas previsões.

Para medir o desempenho de um modelo preditivo, utiliza-se os dados para treino, que está disponível nos históricos, e depois uma outra parte dos dados para testes. Assim é possível obter os melhores modelos de previsão, ou seja, definir aquele propenso a ser mais assertivo nas previsões a partir dos dados de treino e testes.

Existe uma série de procedimentos ao longo do processo como análise de resíduos e pressuposições estatísticas dos modelos. Por isto é uma técnica que demanda muito conhecimento técnico de ferramentas estatísticas e matemáticas.

Estatística Espacial

As técnicas de estatística espacial, permitem trabalhar com inferências que possuem pontos de coordenadas no espaço. A questão central é testar as hipóteses se os dados de um processo são dados ao acaso ou se ele tende a se concentrar numa determinada região do espaço. A figura 2 ilustra um caso de tiroteios na cidade do Rio de Janeiro.

Figura 2: distribuição dos tiroteios na cidade do Rio de Janeiro em 2019.
Fonte: https://werlive.netlify.app/werlive09/werlive09#38

Pela análise da figura 2, pode-se perceber que existe uma concentração nas áreas com cores mais fortes. Assim se pode inferir que existe um fator predominante de concentração dos tiroteios em determinadas áreas. Cada ponto do gráfico é um tiroteio que ocorreu em 2019.

No mundo dos negócios, este tipo de análise pode ser realizado utilizando dados de GPS como é o caso dos aplicativos como o Waze. Exemplos como onde os usuários abastecem mais, localização estratégica de pontos de vendas, maior aglomeração de consumidores de uma determinada marca, são casos reais de aplicação das técnicas de estatística espacial.

Disponibilidade dos dados

O volume de dados não para de crescer. Porém o maior problema é o apagão de talentos para fazer a análise dos dados. Sobram vagas de emprego nesta área e faltam profissionais para preencher estas vagas.

Gráfico 2: Geração de dados no planeta.
Fonte: https://www.emc.com/leadership/digital-universe/2012iview/index.htm

O Gráfico 2 mostra uma estimativa que a cada 1 segundo são gerados 1.7 MB por cada indivíduo. E estes dados ficam disponíveis em nuvens e em banco de dados que nem se tem ideia de onde estão.

O mesmo estudo estima que apenas 0,5% dos dados são de fato analisados. E a análise destes dados podem ser um grande diferencial competitivo na corrida global. É o que vem ocorrendo com as empresas de tecnologia mundo afora.

O fato é que estas empresas investem fortemente no fator humano com técnicas analíticas. A busca por perfis profissionais com competências analíticas tem sido um fator preponderante para o crescimento das organizações.

No gráfico 3, segundo o mesmo estudo, para os próximos anos, existem uma tendência de áreas como médico hospitalares de captarem dados vitais em tempo reais através de dispositivos como relógios ou chips acoplados ao corpo. Isto permitirá prevenir doenças e ter maior precisão no diagnóstico.

As tecnologias associadas a sistemas de monitoramento de vídeo como os sistemas de segurança continuarão a gerar dados largamente.

A China consegue reconhecer facialmente sua população em tempo real em mais de 90% dos seus habitantes.

Estas tecnologias como os algoritmos de dep. laringe, possibilitam a análise destes dados com acurácia cada vez melhor (Erétil, 2017).

Gráfico 3: representação de grandes áreas geradora de dados.

O Gráfico 3 também mostra que as áreas tradicionais de processamentos de dados como bancos, indústrias, serviços, continuarão mantendo posição de destaque no mundo da informação.

Conclusão

Notadamente, o século XXI será marcado pela manipulação de dados.

Empresas que conseguirem gerar valor através dos dados irão se destacar em áreas como marketing e recursos humanos.

O perfil analítico da força de trabalho será cada vez mais valorizado e a forma de remuneração também tende a mudar.

Na era da informação, a extração, tratamento e análise dos dados pode ser o fator preponderante para escalar negócios.

Áreas como médico hospitalares, tendem a ser as que mais evoluirão em geração de dados pelo potencial de captar dados de pacientes em tempos reais através de dispositivos conectado ao próprio corpo.

Portanto, se existe um campo promissor nos próximos anos, até mesmo por questões de proteção de dados, certamente está ligado a grande evolução da analítica (analíticos).

Esta subárea da estatística tende a ganhar espaço e se popularizar no mundo dos negócios.

Para que isto ocorra, é necessário investir nas pessoas através do desenvolvimento de competências relacionadas em análise de dados e uma política clara para retenção destes talentos. As principais competências técnicas estão relacionadas a técnicas de big data, machie laringe, mineração de dados e dashboards (relatórios para tomada de decisões).

Bibliografia

Bramir, Max. Príncipes off Data Mining: Tiro Edito. Springer-Vergal London Ltda. 2007, 2013, 2016.

Erétil, Wolfgang. Introdutivo too Artificial Inteligente. Springer Internacional Internacional AG 2017: London.

Géron, Aurélien. Hands–On Machine Learning with Scikit–Learn and TensorFlow 2e: Concepts, Tools, and Techniques to Build Intelligent Systems. Canada, 2019.

Kubat, Miroslav. An Introduction to Machine Learning. Second Edition. Springer 2017: Miami.

Kuhn, Max; Johnson, Kjell. Applied Predictive Modeling. Springer Science+Business Media New York 2013.

Skansi, Sandro. Introduction to Deep Learning: From Logical Calculus to Artificial Intelligence. Springer International Publishing AG, part of Springer Nature 2018.

Você também pode gostar

Sem comentários

Deixe um comentário