Desafios do gerenciamento de soluções Big Data para obter apoio à decisão em Tempo Real
Segundo Gartner 2018, Big Data é um grande volume de dados, com variedade de informação que precisa ser processada em alta velocidade, que visa permitir uma melhor percepção de um cenário e/ou uma melhor tomada de decisão. O conceito de Big Data começou a receber destaque após o trabalho do analista do Gartner, Doug Laney. Esse mesmo analista apresentou os 3Vs que norteiam o conceito de Big Data que são: Volume, Velocidade e Variedade. Embora hoje o mercado e a academia já trabalhem com mais conceitos como Veracidade e Valor, o modelo de Doug Laney é a base do que entendemos como Big Data [GARTNER 2018][KUNZE 2015].
Desafios do Big Data
O desafio relacionado ao Volume, é o armazenamento da enorme quantidade de dados. Quantidade que cresce exponencialmente, seja em bases de dados relacional ou não. A origem dessa grande quantidade de dados vai desde registro de transações financeiras a comentários salvos em redes sociais. Assim sendo, podemos considerar que qualquer informação gerada por um indivíduo em algum repositório de dados, pode ser utilizada para fins de Big Data. Então existe a necessidade de armazenar esses dados para um futuro uso [RAGUSEO, 2018] [CHEN e ZHANG 2014].
Tendo em vista, que existe uma enorme quantidade de dados, existe o desafio que os dados sejam processados com uma Velocidade que permita que as decisões e análises possam ser realizadas em tempo hábil. Ou seja, é necessário que os dados se transformem em informação para uso no momento em que eles são necessários, sob o risco de se tornarem desnecessários ou desatualizados[RAGUSEO, 2018] [CHEN e ZHANG 2014].
A enorme massa de dados pode possuir uma Variedade de fontes, precisando de uma melhor tratamento na associação das informações. Essa variedade está relacionada aos dados serem oriundos de diferentes bases de dados tradicionais e inclusive fontes como vídeos, fotos, áudios entre outros. Acreditasse que é a Variedade das fontes de informação, que permite uma melhor análise do comportamento de determinado alvo de estudo e uma melhor tomada de decisão[RAGUSEO, 2018] [CHEN e ZHANG 2014].
Além de armazenar grande quantidade de dados de diferentes fontes, é necessário que esses dados tenham Veracidade. Esse desafio está relacionado a qualidade dos dados. É preciso que existam processos que garantam a consistência e disponibilidade dos dados, visto que a veracidade dos dados implicará em uma tomada de decisão que pode comprometer toda a gerência do Big Data[RAGUSEO, 2018] [CHEN e ZHANG 2014].
E por último o desafio de agregar Valor a informação gerada pelo Big Data. Essa questão está relacionada, a analisar o contexto de negócio que a solução Big Data irá auxiliar na tomada de decisões. O Valor que será gerado é o determinante para definir se a aplicação do Big Data foi um sucesso ou uma falha [RAGUSEO, 2018] [CHEN e ZHANG 2014].
Desafios na entrega de informação em Tempo Real em ambientes dinâmicos
O próprio entendimento do termo “Tempo Real” ou em inglês real-time, já incorre em um desafio. Visto que a academia e o mercado apresentam diferentes definições de tempo e tempo real [ARISTÓTELES 2012]. Inclusive, algumas linhas de pesquisa acreditam que não existe o tempo real, que cada instante de tempo é único e que a percepção de tempo é individual [BARKLEY 2014]. Entretanto, para fins de um entendimento para esse trabalho, o termo está relacionado ao período em que a informação possui valor para o negócio, ou seja, enquanto os fatos ocorrem ou momento certo [GARTNER 2018].
Exemplificando a definição acima, imaginem que um analista de investimentos em uma bolsa de valores necessita de apoio para tomar uma decisão. Essa decisão precisa ser tomada em um curto período de tempo em que os lances de investimentos estão abertos. Então se a solução Big Data fornecer uma sugestão de investimento tão logo seja solicitado e a janela de investimento ainda está aberta, podemos dizer que a entrega ocorreu no momento certo, com sucesso. Por outro lado, caso a solução Big Data não retorne a sugestão de investimento no período em que os fatos estivessem atuais/válidos, incorreria em um fracasso, e a informação seria inútil.
Após o entendimento que o termo “Tempo Real” está relacionado ao valor que a informação possui enquanto ela é atual, nos deparamos com os desafios de entregar essa informação no período de tempo que a torna útil. Então retornamos ao 3Vs de Doug Laney acrescidos dos itens Veracidade e Valor, que são a base para uma gerência de solução Big Data e alguns dos principais desafios da entrega da informação em tempo real. Ou seja, o desafio de entregar informação em tempo real, está proporcionalmente relacionado a gerência Big Data adotada.
Algoritmos para aprendizado em Tempo Real
A escolha do algoritmo para apoio a decisão em Tempo Real, dependerá do tipo de resposta que é esperada e da forma de aprendizado que será utilizada. Atualmente, as principais formas de aprendizado são o Supervisionado e o Não Supervisionado. O que distingue uma da outra em termos gerais é que no aprendizado Supervisionado, na fase de Treinamento os casos já utilizam como saída o resultado esperado. Enquanto no aprendizado Não Supervisionado, o resultado de saída será descoberto após a fase de Treinamento, por meio de agrupamento de padrões [CHAPPELL 2018] [OUSSOUS 2017].
Algumas pesquisas na área de aprendizado Supervisionado que trabalham com soluções em Tempo Real sugerem o uso de algoritmos de Redes Neurais, visto que sua performance na tomada de decisão se apresenta mais eficás em relação aos outros [REZENDE 1999][SILVA 2016]. Entretanto quando se trata de aprendizado Não Supervisionado, a técnica chamada Aprendizado por Reforço tem ganhado destaque [WAWRZYNSKI 2018].
A técnica de Aprendizado por Reforço ou também conhecida como programação neuro dinâmica, é uma área do Machine Learning inspirada na psicologia comportamentalista, preocupada com a forma como os agentes de software devem tomar ações em um ambiente de modo a maximizar alguma noção de recompensa cumulativa. Resumidamente, o agente aprende apenas interagindo com o ambiente [WAWRZYNSKI 2018].
Conclusão
Para que se tenha uma solução Big Data que entregue informação em Tempo Real, devem ser analisados questões como Volume, Velocidade, Variedade, Veracidade e Valor. Tanto na escolha do hardware, do canal de transmissão de dados, nos algoritmos de data analytics a serem utilizados e também na mão de obra. A escolha correta dessas variáveis permitirá o sucesso da solução Big Data [RAGUSEO, 2018] [CHEN e ZHANG 2014] [GARTNER 2018].
Contudo cabe salientar que a escolha da solução Big Data está totalmente relacionada ao valor que possui para o negócio, e que a proposta que atende uma determinada empresa, não necessariamente atenderá outras. Nem sempre também o investimento que uma organização faz, será necessariamente o mesmo de outras. Assim sendo, os desafios da escolha da solução Big Data são semelhantes de negócio para negócio, mas a solução pode variar [GARTNER 2018] [OUSSOUS 2017].
Uma alterativa para se chegar a escolha correta são o estudo de casos de empresas que possuem um problema semelhante ou igual. Embora os cenários possam apresentar algumas diferenças, a análise de soluções existentes pode levar a um mapeamento de uma solução que seja satisfatória. Além de permitir vislumbrar problemas que não foram pensados ainda.
Outra alternativa para mitigar futuros problemas, é a aplicação de uma Prova de Conceito da solução. Isso permitirá que com um baixo custo, a organização ponha em teste a solução que julgou mais adequada. Essa alternativa contempla o uso de soluções de Big Data disponíveis de forma gratuita para pequenos volumes de dados, ou até mesmo o aluguel de uma infra-estrutura de pequeno porte apenas para este fim.
Para ambas alternativas, ou qualquer outra a ser aplicada, o que deverá nortear a solução Big Data ainda é o Valor para o negócio [GARTNER 2018] [RAGUSEO, 2018. Para cada passo a ser tomado, a pergunta que se deve fazer é: Qual o valor para o negócio dessa ação? Assim sendo, a solução a ser implementada possui uma maior chance de sucesso e aceitação.
Referências
ARISTÓTELES. Metafísica. Tradução do grego, textos adicionais e notas de Edson BINI. São Paulo: Edipro, 2012.
BARKLEY, R. A. (2014). "Sluggish Cognitive Tempo (Concentration Deficit Disorder?): Current Status, Future Directions, and a Plea to Change the Name". Journal of Abnormal Child Psychology. https://psychology.uiowa.edu/sites/psychology.uiowa.edu/files/groups/nikolas/files/Barkley,%202014.pdf. Acessado em 13 de Maio de 2018.
BÁEZ, Fernando. História Universal da Destruição dos Livros: Das tábuas sumérias à guerra do Iraque. Trad. Léo Schlafman. Rio de Janeiro: Ediouro, 2006.
CHAPPELL, David. https://app.pluralsight.com/library/courses/understanding-machine-learning/transcript. Acessado em 13 de Maio de 2018.
CHEN, C.L.P. e. ZHANG, C. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data Information Sciences . Information Sciences,V.275, 2014, pág. 314-347.
Gartner (2018). https://www.gartner.com/it-glossary/big-data. Acessado em 13 de Maio de 2018.
KUNZE, M. Big Data Technologies. In: Big Data and High Performance Computing. L. Grandinetti.et.al (Eds.).IOS.Press.2015.
LAUDON, Kenneth C.; Laudon, Jane P. (2014). Sistemas de de informação gerenciais 11ª edição ed. São Paulo, Brasil: Pearson Education do Brasil. p. 146.
OUSSOUS,.A,et al .Big Data technologies: A survey Journal of King Saud University – Computer and Information Sciences (2017). Disponível em http://dx.doi.org/10.1016/j. jksuci.2017.06.001. Acessado em 13 de Maio de 2018.
RAGUSEO,E. Big data technologies: An empirical investigation on their adoption, benefits and risks for companies. International Journal of Information Management. vol. 38.pag 187–195 (2018).
REZENDE, José. Um Esquema de Neurocontrole com Treinamento em Tempo Real Aplicado ao Posicionamento de um Servomotor. 40. SBAI- Simpósio Brasileiro de Automação Inteligente, São Paulo, SP. 08-10 de Setembro de 1999. Disponível em: http://fei.edu.br/sbai/SBAI1999/ARTIGOS/IV_SBAI_12.pdf
SILVA, Luis Alexandre da. Aprendizado não-supervisionado de características para detecção de conteúdo malicioso / Luis Alexandre da Silva. -- São José do Rio Preto, 2016. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/144635/silva_la_me_sjrp.pdf?sequence=3
Wawrzynski, Pawe. Real-Time Reinforcement Learning by Sequential Actor-Critics and Experience Replay l Wawrzy´nski Warsaw University of Technology, Institute of Control and Computation Engineering, Poland. Disponível em https://pdfs.semanticscholar.org/d1e4/93fb86f42104e6dfffec8191af3d43d44072.pdf
Comentários
Postar um comentário