Aprendizagem em grandes volumes de dados: Seleção de Dados para Treinamento de Máquina em Ambientes com Alta Taxa de Eventos

Fernando  E. M. Borges; Danton  D. Ferreira; José M. Seixas

doi:10.48011/asba.v2i1.1359

Fernando E. M. Borges Universidade Federal de Lavras
Danton D. Ferreira Universidade Federal de Lavras
José M. Seixas Universidade Federal do Rio de Janeiro

DOI: https://doi.org/10.48011/asba.v2i1.1359

Keywords: Seleção de dados, Curvas principais, Big-data, Aprendizagem de máquina, Redes neurais

Abstract

Ambientes com alta taxa de eventos gerando grandes volumes de dados estão cada vez mais presentes. Sistemas de aquisição e análise de dados, exigindo ferramentas de mineração complexas vêm sendo adotados em diversas áreas. Tais sistemas possuem requisitos durante seu desenvolvimento e operação, como tempo de processamento e consumo de memória. Propor um método de seleção inteligente de dados, que permita reduzir o tempo de desenvolvimento de máquinas em ambientes de big-data, atingindo resultados similares de desempenho entre os conjuntos de treinamento total e reduzidos pela seleção, torna-se uma abordagem viável na otimização do desenvolvimento destes sistemas. Neste artigo é proposta uma seleção inteligente de eventos utilizando Curvas Principais, que explora correlações não lineares dos dados. A seleção se dá pelo mapeamento das distâncias de cada evento à Curva Principal. Para testar o método, utilizou-se uma base real de dados referente ao sistema de filtragem online de elétrons do experimento ATLAS do CERN (Centro Europeu para a Pesquisa Nuclear). Após a seleção dos dados, estes são testados em uma Rede Neural do tipo multicamadas (MLP) para simular o processo real do sistema. Resultados preliminares apresentaram resultados de detecção e falso alarme similares entre os conjuntos completo e reduzido.