Aprendizagem em grandes volumes de dados: Seleção de Dados para Treinamento de Máquina em Ambientes com Alta Taxa de Eventos
Abstract
Ambientes com alta taxa de eventos gerando grandes volumes de dados estão cada vez mais presentes. Sistemas de aquisição e análise de dados, exigindo ferramentas de mineração complexas vêm sendo adotados em diversas áreas. Tais sistemas possuem requisitos durante seu desenvolvimento e operação, como tempo de processamento e consumo de memória. Propor um método de seleção inteligente de dados, que permita reduzir o tempo de desenvolvimento de máquinas em ambientes de big-data, atingindo resultados similares de desempenho entre os conjuntos de treinamento total e reduzidos pela seleção, torna-se uma abordagem viável na otimização do desenvolvimento destes sistemas. Neste artigo é proposta uma seleção inteligente de eventos utilizando Curvas Principais, que explora correlações não lineares dos dados. A seleção se dá pelo mapeamento das distâncias de cada evento à Curva Principal. Para testar o método, utilizou-se uma base real de dados referente ao sistema de filtragem online de elétrons do experimento ATLAS do CERN (Centro Europeu para a Pesquisa Nuclear). Após a seleção dos dados, estes são testados em uma Rede Neural do tipo multicamadas (MLP) para simular o processo real do sistema. Resultados preliminares apresentaram resultados de detecção e falso alarme similares entre os conjuntos completo e reduzido.