Jesus L. Lobo, Javier Del Ser, Iban Laña de TECNALIA, Miren Nekane de UPV/ EHE y S.Salcedo de la Universidad de Alcalá presentan su trabajo de investigación en el IDC 2016, 10th INTERNATIONAL SYMPOSIUM ON INTELLIGENT DISTRIBUTED COMPUTING.

En los últimos años ha aumentado la necesidad y crecido el interés por los modelos adaptativos para entornos no estacionarios, especialmente para aquellas aplicaciones predictivas que reciben los datos en forma de “streams” y que trabajan en modo “Big Data”. Uno de los desafíos más destacados para estas aplicaciones que tienen que trabajar en estos entornos es lidiar con la obsolescencia de sus modelos, es decir, cómo saber cuándo sus modelos están obsoletos y deben actualizarse (re-entrenarse) para seguir siendo precisos. Lo primero es saber que los datos pueden sufrir cambios inesperados en su distribución (el denominado “concept drift”), y saber cuándo se produce este cambio o conocer cómo los modelos deben adaptarse a este cambio es la clave de la solución.

El trabajo presentado por Jesús López Lobo en la conferencia internacional Intelligent Distributed Computing celebrada en París, nos acerca a una solución en la que no es necesario conocer el momento del drift, y en la que el modelo se adapta al cambio de una forma inteligente: el modelo es entrenado con la información actual pero también con la información del pasado más relevante y “parecida” para el momento actual (en forma de centroides extraídos de los modelos pasados). Este “parecido” se basa en una métrica que contempla la similaridad de los datos del pasado y del presente en términos de desbalanceo de la clase y del AUC.

Esta técnica ha sido testeada en un entorno específico de datos sintéticos, y el futuro de esta investigación pasa por realizar más pruebas con datos sintéticos y también de entornos reales.

 

Share This