en fr Supervised learning from sequential data Evaluation dune mesure de similitude en classification supervisée : application à la préparation de données séquentielles Reportar como inadecuado




en fr Supervised learning from sequential data Evaluation dune mesure de similitude en classification supervisée : application à la préparation de données séquentielles - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 Equipe CODAG - Laboratoire GREYC - UMR6072 GREYC - Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen

Abstract : In the data mining process, the main part of the data preparation step isdevoted to feature construction and selection. The filter approach usually adopted requiresevaluation methods for any kind of feature. We address the problem of the supervisedevaluation of a sequential feature. We show that this problem is solved if a more generalproblem is tackled : that of the supervised evaluation of a similarity measure.We provide such an evaluation method. We first turn the problem into the search ofa discriminating Voronoi partition. Then, we define a new supervised criterion evaluatingsuch partitions and design a new optimised algorithm. The criterion automatically preventsfrom overfitting the data and the algorithm quickly provides a good solution. In theend, the method can be interpreted as a robust non parametric method for estimatingthe conditional density of a categorical target feature given a similarity measure definedfrom a descriptive feature.The method is experimented on many datasets. It is useful for answering questions like :which day of the week or which hourly time segment is the most relevant to discriminatecustomers from their call detailed records ? Which series allows to better estimate thecustomer need for a new service ?

Résumé : En phase de préparation d-un processus de fouille de données, une part importantedu travail est consacrée à la construction et à la sélection des variables descriptives.L-approche filtre univariée usuellement adoptée nécessite l-emploi d-une méthoded-évaluation d-une variable. Nous considérons la question de l-évaluation supervisée d-unevariable séquentielle. Pour résoudre ce problème, nous montrons qu-il suffit de résoudreun problème plus général : celui de l-évaluation supervisée d-une mesure de similitude.Nous proposons une telle méthode d-évaluation. Pour l-obtenir, nous formulons leproblème en un problème de recherche d-une partition de Voronoi informative. Nousproposons un nouveau critère d-évaluation supervisée de ces partitions et une nouvelleheuristique de recherche optimisée. Le critère prévient automatiquement le risque de surapprentissageet l-heuristique trouve rapidement une bonne solution. Au final, la méthoderéalise une estimation non paramétrique robuste de la densité d-une variable cible catégorielleconditionnellement à une mesure de similitude définie à partir d-une variable descriptive.La méthode a été testée sur de nombreux jeux de données. Son utilisation permetde répondre à des questions comme : quel jour de la semaine ou quelle tranche horairesur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de saconsommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l-appétence à un nouveau service ?

en fr

Keywords : Supervised learning sequential data

Mots-clés : Apprentissage Statistique Bayésienne Analyse Discriminante Exploration de Données





Autor: Sylvain Ferrandiz -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados