Coping with the Computational and Statistical Bipolar Nature of Machine LearningReportar como inadecuado




Coping with the Computational and Statistical Bipolar Nature of Machine Learning - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 LSIS - Laboratoire des Sciences de l-Information et des Systèmes 2 QARMA - éQuipe AppRentissage et MultimediA Marseille LIF - Laboratoire d-informatique Fondamentale de Marseille

Abstract : Machine Learning is known to have its roots in a broad spectrum of fields including Artificial Intelligence, Pattern Recognition, Statistics or Optimisation. From the earliest stages of Machine Learning, both computational issues and generalisation properties have been identified as central to the field. While the former address the question of computability, complexity from a fundamental perspective or computational efficiency on a more practical standpoint of learning systems, the latter aim at understanding and characterising how well the solutions they provide perform on new, unseen data. Those last years, the emergence of large-scale datasets in Machine Learning has been deeply reshaping the principles of Learning Theory. Taking into account possible constraints on the training time, one has to deal with more complex trade-offs than the ones classically addressed by Statistics. As a direct consequence, designing new efficient algorithms both in theory and practice, able to handle large-scale datasets, imposes to jointly deal with the statistical and computational aspects of Learning. The present thesis aims at unravelling, analysing and exploiting some of the connections that naturally exist between the statistical and computational aspects of Learning. More precisely, in a first part, we extend the stability analysis, which relates some algorithmic properties to the generalisation abilities of learning algorithms, to a novel and fine-grain performance measure, namely the confusion matrix. In a second part, we present a novel approach to learn a kernel-based regression function, that serves the learning task at hand and exploits the structure of the problem so that the optimisation procedure is made inexpensive. Finally, we investigate the trade-off between convergence rate and computational cost when minimising a composite functional with inexact proximal-gradient methods. In that setting, we identify optimisation strategies that provably are computationally optimal.

Résumé : L-Apprentissage Automatique tire ses racines d-un large champ disciplinaire qui inclut l-Intelligence Artificielle, la Reconnaissance de Formes, les Statistiques ou l-Optimisation. Dès les origines de l-Apprentissage, les questions computationelles et les propriétés en généralisation ont toutes deux été identifiées comme centrales pour la discipline. Tandis que les premières concernent les questions de calculabilité ou de complexité sur un plan fondamental ou d-efficacité computationelle d-un point de vue plus pratique des systèmes d-apprentissage, les secondes visent a comprendre et caractériser comment les solutions qu-elles fournissent vont se comporter sur de nouvelles données non encore vues. Ces dernières années, l-émergence de jeux de données à grande échelle en Apprentissage Automatique a profondément remanié les principes de la Théorie de l-Apprentissage. En prenant en compte de potentielles contraintes sur le temps d-entraînement, il faut faire face à un compromis plus complexe que ceux qui sont classiquement traités par les Statistiques. Une conséquence directe tient en ce que la mise en place d-algorithmes efficaces autant en théorie qu-en pratique capables de tourner sur des jeux de données a grande échelle doivent impérativement prendre en compte les aspects statistiques et computationels de l-Apprentissage de façon conjointe. Cette thèse a pour but de mettre à jour, analyser et exploiter certaines des connections qui existent naturellement entre les aspects statistiques et computationels de l-Apprentissage. Plus précisément, dans une première partie, nous étendons l-analyse en stabilité, qui relie certaines propriétés algorithmiques aux capacités de généralisation des algorithmes d-apprentissage, la matrice de confusion, que nous suggérons comme nouvelle mesure de performance fine. Dans une seconde partie, nous présentons un nouvelle approche pour apprendre une fonction de régression basée sur les noyaux, où le noyau appris sert directement la tâche de régression, et qui exploite la structure du problème pour offrir une procédure d-optimisation peu coûteuse. Finalement, nous étudions le compromis entre vitesse de convergence et coût computationel lorsque l-on minimise une fonction composite avec des méthodes par gradient-proximal inexact. Dans ce contexte, nous identifions des stratégies d-optimisation qui sont computationellement optimales.

en fr

Keywords : machine learning statistical learning algorithms learning theory

Mots-clés : apprentissage automatique optimisation apprentissage statistique algorithmes théorie de l-apprentissage





Autor: Pierre Machart -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados