Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimalReportar como inadecuado




Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 MAIA - Autonomous intelligent machine INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Résumé : Dans le contexte des Processus de Décision Markoviens PDM à grands espaces d-états avec approximation linéaire de la fonction de valeur, nous proposons un nouvel algorithme, Least-Squares λ Policy Iteration LSλPI, qui généralise et hérite des propriétés intéressantes de deux algorithmes existants~: λ-Policy Iteration λPI Bertsekas et Ioffe, 1996 et Least-Squares Policy Iteration LSPI Lagoudakis et Parr, 2003. Si le paramètre λ de λPI permet, comme dans la plupart des algorithmes du domaine, de faire un compromis biais-variance dans l-évaluation d-une politique, il introduit également de l-optimisme dans un schéma de type itération sur les politiques. A la manière de LSPI, l-algorithme que nous proposons ne nécessite pas de générer de nouveaux échantillons à chaque changement de politique il est off-policy, les utilise de manière efficace c-est une méthode du second ordre et n-a pas besoin de disposer d-un modèle du PDM. Nous établissons un résultat analytique très général qui montre qu-il est raisonnable d-introduire de l-optimisme dans un schéma PI, dans le sens où il garantit la performance de la politique lorsque l-erreur d-approximation est contrôlée à chaque itération. Ce résultat s-applique en particulier à LSλPI. Finalement, nous vérifions empiriquement sur un problème simple de type chaîne d-états et sur le jeu de Tetris l-intérêt de ce nouvel algorithme, en montrant que le paramètre λ permet d-améliorer la convergence et la performance de la politique obtenues par LSPI.





Autor: Christophe Thiery - Bruno Scherrer -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados