Generalized Optimization Framework for Graph-based Semi-supervised LearningReportar como inadecuado




Generalized Optimization Framework for Graph-based Semi-supervised Learning - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 MAESTRO - Models for the performance analysis and the control of networks CRISAM - Inria Sophia Antipolis - Méditerranée 2 LIP - Laboratoire de l-Informatique du Parallélisme 3 Mathematics and Mechanics Faculty St Petersbourg

Abstract : We develop a generalized optimization framework for graph-based semi-supervised learning. The framework gives as particular cases the Standard Laplacian, Normalized Laplacian and PageRank based methods. We have also provided new probabilistic interpretation based on random walks and characterized the limiting behaviour of the methods. The random walk based interpretation allows us to explain di erences between the performances of methods with di erent smoothing kernels. It appears that the PageRank based method is robust with respect to the choice of the regularization parameter and the labelled data. We illustrate our theoretical results with two realistic datasets, characterizing di erent challenges: Les Miserables characters social network and Wikipedia hyper-link graph. The graph-based semi-supervised learning classi- es the Wikipedia articles with very good precision and perfect recall employing only the information about the hyper-text links.

Résumé : Dans ce rapport nous proposons un schéma d-optimisation générique pour l-apprentissage semi-supervisé sur des graphes. Ce cadre intègre comme cas particuliers les approches dites du Laplacien standard et du Laplacien normalis é ainsi qu-une méthode basée sur PageRank. Nous proposons également une interprétation probabiliste originale qui s-appuie sur la notion de marche aléatoire, puis nous étudions les comportements limites de ces méthodes. Le recours aux marches aléatoires nous permet d-expliquer les di érences de performances existant entre ces trois noyaux de lissage. Une des conclusions principales de ce travail est que les méthodes construites sur PageRank sont plus robustes face au choix du paramètre de régularisation et des points marqués. Nous illustrons nos résultats théoriques avec deux jeux de données réelles représentatives de deux dé s distincts: celui des réseaux sociaux avec le cas des personnages du roman -Les Misérables- et celui des graphes d-hyper-liens à travers l-application Wikipedia. En particulier, nous démontrons qu-il est possible de classi er les articles de Wikipedia avec une très bonne précision et un très bon rappel, à partir de la seule information fournie par les liens hyper-texte.

Keywords : Semi-supervised Learning PageRank Random Walk on Graphs Wikipedia Automatic Article Classi cation





Autor: Konstantin Avrachenkov - Paulo Gonçalves - Alexey Mishenin - Marina Sokol -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados