Séminaire Donnees et APprentissage Artificiel

Apprentissage Profond de Representations pour la Vision

Jeudi 5 mai 2011
Yann LeCun (Courant Institute of Mathematical Sciences and Center for Neural Science, NYU)

Les tâches perceptuelles telles que la vision et l'audition nécéssitent la construction et l'utilisation de bonnes représentations internes. Plusieurs indices théoriques et empiriques suggèrent que les percepts sont bien représentés par une hiérarchie multi-étage dans laquelle les representations sont de plus en plus globales, invariantes, et abstraites à mesure que l'on progresse dans les étages. Un des défis les plus difficiles pour l'apprentissage automatique dans les années qui viennent est la conception de méthodes "d'apprentissage profond" applicables à des architectures multi-étages qui pourraient apprendre de telles représentations à partir de données étiquetées et non-étiquetées.

On décrira une famille d'algorithmes d'apprentissage profond, basé sur l'entrainement d'un prédicteur de codes parsimonieux, avec laquelle on peut pré-entrainer les filtres de réseaux convolutifs ("ConvNets"). Les ConvNets sont constitués d'une succession d'étages dont chacun est composé d'un banc de filtres, d'une non-linéarité complexe, et d'une opération d'aggrégation spatiale.

Plusieurs applications de ces méthodes seront décrites, certaines accompagnées de démonstrations "live", notamment pour la reconnaissance d'objets dans les images avec entrainement à la volée, la détection de piétons, la reconnaissance d'activité dans les vidéos, et le pilotage visuel de robots mobiles dans la nature.

Plus d'informations ici …
Sahar.Changuel (at) nulllip6.fr