MORDAN Taylor
Direction de recherche : Matthieu CORD
Co-encadrement : THOME Nicolas
Apprentissage d'architectures profondes pour la détection et la reconnaissance de cibles en imagerie optronique
Conception d’architectures profondes pour l’interprétation de données visuelles.
Aujourd’hui, les images sont omniprésentes à travers les smartphones et les réseaux sociaux. Il devient alors nécessaire d’avoir des moyens de traitement automatiques, afin d’analyser et d’interpréter les grandes quantités de données disponibles. Dans cette thèse, nous nous intéressons à la détection d’objets, i.e. au problème d’identification et de localisation de tous les objets présents dans une image. Cela peut être vu comme une première étape vers une interprétation complète des scènes. Nous l’abordons avec des réseaux de neurones convolutionnels, sous le paradigme de l’apprentissage profond. Un inconvénient de cette approche est le besoin de nombreuses données annotées pour l’apprentissage. Puisque les annotations précises sont longues à produire, nous utilisons d’abord des jeux de données plus gros construits à l’aide d’annotations au niveau de l’image, moins coûteuses à obtenir. Nous concevons une fonction d’agrégation globale pour travailler avec celles-ci et retrouver l’information latente sur la localisation spatiale des objets. Nous travaillons ensuite avec les annotations habituelles au niveau des objets, et introduisons plusieurs nouveaux modules pour apprendre des représentations par parties. En étant plus flexibles que les boîtes englobantes standards et en exploitant la structure latente des objets, elles donnent des descriptions plus précises. Nous traitons la question de l’efficacité dans l’apprentissage de bout en bout de ces deux types de représentation latente en tirant parti de réseaux complètement convolutionnels. En outre, l’exploitation d’annotations supplémentaires sur les images disponibles peut être une alternative à l’obtention de plus d’images, particulièrement quand celles-ci sont difficiles à acquérir. Nous formalisons ce problème comme un apprentissage multi-tâche spécifique avec un objectif primaire, et concevons une méthode pour apprendre à partir de cette supervision auxiliaire. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature.
Soutenance : 20/11/2018
Membres du jury :
M. Florent Perronnin, Naver Labs Europe [Rapporteur]
M. Josef Sivic, INRIA – ENS [Rapporteur]
M. Alexandre Alahi, EPFL – VITA Lab
M. Matthieu Cord, Sorbonne Université – LIP6
M. Gilles Henaff, Thales LAS France S.A.S.
Mme Natalia Neverova, Facebook AI Research
M. Nicolas Thome, CNAM – CEDRIC
Publications 2017-2018
-
2018
- T. Mordan : “Apprentissage d’architectures profondes pour la détection et la reconnaissance de cibles en imagerie optronique”, thèse, soutenance 20/11/2018, direction de recherche Cord, Matthieu, co-encadrement : Thome, Nicolas (2018)
- T. Mordan, N. Thome, G. Henaff, M. Cord : “Revisiting Multi-Task Learning with ROCK: a Deep Residual Auxiliary Block for Visual Detection”, Advances in Neural Information Processing Systems 32 (NeurIPS 2018), Montréal, Canada (2018)
- T. Mordan, N. Thome, G. Henaff, M. Cord : “End-to-End Learning of Latent Deformable Part-Based Representations for Object Detection”, International Journal of Computer Vision, (Springer Verlag) (2018)
-
2017
- T. Mordan, N. Thome, M. Cord, G. Henaff : “Deformable Part-based Fully Convolutional Network for Object Detection”, British Machine Vision Conference (BMVC), London, United Kingdom (2017)
- Th. Durand, T. Mordan, N. Thome, M. Cord : “WILDCAT: Weakly Supervised Learning of Deep ConvNets for Image Classification, Pointwise Localization and Segmentation”, IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, United States, pp. 5957-5966 (2017)