Dans cette thèse, nous nous intéressons à l'étude des réseaux convolutifs profonds, et en particulier à leur amélioration "au delà d'ImageNet". Alors que les années 2012-2015 ont proposé des modèles de plus en plus profonds et complexes, nous proposons d'étudier plus finement la façon dont ces réseaux modélisent l'information visuelle et à diverses façon de contrôler ces représentations pour améliorer leur qualités pour diverses tâches. Dans un premier temps, nous proposons une nouvelle méthode de régularisation basée théorie de l'information visant à augmenter l'invariance intra-classe et donc le pouvoir discriminatif de ces modèles. Nous proposons ensuite une structuration de l'information en deux espaces complémentaires pour permettre l'apprentissage conjoint de la classification et la reconstruction dans un contexte semi-supervisé. Enfin, nous proposons de séparer et modéliser diverses informations sémantiques en deux espaces pour produire un disentangling efficace de facteurs de variation sémantiques en particulier pour l'édition d'images et l'augmentation de données.