Deep Learning, késako ?

Si l’intelligence artificielle a été révolutionnée ces dernières années, c’est notamment grâce au Deep Learning, une technologie prenant toujours plus d’ampleur dans notre vie quotidienne sans même que l’on s’en aperçoive. Toutes les plus grandes entreprises de la Silicon Valley (Apple, Google, Facebook, etc) misent gros sur cette nouvelle méthode d’apprentissage et n’arrêtent pas le progrès. De la reconnaissance vocale à la reconnaissance d’image, le Deep Learning s’emparent de tous les concepts les plus complexes à appréhender pour la machine. Mais alors qu’est-ce que cette nouvelle méthode, comment fonctionne-t-elle et que permet-elle ?

Une définition pour le Deep Learning ?

Le Deep Learning ou « apprentissage profond » est une méthode d’apprentissage permettant à une machine de découvrir par elle-même et de comprendre des concepts souvent abstraits. Elle permet à un programme de représenter la parole ou bien l’image, des tâches qui semblaient auparavant très complexes pour une machine mais qui deviennent désormais accessibles grâce à des réseaux de neurones artificiels. En effet, avant l’avènement du Deep Learning, les ingénieurs devaient construire des modèles sur lesquels se basait un programme pour reconnaitre une image par exemple. Mais selon Yann Lecun, pionnier du Deep Learning, certains programmes sont aujourd’hui totalement autonomes et se débrouillent sans l’intervention de l’homme : « Avant, il fallait le faire à la main, expliquer à l’outil comment transformer une image afin de la classifier. Avec le Deep Learning, la machine apprend à le faire elle-même. Et elle le fait beaucoup mieux que les ingénieurs, c’est presque humiliant !».


Comment fonctionne le Deep Learning ?

Nous prendrons le domaine de la reconnaissance d’image afin d’illustrer au mieux le fonctionnement du Deep Learning :

Reconnaitre une image c’est une opération des plus banales pour le cerveau humain mais comment faire comprendre à une intelligence artificielle que cette image représente un bus ?

skolni_autobus_v_brne

Bus – Wikimedia Commons

Il faudrait qu’elle tienne compte premièrement de toutes les caractéristiques essentielles d’un bus : le nombre de vitre, de roues, la taille, la courbure de la carrosserie… Mais comment une machine pourrait-elle emmagasiner ces concepts sans qu’un ingénieur ne lui ai expliqué auparavant. C’est là qu’intervient le Deep Learning qui va tenter, à la suite de nombreuses observations, d’élaborer des corrélations entre les différents éléments d’une image pour enfin générer un modèle prédictif.

Pour ce faire, le programme utilisera une technique dite d’« apprentissage supervisé ». Concrètement, l’intelligence artificielle va s’alimenter en passant en revue des milliers voire des millions d’images de bus qu’on lui aura préalablement fourni. On comprend alors que cette révolution du Deep Learning a notamment été permise par la quantité désormais abondante d’images (et de bien d’autres ressources) disponible sur Internet, sans quoi une intelligence artificielle ne pourrait s’exercer. Ainsi, une fois cet apprentissage fastidieux terminé, le programme aura généré son propre modèle prédictif et sera à même de reconnaitre n’importe qu’elle nouvelle image illustrant un bus.

Tout cet apprentissage supervisé repose principalement sur des réseaux de neurones et pour savoir en quoi ils consistent nous devons revenir sur notre exemple du bus. Ces réseaux, sont schématiquement semblable au réseau neuronal chez l’Homme, chaque unité (neurone) effectue des calculs simples et envoie un signal à une autre. Finalement cela permettra de reconstituer une information. Chez la machine ces réseaux de neurones sont organisés en plusieurs couches qui sont souvent très nombreuses, c’est pourquoi on parle d’apprentissage « profond » / de « deep learning ».

2000px-neural_network_bottleneck_achitecture-svg

Schéma d’un réseau de neurone artificiel : En jaune les paramètres d’entrée (les éléments de l’image), en bleu 2 couches de neurones et en orange le résultat

Chaque couche analyse une fraction de l’image, du plus élémentaire aux plus infimes détails. Ainsi, la machine est non seulement capable de décomposer l’image mais aussi d’en comprendre les caractéristiques fondamentales aussi abstraites soient-elles. Pour une illustration de bus, l’intelligence artificielle s’intéressera donc premièrement aux contours du véhicule, pour cela la première couche de neurone tentera de repérer des formes élémentaires, une ligne par exemple. Elle va donc comparer les pixels au-dessus et ceux en-dessous. Elle s’intéressera ensuite à des caractéristiques de niveau plus élevé comme le rapport hauteur/longueur du bus, son nombre de vitres, de porte, sa couleur, la taille de ses phares… Elle fait donc un résumé de l’image en identifiant l’essentiel puis « peaufine » son analyse grâce aux détails.


Que permet concrètement le Deep Learning ?

On remarque donc que le Deep Learning a beaucoup à apporter au domaine de la reconnaissance d’image. Google l’utilise aujourd’hui dans son programme StreetView afin de reconnaitre puis de flouter le visage des passants par exemple. L’entreprise mise beaucoup sur cette nouvelle technologie et a même lancé une filiale spécialement dédiée à l’intelligence artificielle : DeepMind. Cette dernière a très récemment développé le jeu Quick Draw dans lequel le joueur est invité à dessiner des objets que la machine devra reconnaitre seule. Mieux encore, DeepMind a mis au point un programme capable de lire parfaitement sur les lèvres d’un homme, une avancée qui pourrait être très utile pour de nombreux malentendants.

Yann Lecun a lui-même créer un programme permettant à un simple ordinateur portable de reconnaitre via une caméra des objets en temps réels. Le programmeur Kyle McDonald a lui aussi mis au point un programme similaire : NeuralTalk. Ce dernier décrit chaque scène qu’il aperçoit au travers de la webcam en temps réel avec parfois quelques erreurs mais souvent avec une précision extraordinaire. Voici une vidéo démontrant les performances du programme de Kyle lorsqu’il se déplace dans les rues d’Amsterdam :

Fort heureusement, le Deep Learning ne se limite pas à ce domaine. En effet, outre le traitement de l’image, cette technique est aussi utilisée par les plus grands programmes de reconnaissance vocale tels que Siri ou Google Now. Elle permet aussi à Facebook de vous proposer en premier plan les publications les plus susceptibles de vous plaire sur votre fil d’actualité. En bref, même si le Deep Learning n’en est qu’à ces débuts, il est aujourd’hui la méthode d’apprentissage la plus performante et a un grand avenir de lui.

Ainsi certains ont décidé de pousser la machine encore plus loin, ils ne souhaitent plus seulement qu’elle reconnaisse ou qu’elle interprète des images ou des sons, ils souhaitent lui donner la capacité d’en créer !


Et si votre curiosité est sans limite et que vous désirez en savoir encore plus sur le Deep Learning n’hésitez pas à regarder cette vidéo proposée par la chaîne YouTube « Science étonnante » :


Sources :
https://fr.wikipedia.org/wiki/Apprentissage_profond
http://www.lemonde.fr/pixels/article/2015/07/24/comment-le-deep-learning-revolutionne-l-intelligence-artificielle_4695929_4408996.html
https://sciencetonnante.wordpress.com/2016/04/08/le-deep-learning/
http://theawesomer.com/computer-describes-real-life/346144/

Nicolas Jorif

Publicités