Mise à l'échelle audio
Image précédente Image suivante
Des chercheurs du MIT, du MIT-IBM Watson AI Lab, d'IBM Research et d'ailleurs ont développé une nouvelle technique d'analyse des données audio et visuelles non étiquetées qui pourrait améliorer les performances des modèles d'apprentissage automatique utilisés dans des applications telles que la reconnaissance vocale et la détection d'objets. Le travail, pour la première fois, combine deux architectures d'apprentissage auto-supervisé, d'apprentissage contrastif et de modélisation de données masquées, dans le but de mettre à l'échelle des tâches d'apprentissage automatique telles que la classification d'événements dans des données monomodales et multimodales sans avoir besoin d'annotation, reproduisant ainsi la façon dont les humains comprennent et perçoivent notre monde.
"Une plus grande partie des connaissances humaines est apprise de manière auto-supervisée, car nous ne recevons pas toujours de signaux de supervision, et nous voulons permettre au modèle d'apprentissage automatique d'avoir la même capacité", explique Yuan Gong, postdoctorant au MIT au Laboratoire d'informatique et d'intelligence artificielle (CSAIL).
"Donc, une autre façon de le dire est que l'apprentissage auto-supervisé constitue souvent la base d'un modèle initial, car il peut apprendre sur de grandes quantités de données non étiquetées. Et vous pouvez ensuite utiliser l'apprentissage classique, supervisé ou l'apprentissage par renforcement pour affiner le modèle à quelque chose de particulier si vous le souhaitez", explique Jim Glass, chercheur principal au MIT et membre du MIT-IBM Watson AI Lab.
La technique, appelée auto-encodeur masqué audiovisuel contrastif (CAV-MAE), est un type de réseau de neurones qui peut apprendre à extraire et à cartographier des représentations latentes significatives dans un espace de grande dimension à partir de données acoustiques et visuelles en s'entraînant sur de grands ensembles de données YouTube de clips audio et vidéo de 10 secondes. Les chercheurs disent que la technique est plus efficace que les approches précédentes car elle modélise explicitement les relations entre les données audio et visuelles d'une manière que d'autres méthodes ne font pas.
Les étudiants diplômés Andrew Rouditchenko et Alexander H. Liu du MIT, David Harwath PhD '18 de l'Université du Texas à Austin et les membres du MIT-IBM Watson AI Lab Leonid Karlinsky et Hilde Kuehne se joignent à Gong et Glass pour l'étude. Kuehne est également affilié à l'Université Goethe de Francfort. La méthode a été récemment présentée à la Conférence internationale sur les représentations d'apprentissage.
Une approche conjointe et coordonnée
Le CAV-MAE fonctionne par "apprentissage par prédiction" et "apprentissage par comparaison", explique Gong. La modélisation des données masquées, ou la méthode de prédiction, prend une vidéo avec sa forme d'onde audio coordonnée, convertit l'audio en un spectrogramme et masque 75 % des deux. Les données non masquées sont tokenisées, puis introduites dans des encodeurs audio et visuels séparés avant d'entrer dans un encodeur/décodeur commun, où le modèle est invité à récupérer les données manquantes. La différence (perte de reconstruction) entre la prédiction reconstruite résultante et la combinaison audiovisuelle d'origine est ensuite utilisée pour entraîner le modèle afin d'obtenir de meilleures performances. Un exemple de ceci serait de couvrir une partie d'une vidéo d'un piano et une partie d'un spectrogramme de musique de piano, puis de demander au modèle d'essayer de déterminer les entrées masquées. Malheureusement, cette méthode peut ne pas capturer l'association entre la paire vidéo et audio, alors que l'apprentissage contrastif en tire parti, mais peut ignorer certaines informations uniques à la modalité, comme l'arrière-plan d'une vidéo.
L'apprentissage contrastif vise à cartographier des représentations proches les unes des autres. Par exemple, le modèle tentera de placer différentes données vidéo et audio de différents perroquets proches les uns des autres et plus éloignés des paires vidéo et audio de guitares jouant. De la même manière que pour l'encodage automatique masqué, les paires audiovisuelles sont transmises à des encodeurs de modalité distincts ; cependant, les composants audio et visuels sont conservés séparément dans l'encodeur commun avant que le modèle n'effectue la mise en commun et la perte de contraste. De cette façon, l'apprentissage contrastif tente d'identifier les parties de chaque audio ou vidéo qui sont les plus pertinentes pour l'autre. Par exemple, si une vidéo montre quelqu'un qui parle et que le clip audio correspondant contient de la parole, l'auto-encodeur apprendra à associer les mouvements de la bouche de l'orateur aux mots prononcés. Il ajustera ensuite les paramètres du modèle afin que ces entrées soient représentées proches les unes des autres. En fin de compte, la méthode CAV-MAE combine les deux techniques avec plusieurs flux de données vers l'avant avec masquage comme première étape, des encodeurs spécifiques à la modalité et une normalisation de couche afin que les forces de représentation soient similaires.
"Nous avons [alors] voulu comparer le CAV-MAE proposé avec un modèle formé uniquement avec un auto-encodeur masqué et un modèle formé uniquement avec un apprentissage contrastif, car nous voulons montrer qu'en combinant l'auto-encodeur masqué et l'apprentissage contrastif, nous pouvons obtenir une certaine amélioration des performances ", explique Gong, " et les résultats soutiennent notre hypothèse selon laquelle il y a une amélioration évidente. "
Les chercheurs ont testé CAV-MAE - ainsi que leur méthode sans perte de contraste ou auto-encodeur masqué - par rapport à d'autres méthodes de pointe sur des tâches de récupération audiovisuelle et de classification d'événements audiovisuels en utilisant des ensembles de données AudioSet (20K et 2M) et VGGSound standard - de courts clips réalistes étiquetés, qui pourraient inclure plusieurs sons. La récupération audiovisuelle signifie que le modèle voit le composant audio ou visuel d'une paire de requêtes et recherche celui qui manque ; la classification des événements comprend l'identification d'actions ou de sons dans les données, comme une personne qui chante ou une voiture qui conduit.
Dans l'ensemble, ils ont constaté que l'apprentissage contrastif et la modélisation des données masquées sont des méthodes complémentaires. CAV-MAE a été en mesure de surpasser les techniques précédentes (avec une pré-formation entièrement auto-supervisée) d'environ 2 % pour les performances de classification des événements par rapport aux modèles avec des calculs comparables et, plus impressionnant encore, a suivi ou surpassé les modèles avec des ressources informatiques au niveau de l'industrie. Le modèle de l'équipe s'est classé de la même manière que les modèles entraînés avec uniquement la perte contrastive. Et étonnamment, selon l'équipe, l'incorporation de données multimodales dans la pré-formation CAV-MAE améliore considérablement le réglage fin de la représentation à modalité unique via l'apprentissage supervisé (avec certaines données étiquetées) et les performances sur les tâches de classification d'événements audio uniquement. Cela démontre que, comme les humains, les informations multimodales fournissent un coup de pouce supplémentaire "soft label" même pour les tâches audio ou visuelles uniquement ; par exemple, cela aide le modèle à comprendre s'il recherche une guitare électrique ou acoustique - un signal de supervision plus riche.
"Je pense que les gens aiment l'élégance de ce modèle pour combiner des informations dans les différents flux audio et visuels. Il a la perte de contraste et de reconstruction, et par rapport aux modèles qui ont été évalués avec des données similaires, il fonctionne clairement très bien dans une gamme de ces tâches ", déclare Glass.
Sur cette base, "une chose spéciale est que notre modèle peut faire à la fois la classification et la récupération, ce qui n'est pas courant", ajoute Gong. "Avant ce travail, ces méthodes étaient utilisées séparément, mais après ce travail, je vois que la plupart des cadres d'apprentissage audiovisuel utilisent la perte de contrat et l'auto-encodeur masqué ensemble, implicitement ou explicitement."
Apporter l'apprentissage audiovisuel auto-supervisé dans notre monde
Les chercheurs voient leur contribution de l'autoencodeur masqué audiovisuel contrastif (CAV-MAE) comme une étape importante et un pas en avant pour les applications, qui passent de plus en plus d'une modalité unique à une multimodalité et qui nécessitent ou tirent parti de la fusion audiovisuelle. Ils émettent l'hypothèse qu'un jour, il pourrait être utilisé pour la reconnaissance d'actions dans des domaines tels que le sport, l'éducation, le divertissement, les véhicules à moteur et la sécurité publique. Elle pourrait aussi, un jour, s'étendre à d'autres modalités. À l'heure actuelle, le fait que "cela ne s'applique qu'aux données audiovisuelles peut être une limitation, mais nous ciblons l'apprentissage multimodal, qui est la tendance de l'apprentissage automatique", explique Gong. "En tant qu'humains, nous avons des multi-modalités - nous avons l'odorat, le toucher - beaucoup plus de choses que l'audio-visuel. Ainsi, lorsque nous essayons de construire l'IA, nous essayons d'imiter les humains d'une manière ou d'une autre, pas nécessairement du point de vue biologique, et cette méthode pourrait [potentially be] généralisée à d'autres modalités inexplorées. "
Alors que les modèles d'apprentissage automatique continuent de jouer un rôle de plus en plus important dans nos vies, des techniques comme celle-ci deviendront de plus en plus précieuses.
Cette recherche a été soutenue par le MIT-IBM Watson AI Lab.
Article précédent Article suivant
Une approche conjointe et coordonnée Apporter un apprentissage audiovisuel auto-supervisé dans notre monde