banner
Maison / Nouvelles / L'apprentissage automatique joue un rôle de premier plan dans l'exploration de l'univers
Nouvelles

L'apprentissage automatique joue un rôle de premier plan dans l'exploration de l'univers

Sep 06, 2023Sep 06, 2023

Les astronomes de Penn State – et les co-embauches de l'Institute for Computational and Data Sciences – utilisent des algorithmes d'apprentissage automatique pour examiner le trésor de données du télescope spatial James Webb. Ils disent que cette information change déjà notre compréhension de l'univers. Crédit : NASA et Space Telescope Science Institute. Tous les droits sont réservés.

16 mars 2023

Par Matt Swayne

PARC DE L'UNIVERSITÉ - Les belles images complexes de l'univers diffusées par le télescope spatial James Webb (JWST) sont plus que de jolis pixels qui se retrouvent sur les écrans d'ordinateur ou de smartphone. Ces images représentent des données — beaucoup, beaucoup de données ; en fait, le JWST offreenviron 235 gigaoctets de données scientifiques chaque jour– à peu près la même quantité de données dans une session de visionnage de films haute définition de 10 jours.

JWST et d'autres télescopes et capteurs ont fourni aux astronomes d'aujourd'hui un flux de données sans cesse croissant. Ces sources donnent aux astronomes la capacité sans précédent de regarder plus profondément dans l'espace et plus loin dans le temps que jamais auparavant - pour faire de nouvelles découvertes, notamment en étudiant la mort des étoiles. Les travaux récents de Penn State utilisant les données de JWST peuventchanger la façon dont les scientifiques comprennent l'origine des galaxies.

Cependant, la gestion de toutes ces données n'est pas sans poser de problèmes. Les astronomes doivent s'appuyer sur des superordinateurs et des algorithmes avancés, appelés apprentissage automatique, pour prendre ce flot de données et créer des modèles précis de l'immensité de l'espace, dévoiler des découvertes et inspirer de nouvelles questions, ainsi que créer de superbes images de l'univers.

Joël LejaetV.Ashley Villar, tous deux professeurs adjoints d'astronomie et d'astrophysique et co-employés de l'ICDS, font partie des scientifiques qui ont fait de Penn State un leader dans l'utilisation de techniques d'apprentissage automatique pour mieux gérer des flux massifs de données.

Selon Leja, les approches d'apprentissage automatique permettent aux chercheurs de traiter les chiffres plus efficacement et avec plus de précision que les méthodes précédentes. Dans certains cas, comme l'interprétation de l'imagerie des galaxies, ces techniques d'apprentissage automatique peuvent être près d'un million de fois plus rapides que les analyses traditionnelles, a-t-il ajouté.

Avant l'avènement de l'apprentissage automatique, le traitement des données impliquait l'utilisation d'équations analytiques et la compilation de grandes quantités de données dans des tableaux. Les chercheurs — souvent des étudiants diplômés — passaient un temps considérable à recueillir et à analyser des données. Sans apprentissage automatique, les calculs étaient souvent répétitifs et chronophages, et il n'existait aucun moyen efficace d'accélérer le processus.

Leja a dit que c'était un peu comme planifier un voyage extrêmement compliqué.

"Disons que vous essayez de trouver le meilleur moyen de Los Angeles à San Francisco", a déclaré Leja. "En utilisant les anciennes techniques, nous faisions une liste de routes, essayions chaque itinéraire, calculions la distance totale sur chaque petite route - les petites routes, les autoroutes principales, les voies giratoires - et nous aurions besoin de cartographier chaque itinéraire, en le faisant un par un. Ce n'est pas une très bonne façon de le faire. Cela vous donne généralement la bonne réponse, mais l'apprentissage automatique essaie de le faire de manière beaucoup plus intelligente en utilisant des données - par exemple, il pourrait plutôt utiliser des millions d'itinéraires de voyage précédents et simplement demander rapidement lequel est le plus rapide. "

L'apprentissage automatique ne se contente pas de réduire le travail humain, les approches peuvent réduire le travail de calcul, ce qui, à son tour, économise de l'énergie, selon Villar.

"La question du travail humain est importante, mais nous devons également considérer le problème du travail informatique", a déclaré Villar. "Il utilise tellement d'heures de temps de calcul, ce qui signifie également qu'il utilise beaucoup d'énergie."

Le télescope spatial James Webb fait plus que prendre de belles photos, il collecte des données qui peuvent nous aider à mieux comprendre l'univers. L'apprentissage automatique aide les astronomes à examiner ces données. Crédit : NASA et Space Telescope Science Institute (STScI). Tous les droits sont réservés.

Changeur de champ

Ces économies de calcul sont souvent difficiles à comprendre, mais elles créent un nouveau paradigme dans la découverte astronomique, selon les astronomes.

"L'apprentissage automatique change complètement mon domaine", a déclaré Leja. "Il traite simplement d'énormes quantités de données et exécute des modèles complexes très rapidement, ce qui est bien adapté aux données astronomiques qui inondent nos systèmes en ce moment."

L'ancien processus était également impitoyable sur le plan informatique, a déclaré Leja, expliquant son expérience en tant que postdoctorant à Harvard.

"Il a fallu un accès spécial - et j'ai dû passer beaucoup de temps à postuler puis à exécuter ces simulations", a déclaré Leja. "Et je ne pouvais l'exécuter qu'une seule fois, ce qui peut être très effrayant pour la science. Idéalement, vous voulez exécuter des calculs plusieurs fois pour tester des choses, essayer de nouvelles questions et vous assurer de bien faire les choses."

Désormais, les astronomes peuvent utiliser des techniques d'apprentissage automatique - comme les émulateurs de réseaux de neurones, qui simulent sur un ordinateur le comportement d'un réseau de neurones, une méthode inspirée du cerveau humain pour apprendre aux ordinateurs à traiter les données - pour accomplir en quelques semaines sur un ordinateur portable ce qui prenait autrefois énormément de temps et d'énormes ressources de calcul il y a quelques années à peine.

À mesure que les ordinateurs deviennent plus rapides et plus puissants et que les approches d'apprentissage automatique s'améliorent, les chercheurs s'attendent à ce que les astronomes du futur considèrent une semaine sur un ordinateur portable comme quelque peu lente.

"Il y a eu une accélération d'un facteur d'environ un million dans mon domaine", a déclaré Leja. "Cela me souffle à chaque fois que j'y pense, et cela nous permet de poser de nouvelles questions scientifiques."

Comment ICDS aide avec le « muscle informatique »

L'ICDS soutient les astronomes en mettant du muscle informatique derrière le traitement de grandes quantités de données collectées par des capteurs toujours plus puissants. L'institut se prépare à aider les scientifiques à mesure que ces sources de données encore plus importantes sont mises en ligne.

Le Legacy Survey in Space or Time – ou LSST – une enquête de nouvelle génération, produira environ 15 téraoctets de données chaque nuit pendant 10 ans, selon Leja. Par exemple, un disque avec un téraoctet de stockage peut contenir environ 200 000 chansons. Le LSST ne téléchargera peut-être pas 3 millions de chansons par nuit, mais les données qu'il fournira éventuellement seront de la musique aux oreilles des astrophysiciens.

"Si nous essayions d'utiliser des techniques standard pour interpréter ces images de galaxies, en utilisant l'ensemble de données complet, cela prendrait quelque chose comme 380 ans sur le cluster (ICDS) Roar, ou 100 milliards d'heures CPU", a déclaré Leja. "Mais en utilisant les techniques d'apprentissage automatique que nous avons développées - cela a été pris en charge directement par ICDS - nous pouvons le faire, si nous avons tout Roar, en environ trois heures et demie."

Villar a déclaré qu'elle était impatiente d'utiliser ce pouvoir pour faire la lumière sur les explosions d'étoiles, l'un de ses domaines de recherche.

"Il y a beaucoup de ces données LSST qui seront mises en ligne et qui comprendront quelque chose comme 5 milliards de galaxies", a déclaré Villar. "Une chose qui m'intéresse est d'utiliser ces données pour étudier les étoiles lorsqu'elles explosent. Donc, une chose qui serait vraiment utile est si nous pouvions très, très rapidement avoir une idée de l'histoire de cette galaxie pour comprendre, dans un sens, l'histoire de l'étoile qui a explosé. Et pour ce faire, avec les méthodes traditionnelles, c'est tout simplement infaisable en termes de calcul. Mais avec ces nouvelles méthodes, cela devrait prendre littéralement quelques secondes pour faire chacune d'entre elles."

Leja et Villar conviennent que les ressources de l'ICDS - telles que l'accès au supercalculateur Roar et l'expertise du personnel - sont importantes pour mener ce type de recherche.

"Les ressources de l'ICDS sont tout à fait essentielles pour répondre à ces questions", a déclaré Leja. "Une partie de la raison pour laquelle je pense que Penn State est un excellent endroit pour cette recherche est les ressources informatiques impressionnantes et l'équipe de Roar. Nous utilisons le cluster pour faire toute la formation de nos modèles. C'est là que nous testons nos modèles pour les préparer pour le monde réel. C'est aussi là que nous générons toutes nos données fictives que nous apprenons ou sur lesquelles nous entraînons nos algorithmes. Roar est un élément essentiel du flux de travail pour mon équipe. "

Villar et Leja ont récemment reçu unSubvention de démarrage de l'ICDS pour explorer l'utilisation de l'apprentissage automatique en astronomie.

Matt Swayne

Recevez l'actualité par email

environ 235 gigaoctets de données scientifiques changent chaque jour la façon dont les scientifiques comprennent l'origine des galaxies. Joel Leja V. Ashley Villar Changeur de champ Comment l'ICDS aide avec la subvention de démarrage de l'ICDS pour explorer l'utilisation de l'apprentissage automatique en astronomie