
Google Play Music a fait un énorme bond en avant cette semaine
Aug 28, 2023Le pilon d'hydroformage Idroprep offre une approche fluide de l'espresso CraftDaily Coffee News par Roast Magazine
Sep 27, 20235 façons dont l'industrie automobile peut utiliser l'usinage CNC
Sep 20, 2023Le M1 Lite de Dango est un Vertical
Jun 24, 2023La lettre d'un adolescent de Philadelphie sur la vie dans une ville violente est à la main
Aug 27, 2023Pour les chatbots et au-delà : Améliorer la vie avec les données commence par l'amélioration de l'apprentissage automatique
Ruoxi Jia, professeur adjoint de génie électrique et informatique, a reçu un prix NSF CAREER pour faire progresser les techniques d'évaluation des données afin d'améliorer les modèles d'apprentissage automatique.
7 avril 2023
Vous auriez du mal à trouver une industrie aujourd'hui qui n'utilise pas les données dans une certaine mesure. Qu'il s'agisse de travailleurs de la santé utilisant des données pour signaler le taux d'infections grippales dans un certain état, de fabricants utilisant des données pour mieux comprendre les temps de production moyens, ou même d'un petit propriétaire de café parcourant les données de vente pour en savoir plus sur le café au lait le plus vendu du mois précédent, les données peuvent révéler des modèles et donner un aperçu de notre comportement quotidien.
Toutes ces données jouent un rôle essentiel dans la prise de décision en matière d'intelligence artificielle (IA). De plus, cela crée un sérieux besoin pour les gens de comprendre la valeur des données en premier lieu. En comprenant comment les sources de données individuelles contribuent aux processus décisionnels basés sur la technologie, nous pouvons créer une expérience plus efficace et améliorée pour tous les utilisateurs d'IA.
Par exemple, des études ont montré que les logiciels de reconnaissance faciale répandus sont moins fiables pour identifier les femmes et les personnes de couleur par rapport aux hommes blancs, reflétant des déséquilibres dans les données faciales représentant diverses populations. La mesure de la valeur des données nous permet d'éliminer les entrées qui pourraient contribuer à des modèles biaisés. De plus, comprendre la valeur des données nous permet d'attribuer une tarification appropriée aux sources de données, facilitant ainsi le partage des données. Ceci est particulièrement important pour les industries où certaines données sont difficiles à obtenir ou pour les petites entreprises aux prises avec un accès limité aux données.
Le professeur adjoint Ruoxi Jia du département Bradley de génie électrique et informatique de Virginia Tech a reçu un prix de développement de carrière en début de carrière (CAREER) de la National Science Foundation (NSF) pour étudier les théories fondamentales et les outils informatiques nécessaires pour mesurer la valeur des données.
La subvention de 500 000 $ sur cinq ans permettra à Jia et à son équipe de développer des techniques d'évaluation des données évolutives et fiables qui prennent en charge l'acquisition de données stratégiques et améliorent l'analyse de données basée sur l'apprentissage automatique.
"En ce moment, il y a beaucoup d'enthousiasme pour l'apprentissage automatique et l'IA, en particulier après l'émergence de ChatGPT", a déclaré Jia. "Mais ce qu'il y a sous le capot, c'est beaucoup de données. C'est ce qui permet ce type de machine, et c'est ce que nous visons à améliorer."
ChatGPT, un chatbot IA lancé cet automne, permet aux utilisateurs de demander de l'aide pour des choses telles que la rédaction d'essais, la rédaction de plans d'affaires, la génération de code et même la composition de musique. Au 4 décembre, ChatGPT comptait déjà plus d'un million d'utilisateurs.
Open AI a construit son système auto-génératif sur un modèle appelé GPT 3, qui est formé sur des milliards de jetons. Ces jetons, utilisés pour le traitement du langage naturel, sont similaires aux mots d'un paragraphe. À titre de comparaison, le roman "Harry Potter et l'Ordre du Phénix" compte environ 250 000 mots et 185 000 jetons. Essentiellement, ChatGPT a été formé sur des milliards de points de données, rendant ce type de machine intelligente possible.
Jia a souligné l'importance de la qualité des données et son impact sur les résultats de l'apprentissage automatique.
"Si vous avez de mauvaises données qui alimentent l'apprentissage automatique, vous obtiendrez de mauvais résultats", a déclaré Jia. "Nous appelons cela" ordures à l'intérieur, ordures à la sortie ". Nous voulons avoir une compréhension, en particulier une compréhension quantitative, des données qui ont le plus de valeur et de celles qui le sont moins aux fins de la sélection des données."
L'importance de davantage de données basées sur la qualité a été remarquée par les développeurs de ChatGPT alors qu'ils viennent d'annoncer la sortie de GPT-4. La dernière technologie est "multimodale", ce qui signifie que les images ainsi que les invites de texte peuvent l'inciter à générer du contenu.
Une grande quantité de données est nécessaire pour développer ce type d'intelligence artificielle, mais toutes les données ne sont pas open source ou publiques. Certains ensembles de données appartiennent à des entités privées et la confidentialité est en cause. Jia espère qu'à l'avenir, des incitations monétaires pourront être introduites pour aider à acquérir ces types d'ensembles de données et améliorer les algorithmes d'apprentissage automatique qui sont nécessaires dans toutes les industries.
Le diplômé de l'Université de Californie à Berkeley a eu des conversations avec Google Research et Sony AI Research, entre autres, qui s'intéressent aux avantages de la recherche. Jia espère que ces entreprises adopteront la technologie développée et serviront de défenseurs du partage des données. Le partage de données et l'adoption d'algorithmes d'apprentissage automatique améliorés bénéficieront grandement non seulement aux industries, mais également aux consommateurs individuels. Par exemple, si vous avez déjà eu une mauvaise expérience avec un chatbot de service client, vous avez rencontré des données de mauvaise qualité et une mauvaise conception de l'algorithme d'apprentissage automatique.
Jia espère utiliser son expérience et son expertise dans le domaine pour améliorer ces interactions sur le Web pour tous. En tant qu'enfant d'âge scolaire, Jia a toujours aimé les mathématiques et les sciences, mais sa décision d'entrer dans le domaine de l'ingénierie électrique et informatique découlait de son désir d'aider les gens.
"Mes deux parents sont médecins. C'était incroyable de grandir en les voyant aider les patients avec une sorte de formule médicale", a déclaré Jia. "C'est pourquoi j'ai choisi d'étudier les mathématiques et les sciences. Vous pouvez avoir un impact concret. J'utilise un autre type de formule pour aider, mais j'aime le fait que poursuivre cette carrière m'a donné l'impression que je peux faire une différence dans la vie de quelqu'un."
Le prix CAREER est le prix le plus prestigieux de la National Science Foundation pour les professeurs en début de carrière ayant le potentiel de servir de modèles académiques dans la recherche et l'éducation et de faire progresser la mission de leur organisation. Tout au long de ce projet, Jia a démontré son désir de servir de modèle académique pour les étudiants diplômés, de premier cycle et même de la maternelle à la 12e année.
Elle est membre du corps professoral du Centre Sanghani pour l'intelligence artificielle et l'analyse de données, anciennement connu sous le nom de Discovery Analytics Center. Le centre compte plus de 20 membres du corps professoral et 120 étudiants diplômés, dont deux travaillent directement avec Jia pour mener les recherches prévues.
Jia prévoit de mettre en œuvre un plan d'éducation qui donne aux étudiants les compétences nécessaires pour exploiter les données afin d'améliorer la prise de décision ayant un impact sur la société. Ce plan éducatif commencera par de nouveaux cours d'apprentissage automatique pour les étudiants de premier cycle au cours des deux premières années du projet et se concentrera sur l'engagement de la maternelle à la 12e année de la troisième à la cinquième année.
"Il y avait un célèbre statisticien nommé John Tukey", a déclaré Jia. "Il avait un dicton selon lequel la meilleure chose à propos d'être statisticien est que vous pouvez jouer dans le jardin de tout le monde. L'apprentissage automatique est très similaire. Il touche de nombreux domaines du travail de mes collègues, il est donc facile pour moi d'établir des liens et de collaborer avec d'autres personnes. J'ai vraiment le sentiment que ma recherche est un privilège. C'est un privilège de travailler dans ce domaine qui compte pour beaucoup de gens."
Suzanne Miller
540-267-4375

