AutoDistill : une fin | ClearVitality Innovations Co., Ltd.

Des chercheurs de l'université d'Illinois Urbana-Champaign et de Google présentent AutoDistill, un cadre de distillation de modèles entièrement automatisé de bout en bout qui intègre l'exploration de l'architecture des modèles et l'optimisation multi-objectifs pour créer des modèles de traitement du langage naturel pré-entraînés et efficaces sur le plan matériel.

Alors que les modèles de langage alimentés par l'IA continuent d'augmenter en taille, la réduction des coûts de service est devenue un domaine de recherche important. La distillation des connaissances est apparue comme une méthode prometteuse et efficace pour la compression des modèles, mais les méthodes de distillation existantes peuvent avoir du mal à servir des modèles dans les centres de données massifs d'aujourd'hui, où elles sont confrontées à des défis tels que la gestion de modèles à évolution rapide, la prise en compte des performances de service et l'optimisation pour plusieurs objectifs. .

Pour faire face à ces problèmes, une équipe de recherche de l'Université de l'Illinois Urbana-Champaign et Google a introduit AutoDistill, un cadre de distillation de modèle entièrement automatisé de bout en bout qui intègre l'exploration de l'architecture du modèle et l'optimisation multi-objectifs pour la construction préformée et efficace sur le matériel. modèles de traitement du langage naturel (TLN).

L'équipe résume ses principales contributions comme suit :

AutoDistill est une solution de bout en bout conçue pour générer des modèles de langage pré-entraînés optimisés et indépendants des tâches pour les configurations matérielles cibles. AutoDistill prend en compte les exigences, les objectifs et les contraintes des utilisateurs en tant qu'entrées représentant des composants clés à prendre en compte, tels que les tâches de pré-formation, les espaces de conception de modèles, le matériel cible, les métriques d'évaluation, etc.

Le flux global d'AutoDistill comprend trois étapes principales : l'exploration du modèle, la distillation flash et l'évaluation. L'exploration de modèles est utilisée pour rechercher des modèles mieux compressés en tenant compte de l'espace de conception, des métriques d'évaluation et des contraintes spécifiées par l'utilisateur. La distillation flash est ensuite adoptée pour développer le modèle candidat le plus prometteur en tant que modèle étudiant qui apprend à la fois des ensembles de données de pré-formation et du modèle enseignant. Cette étape est également responsable de la distillation régulière avec le même modèle d'enseignant mais des configurations de formation différentes. Le modèle étudiant distillé par flash est ensuite évalué sur les tâches et le matériel cibles pour la précision de la prédiction, la précision de la prédiction de la phrase suivante et les performances du matériel. Une fois toutes les métriques souhaitées collectées, les informations sont renvoyées à l'étape d'exploration du modèle, où le moteur de recherche sélectionne le modèle optimal pour la prochaine itération.

Notamment, AutoDistill formule la recherche d'architecture de modèle étudiant comme un problème d'optimisation de boîte noire, intégrant l'algorithme d'optimisation bayésienne (BO) et le service d'optimisation de boîte noire basé sur le cloud Vizier (Golovin et al., 2017) dans le moteur de recherche pour l'architecture étudiante. recherche. Les chercheurs peuvent capturer des informations valides et précises sur le matériel en mesurant le modèle étudiant sur le matériel cible et l'environnement logiciel du centre de données lors de la phase d'évaluation entièrement automatisée et intégrée.

AutoDistill présente plusieurs avantages par rapport aux méthodes précédentes de recherche d'architecture neuronale différentiable (DNAS) : 1) Il n'a pas besoin de déployer d'énormes efforts pour former un grand supernet au préalable sur les tâches de pré-formation NLP, 2) Il peut mieux évoluer pour gérer un espace de conception beaucoup plus grand, et 3) Il peut être facilement étendu à de nouveaux objectifs et à de nouveaux modèles avec différentes configurations d'architecture.

L'équipe a mené des expériences approfondies pour évaluer AutoDistill. Sur le benchmark GLUE (General Language Understanding Evaluation) avec neuf tâches de compréhension du langage naturel en aval, AutoDistill a obtenu des scores moyens plus élevés que BERTBASE, DistilBERT, TinyBERT6 et MobileBERT avec des tailles de modèle nettement plus petites. Lors d'expériences sur le matériel TPUv4i de Google, les modèles générés par AutoDistill ont atteint une précision pré-entraînée jusqu'à 3,2 % supérieure et des accélérations jusqu'à 1,44 x sur la latence par rapport à MobileBERT.

Dans l'ensemble, AutoDistill améliore à la fois la précision des prédictions et la latence de service sur le matériel cible, ce qui indique sa promesse et son potentiel pour la création de modèles NLP pré-entraînés efficaces sur le matériel de nouvelle génération.

L'article AutoDistill : un cadre de bout en bout pour explorer et distiller des modèles de langage efficaces sur le matériel est sur arXiv.

Auteur: Hécate Il |Éditeur: Michel Sarazen

Nous savons que vous ne voulez manquer aucune actualité ou percée de la recherche.Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour obtenir des mises à jour hebdomadaires sur l'IA.

Intelligence artificielle | Technologie & Industrie | Informations et analyses

J'aime vraiment ce blog parce qu'il est très informatif et lié à la technologie… merci de partager et de regarder IFO DEVELOPMENT LAUNCHPAD

Cet article est très instructif et très utile, merci pour le partage !! Développement de l'offre d'échange initiale

ça vauuuuuuuuuuuuuuuuuuuuuuuuu

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Commentaire *

Nom

E-mail

Site Internet

Avertissez-moi des nouveaux commentaires par email.

Avertissez-moi des nouveaux articles par e-mail.

Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour obtenir des mises à jour hebdomadaires sur l'IA.