Selon Beating, Microsoft a récemment open source la famille de modèles Phi-Ground, conçue pour résoudre le problème de « où l'IA doit cliquer sur l'écran de l'ordinateur ». Cette version de 4 milliards de paramètres, combinée à un modèle de langage plus grand utilisé pour la planification des instructions, a surpassé la précision de clics d'OpenAI Operator et de Claude Computer Use lors du test de référence Showdown, et a été classée première parmi tous les modèles de moins de 10 milliards de paramètres dans cinq évaluations, y compris ScreenSpot-Pro. L'équipe a entraîné le modèle sur plus de 40 millions d'échantillons de données, et a découvert que les trois techniques d'entraînement couramment utilisées dans les articles académiques deviennent inefficaces à grande échelle. La clé de la méthode est très simple : utiliser une sortie numérique conventionnelle pour les coordonnées, par exemple « 523, 417. » Des recherches antérieures ont inventé un vocabulaire spécifique pour la localisation des coordonnées, mais ces méthodes ne peuvent pas être mises à l'échelle. L'équipe a également constaté que placer l'instruction textuelle avant l'image peut améliorer la performance, car le modèle peut reconnaître la cible lors du traitement des pixels. De plus, des méthodes d'apprentissage par renforcement telles que DPO peuvent encore améliorer la précision après un ajustement fin.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler