Згідно з Beating, Microsoft нещодавно відкрила вихідний код сімейства моделей Phi-Ground, спрямованих на вирішення питання «Куди має натискати штучний інтелект на екрані комп’ютера». Ця версія з 4 мільярдами параметрів, у поєднанні з більшою мовною моделлю для планування інструкцій, перевищила точність натискань у базовому тесті Showdown порівняно з OpenAI Operator та Claude Computer Use, а також посіла перше місце серед усіх моделей з менше ніж 10 мільярдів параметрів у п’яти оцінках, включаючи ScreenSpot-Pro. Команда провела навчання на понад 40 мільйонах зразків даних і виявила, що три поширені техніки навчання, які використовуються у наукових статтях, стають неефективними при масштабуванні. Ключова ідея дуже проста: використовувати звичайний цифровий вивід координат, наприклад, «523, 417». Попередні дослідження винайшли спеціальну лексику для позицій, але ці методи не масштабуються. Команда також виявила, що розміщення текстової інструкції перед зображенням може покращити продуктивність, оскільки модель здатна розпізнавати ціль при обробці пікселів. Крім того, такі методи підкріпленого навчання, як DPO, після доопрацювання все ще можуть підвищити точність.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити