Apple обучила ИИ отслеживать действия человека по звукам

Post Thumbnail

Исследователи Apple опубликовали работу, которая показывает, что большие языковые модели могут анализировать аудио и данные о движении. Чтобы понять, что делает пользователь. И они справляются на удивление хорошо.

И это имеет огромный потенциал для точного анализа активности, даже когда данных недостаточно. Из исследования, цитирую: «Потоки данных сенсоров предоставляют ценную информацию об активностях и контексте. Мы показываем, что большие языковые модели могут использоваться для классификации активности из аудио и временных рядов данных о движении».

Исследователи использовали Ego4D. Это массивный датасет медиа от первого лица. Тысячи часов реальных условий, от домашних задач до активностей на улице. Датасет включает 20-секундные образцы из 12 активностей: уборка пылесосом, готовка, стирка, еда, игра в баскетбол, футбол, игра с питомцами. А также чтение, использование компьютера, мытьё посуды, просмотр телевизора, тренировка с весами.

Другими словами, большие языковые модели хорошо определяют, что делает пользователь, по базовым сигналам, даже без специальной тренировки. Важно, что большой языковой модели не передавали саму аудиозапись.

Только короткие текстовые описания от аудиомоделей и модели движения, которая отслеживает перемещения через акселерометр и гироскоп. Apple прогнала данные через малые модели, которые генерировали текстовые подписи.

Получается, большие языковые модели понимают, что ты делаешь, по звукам и движениям телефона. Без специальной тренировки.

Почитать из последнего
Беспилотный робомобиль Waymo сбил ребёнка у школы
Беспилотный автомобиль Waymo, принадлежащий Alphabet, сбил ребёнка возле начальной школы в Калифорнии. Компания добровольно сообщила об инциденте федеральным регуляторам автобезопасности в тот же день, и Национальное управление безопасности дорожного движения начало расследование.
Создатели ИИ-министра для борьбы с коррупцией украли 7 млн евро
Помните историю про ИИ-министра в Албании? Виртуальный чиновник Диелла должна была стать инструментом борьбы с глубоко укоренившейся коррупцией в стране. Звучало прогрессивно и технологично. Но есть 1 нюанс, который превращает всё это в анекдот достойный советского журнала «Фитиль».
OpenAI закрывает модель GPT-4o навсегда и уже очень скоро
OpenAI объявила, что 13 февраля этого года удалит несколько моделей из ChatGPT, включая GPT-4o. Которую обожают пользователи за тёплый разговорный стиль. Компания запустила GPT-4o в мае 24 года, и модель стала чрезвычайно популярна среди платных подписчиков.
Молчаливый тиктокер с покерфейсом продал свою компанию за 900 миллионов
Хаби Лейм – это такой молчаливый тиктокер с покерфейсом и 160 миллионами подписчиков. И вот он продал свою компанию за $900 миллионов. Сумма огромная, но нюанс в том, что это за продажа. Фишка в условиях контракта - это создание искусственного аватара, который будет вести стримы, сниматься в рекламе и продавать товары 24 часа в сутки. Пока настоящий Хаби спит или играет, его цифровая копия будет вкалывать в другом часовом поясе.
Гуманоиды работают в три раза хуже людей
Знаете, что объединяет хайп вокруг гуманоидов и реальность? Ничего. Но некоторые паникуют из-за того, что гуманоиды массово заменят людей на заводах. И тут директор китайской компании UBTech Майкл Там взял и честно признался Financial Times. Их новейшие человекоподобные роботы достигают производительности всего в 30-50% от человеческой. И это только в простейших операциях типа складывания коробок или контроля качества. Грубо говоря, 1 работник человек делает столько же, сколько 2-3 робота вместе взятых.