Google и Кембридж научили ИИ мыслить картинками вместо текста

Post Thumbnail

Учёные из Google и Кембриджа представили принципиально новый подход к работе искусственного интеллекта, названный «Visual Planning». Особенность этой технологии в том, что модель мыслит не текстом, а образами. Что гораздо ближе к естественному мышлению человека, особенно при решении пространственных и математических задач.

Исследователи опубликовали статью под названием «Visual Planning: Let’s Think Only with Images», где описали процесс обучения модели прохождению лабиринтов с использованием только визуального мышления, без текстовых рассуждений. Этот подход имитирует способность людей думать схемами и картинками при решении сложных задач. Ссылка в описании. 

Обучение модели проходило в два этапа. Сначала ей показывали множество изображений лабиринтов и учили предсказывать любой возможный следующий шаг. Например, если на картинке агент находится в клетке B, модель должна сгенерировать новое изображение, где агент перемещается в одну из доступных соседних клеток.

На втором этапе исследователи применили обучение с подкреплением. Модель получала положительное вознаграждение за правильный шаг, нулевое — за неправильный, и отрицательное — за недопустимое действие. Таким образом, постепенно она научилась выбирать оптимальные пути через лабиринт. Опираясь только на визуальные образы.

Результаты превзошли ожидания! Visual Planning превосходит даже такую продвинутую модель как Gemini два и пять Pro think в полтора-два раза по эффективности решения задач, требующих пространственного мышления. Я в приятном шоке!

Почитать из последнего
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.
Как DeepSeek обманул Anthropic и что из этого вышло
Представьте: вы годами строите уникальную технологию, вкладываете миллиарды, а кто-то просто скачивает её через прокси. Именно это произошло с Anthropic. Компания раскрыла промышленный шпионаж 3 китайских лабораторий. DeepSeek, Moonshot и MiniMax.
Учёные сломали защиту ИИ обычным вопросом
Исследователи из Microsoft наткнулись на дыру размером с ворота. Оказалось, что всю защиту ИИ можно обойти на этапе обучения 1 безобидным запросом. И дальше модель превращается в послушную машину по производству любой гадости.
США обвинили Nvidia в помощи китайским военным через DeepSeek
Глава комитета Конгресса по Китаю Джон Муленаар направил письмо министру торговли Говарду Латнику с серьёзными обвинениями. По его словам, документы Nvidia свидетельствуют, что инженеры компании помогали китайскому стартапу DeepSeek оптимизировать обучение их моделей. Теперь эти модели развёрнуты в подразделениях планирования мобилизации Народно-освободительной армии Китая.