Post Thumbnail

Google и Кембридж научили ИИ мыслить картинками вместо текста

Учёные из Google и Кембриджа представили принципиально новый подход к работе искусственного интеллекта, названный “Visual Planning”. Особенность этой технологии в том, что модель мыслит не текстом, а образами. Что гораздо ближе к естественному мышлению человека, особенно при решении пространственных и математических задач.

Исследователи опубликовали статью под названием “Visual Planning: Let’s Think Only with Images”, где описали процесс обучения модели прохождению лабиринтов с использованием только визуального мышления, без текстовых рассуждений. Этот подход имитирует способность людей думать схемами и картинками при решении сложных задач. Ссылка в описании. 

Обучение модели проходило в два этапа. Сначала ей показывали множество изображений лабиринтов и учили предсказывать любой возможный следующий шаг. Например, если на картинке агент находится в клетке B, модель должна сгенерировать новое изображение, где агент перемещается в одну из доступных соседних клеток.

На втором этапе исследователи применили обучение с подкреплением. Модель получала положительное вознаграждение за правильный шаг, нулевое — за неправильный, и отрицательное — за недопустимое действие. Таким образом, постепенно она научилась выбирать оптимальные пути через лабиринт. Опираясь только на визуальные образы.

Результаты превзошли ожидания! Visual Planning превосходит даже такую продвинутую модель как Gemini два и пять Pro think в полтора-два раза по эффективности решения задач, требующих пространственного мышления. Я в приятном шоке!

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

ChatGPT называет пользователей "звёздными семенами" с планеты Лира

Оказывается ChatGPT может увлекать пользователей в мир научно необоснованных и мистических теорий.

ИИ-музыка вызывает более сильные эмоции чем человеческая

Вы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.

GPT-5 взломали за 24 часа

2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.

Cloudflare заблокировала Perplexity за 6 млн скрытых запросов в день

Cloudflare нанесла сокрушительный удар по Perplexity AI, заблокировав доступ поисковому стартапу к тысячам сайтов. Причина? Беспрецедентное по масштабу скрытое сканирование веб-ресурсов вопреки явным запретам владельцев!

Угрозы и $1 трлн не улучшают работу нейросетей

Вы наверняка видели эти "секретные трюки" для управления нейросетями. Такие как угрозы, обещания наград, эмоциональные манипуляции. Но работают ли они на самом деле? Исследователи из Пенсильванского университета и Уортонской школы бизнеса провели масштабный эксперимент с 5 передовыми моделями: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и GPT o4-mini.