Новая платформа для честной битвы ИИ в науке

Post Thumbnail

Институт искусственного интеллекта Пола Аллена запустил новую платформу SciArena. Ссылка в описании. Это аналог Chatbot Arena, но специально для соревнования нейросетей в решении научных задач. Теперь для учёбы или исследования вы можете бесплатно получить сразу 2 проверенных ответа со ссылками на научные источники.

Как работает оценка эффективности моделей? Платформа использует поисковую систему AI2 ScholarQA, чтобы найти статьи, относящиеся к вашему запросу в базе данных Semantic Scholar. Затем 2 случайно выбранные модели получают одинаковые данные: ваш вопрос и найденные научные статьи. Искусственный интеллект должен написать развёрнутый ответ, подкрепляя каждое утверждение ссылкой на источник.

В рейтинге SciArena сейчас участвуют 23 модели от OpenAI, Google, Anthropic, Alibaba и других компаний. Перед запуском 102 эксперта провели более 13 000 состязаний, чтобы построить первичный рейтинг моделей.

В настоящее время лидирует OpenAI o3. Эта модель стабильно показывает лучшие результаты во всех категориях — от инженерии до медицины. В тройке лидеров также Claude 4 Opus и Gemini 2.5 Pro. Вы можете задать вопрос на русском языке, однако имейте в виду, что некоторые модели отвечают только по-английски.

Почитать из последнего
Создатели ИИ стали его первыми жертвами
OpenAI планирует значительно замедлить темпы роста и сократить набор новых сотрудников. По данным Business Insider, гендиректор Сэм Альтман заявил, что ИИ изменил темпы роста штата компании. Ирония ситуации в том, что создатели технологии, которая должна заменять людей, сами стали её первыми жертвами.
Oracle потеряла 463 миллиарда из-за паники вокруг ИИ
Акции Oracle рухнули более чем на 50 процентов по сравнению с прошлогодним историческим максимумом. Падение привело к снижению рыночной стоимости примерно на 463 миллиарда долларов по сравнению с рекордом, достигнутым 10 сентября. Когда компания представила впечатляющие перспективы облачного бизнеса и растущий спрос на ИИ. Тогда стоимость превысила 933 миллиарда долларов, что сделало её десятой по стоимости публичной компанией в США.
Магазины в США вытаскивают память и видеокарты из витринных ПК из-за воров
Американские магазины начали изымать модули оперативной памяти и видеокарты из витринных образцов игровых компьютеров из-за участившихся краж. Например, розничная сеть Costco столкнулась с проблемой настолько массово, что теперь показывает ПК вообще без внутренностей. Просто корпуса с работающей RGB-подсветкой и вентиляторами.
Airtable потеряла две трети стоимости и запустила ИИ, который её убьёт
Представьте: ваша компания рухнула с 11 миллиардов до 4, инвесторы в шоке, опционы сотрудников превратились в тыкву. Что делать? Логично было бы затаиться и латать дыры. Но основатель Airtable Хоуи Лю, делает ровно наоборот. Запускает совершенно новый продукт, который может похоронить его основной бизнес.
Гуманоид с бровями будет приносить вам зубные щётки в отеле
Американский стартап Fauna представил человекоподобного робота Sprout, и это не очередная железяка для склада. Его задача — быть компаньоном в гостиницах, ресторанах и магазинах. Принести стакан воды, подать зубную щётку, сопроводить до номера. Цена — 50 тысяч долларов, но Disney и Boston Dynamics уже среди первых покупателей.