Новая платформа для честной битвы ИИ в науке

Институт искусственного интеллекта Пола Аллена запустил новую платформу SciArena. Ссылка в описании. Это аналог Chatbot Arena, но специально для соревнования нейросетей в решении научных задач. Теперь для учёбы или исследования вы можете бесплатно получить сразу 2 проверенных ответа со ссылками на научные источники.

Как работает оценка эффективности моделей? Платформа использует поисковую систему AI2 ScholarQA, чтобы найти статьи, относящиеся к вашему запросу в базе данных Semantic Scholar. Затем 2 случайно выбранные модели получают одинаковые данные: ваш вопрос и найденные научные статьи. Искусственный интеллект должен написать развёрнутый ответ, подкрепляя каждое утверждение ссылкой на источник.

В рейтинге SciArena сейчас участвуют 23 модели от OpenAI, Google, Anthropic, Alibaba и других компаний. Перед запуском 102 эксперта провели более 13 000 состязаний, чтобы построить первичный рейтинг моделей.

В настоящее время лидирует OpenAI o3. Эта модель стабильно показывает лучшие результаты во всех категориях — от инженерии до медицины. В тройке лидеров также Claude 4 Opus и Gemini 2.5 Pro. Вы можете задать вопрос на русском языке, однако имейте в виду, что некоторые модели отвечают только по-английски.

Latest News

Альтман предупредил ФРС о кризисе безопасности банковских переводов

Руководитель OpenAI Сэм Альтман, выступил с серьёзным предупреждением о надвигающемся кризисе в сфере безопасности финансовых транзакций. На встрече в Федеральной резервной системе США он заявил, что большинство существующих методов аутентификации уже не способны противостоять современным технологиям.

От текста к вирусным роликам: новые творческие инструменты X

В платформу X скоро интегрируют собственный инструмент для создания видеороликов из текстовых описаний. По информации от Илона Маска, новая функция получит название "Imagine". И будет основана на технологиях стартапа Hotshot, который компания xAI приобрела в марте этого года.

Робот-щенок Дженни помогает 300 млн людей с деменцией

Вышла новая версия робота-щенка Дженни и мимо этого события я не смог пройти. Такие роботы-питомцы созданы специально для тех, кто не может ухаживать за живыми животными, но очень нуждается в их компании. Это интересная разработка для людей с деменцией и лёгкими когнитивными нарушениями.

10 учёных из OpenAI отвергли предложения Цукерберга на $300 млн

Знаете, на рынке искусственного интеллекта деньги оказываются иногда бессильны. Цукерберг активно ищет и хантит специалистов по искусственному интеллекту, но результаты бывают и неожиданные. Wall Street Journal сообщает, что минимум 10 учёных из OpenAI отвергли предложения Цукерберга с бонусом в $300 млн.

Qwen 3 превзошла Claude 4 Opus и DeepSeek V3 в тестах

Команда Qwen выпустила обновление своей флагманской модели Qwen 3. Результаты отличные. Новая версия опережает такие мощные модели как Claude 4 Opus, Kimi K2 и DeepSeek V3 по многим ключевым показателям.