Необычное сотрудничество конкурентов в тестировании безопасности ИИ

Post Thumbnail

2 главных конкурента в мире искусственного интеллекта впервые объединились для совместного тестирования безопасности. OpenAI и Anthropic открыли друг другу доступ к своим секретным моделям. В индустрии, где компании платят исследователям по $100 млн и борются за каждого пользователя, такое сотрудничество выглядит невероятным.

Сооснователь OpenAI Войцех Заремба объяснил важность момента. Миллионы людей используют искусственный интеллект каждый день. Технологии стали настолько влиятельными, что безопасность важнее корпоративной конкуренции. Компании должны установить общие стандарты, несмотря на миллиардные инвестиции и войну за таланты.

Для исследования компании предоставили друг другу специальный доступ к моделям с ослабленными защитными механизмами. Это позволило найти слепые зоны в системах безопасности каждой компании. GPT-5 не участвовала в тестировании, потому что ещё не была выпущена.

Самое интересное открытие касается галлюцинаций. Claude Opus 4 и Sonnet 4 отказываются отвечать на 70% вопросов, когда не уверены в ответе. Модели честно говорят пользователю, что у них нет надёжной информации. Модели OpenAI o3 и o4-mini ведут себя иначе. Они почти всегда пытаются дать ответ, даже когда не знают правильного. Результат предсказуемый. Высокий уровень галлюцинаций и ложной информации.

Сооснователь OpenAI Войцех Заремба признаёт проблему. Модели OpenAI слишком самоуверенны, а модели Anthropic слишком осторожны. Правильный баланс где-то посередине. Пользователям нужны и полезные ответы, и честность о границах знаний модели.

История получила драматичное продолжение. После завершения исследования Anthropic отозвала доступ у другой команды OpenAI. Причина в нарушении условий использования. Запрещено использовать Claude для улучшения конкурирующих продуктов. Заремба утверждает, что эти события не связаны с совместным исследованием безопасности.

Николас Карлини из Anthropic смотрит в будущее с оптимизмом. Он хочет продолжать предоставлять исследователям безопасности OpenAI доступ к моделям Claude. Цель амбициозная. Сделать такое сотрудничество регулярным явлением в индустрии.

Почитать из последнего
Инженеры ИИ-компаний тайком используют Claude вместо своего ИИ
Корпорации вливают миллиарды в собственные разработки ИИ и пиарят их на каждом углу. А собственные инженеры втихаря пользуются продуктом конкурентов. Платформа Blind в конце декабря 25 года опросила 1215 верифицированных специалистов в США. И результаты получились убийственные. Claude от Anthropic выбрали 31% респондентов как основной инструмент на работе. Оставив позади ChatGPT с 19%, Gemini с 15% и GitHub Copilot с 14%.
Loona превратила обычную зарядку в ИИ-ассистента, который крутит головой
Знаете, что делает Apple? Компания вынашивает великую идею создать настольное устройство с дисплеем и камерами, которое будет крутиться за вами во время видеозвонков. Вынашивает, обдумывает, разрабатывает. А пока гигант думает, стартап Loona просто взял и сделал это на коленке. Причём использовав тот же iPhone.
Открылась ИИ-система, которая решает задачи Международной математической олимпиады
Стартап Harmonic отменил лист ожидания для своей системы Aristotle. И теперь любой может зарегистрироваться и сразу получить доступ к API. Aristotle — это система автоматического доказательства теорем. Которая в июле 25 года решила 5 из 6 задач Международной математической олимпиады, показав результат на уровне золотой медали. В отличие от аналогов OpenAI и Google DeepMind, которые достигли того же уровня, но остаются закрытыми, Aristotle стал первым публично доступным ИИ такого класса с формальной верификацией.
Программисты либо обесценятся в 10 раз, либо станут в 10 раз ценнее
Django — это очень популярный бесплатный фреймворк с открытым исходным кодом для языка Python. И вот 1 из создателей Django Саймон Уиллисон, озвучил интересные мысли.
Ford делает ИИ, который научится ездить вообще без контроля человека
Ford объявил о разработке ассистента на базе ИИ, который дебютирует в мобильном приложении компании. А потом в 27 году переедет в автомобили. Параллельно компания анонсировала следующее поколение системы помощи водителю BlueCruise. Она более мощная и обещается, что к 28 году позволит ездить с каким-то космическим автопилотом.