Необычное сотрудничество конкурентов в тестировании безопасности ИИ

Post Thumbnail

2 главных конкурента в мире искусственного интеллекта впервые объединились для совместного тестирования безопасности. OpenAI и Anthropic открыли друг другу доступ к своим секретным моделям. В индустрии, где компании платят исследователям по $100 млн и борются за каждого пользователя, такое сотрудничество выглядит невероятным.

Сооснователь OpenAI Войцех Заремба объяснил важность момента. Миллионы людей используют искусственный интеллект каждый день. Технологии стали настолько влиятельными, что безопасность важнее корпоративной конкуренции. Компании должны установить общие стандарты, несмотря на миллиардные инвестиции и войну за таланты.

Для исследования компании предоставили друг другу специальный доступ к моделям с ослабленными защитными механизмами. Это позволило найти слепые зоны в системах безопасности каждой компании. GPT-5 не участвовала в тестировании, потому что ещё не была выпущена.

Самое интересное открытие касается галлюцинаций. Claude Opus 4 и Sonnet 4 отказываются отвечать на 70% вопросов, когда не уверены в ответе. Модели честно говорят пользователю, что у них нет надёжной информации. Модели OpenAI o3 и o4-mini ведут себя иначе. Они почти всегда пытаются дать ответ, даже когда не знают правильного. Результат предсказуемый. Высокий уровень галлюцинаций и ложной информации.

Сооснователь OpenAI Войцех Заремба признаёт проблему. Модели OpenAI слишком самоуверенны, а модели Anthropic слишком осторожны. Правильный баланс где-то посередине. Пользователям нужны и полезные ответы, и честность о границах знаний модели.

История получила драматичное продолжение. После завершения исследования Anthropic отозвала доступ у другой команды OpenAI. Причина в нарушении условий использования. Запрещено использовать Claude для улучшения конкурирующих продуктов. Заремба утверждает, что эти события не связаны с совместным исследованием безопасности.

Николас Карлини из Anthropic смотрит в будущее с оптимизмом. Он хочет продолжать предоставлять исследователям безопасности OpenAI доступ к моделям Claude. Цель амбициозная. Сделать такое сотрудничество регулярным явлением в индустрии.

Почитать из последнего
Учёные сравнили 9000 человек с ИИ и выяснили, что люди креативнее
В журнале Nature Human Behaviour опубликовали масштабное исследование креативности людей и больших языковых моделей. Учёные из Гонконгского университета и Северо-Западного университета сравнили 9198 человек с восемью LLM на тесте дивергентного мышления. В общей сложности 215 542 прогона моделей.
OpenAI готовит армию говорящих устройств и новую голосовую модель
Издание The Information выяснило забавную вещь про OpenAI. Оказывается, когда вы общаетесь с ChatGPT голосом, вы разговариваете совсем не с той моделью, которая отвечает текстом. Голосовая версия 4o не получила ни одного обновления после выхода GPT-5. Она не умеет думать, не знает про цепочки рассуждений. Ничего из того, чем хвастались в последних релизах. Просто старая добрая болтушка, застывшая в прошлом году.
Samsung хотят обойти Apple по ИИ-функциям и вернуть лидерство
В прошлом году Samsung поставила на рынок 400 миллионов мобильных устройств с ассистентом Google Gemini. Этого, видимо, показалось мало. В этом году южнокорейский гигант намерен удвоить количество до 800 миллионов штук. Тэ Мун Ро, один из двух гендиректоров Samsung Electronics, объяснил агентству Reuters это просто. Компания стремится распространить функции ИИ на все устройства и все услуги как можно скорее.
Alibaba научила алгоритм видеть рак там, где врачи пропускают
Каменщик 57 лет в Китае пришёл в больницу проверить диабет. Обычный осмотр, ничего особенного. Через 3 дня ему звонит заведующий отделением поджелудочной железы, мол приезжайте срочно. ИИ, который прогнал его КТ-снимок, нашёл опухоль. Оказалось – рак, но на ранней стадии. Вырезали и мужчина выжил. Без этой технологии его бы нашли слишком поздно, когда 5-летняя выживаемость около 10%.
OpenAI к 2028 году увеличит мощности дата-центров в 90 раз
Epoch AI сделал публично доступным трекер крупнейших дата-центров. А человек из твиттера с ником Peter Gostev визуализировал суммарные мощности по месяцам в разрезе компаний, и цифры просто убийственные.