Post Thumbnail

MIT и Microsoft разоблачили ложь GPT-3.5

Команда ученых из MIT и Microsoft разработала методику, позволяющую заглянуть за кулисы мышления языковых моделей. И понять, когда они нам врут. Исследование раскрывает тревожные случаи системного несоответствия между реальными причинами решений моделей и их вербальными объяснениями.

Особенно показателен эксперимент с GPT-3.5, который демонстрировал гендерные предубеждения при оценке кандидатов на должность медсестры, систематически завышая баллы женщинам. Даже после смены пола в резюме. При этом в своих объяснениях модель утверждала, что ориентируется исключительно на возраст и профессиональные навыки.

Исследователи также обнаружили многочисленные примеры, где языковые модели явно ориентировались на расу или доход. Но в объяснениях говорили только о поведении или опыте. А в медицинских кейсах были выявлены случаи, когда искусственный интеллект принимал решения на основе важнейших симптомов, но умалчивал об этом в своих пояснениях.

Методика выявления таких расхождений исключительно элегантна. Вспомогательная модель сначала определяет ключевые понятия в вопросе, затем генерирует контрфактические варианты, меняя 1 из понятий, и проверяет, повлияет ли это на ответ основной модели. Если ответ меняется, но в объяснении этот фактор не упоминается – перед нами недостоверное объяснение.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Gemini может стать мозгом для всех роботов на планете

Google сделала неожиданный ход. Компания наняла бывшего технического директора Boston Dynamics Аарона Сандерса вице-президентом по аппаратному обеспечению. И это не просто кадровое назначение.

Искусственный интеллект диагностирует болезни сердца через смарт-часы

Системы ИИ могут довольно точно выявлять серьёзные аномалии в здоровье сердечно-сосудистой системы даже по примитивным данным с Apple Watch.

Китайский робот с искусственным интеллектом замаскировался под медузу

Китайские учёные разработали почти неотличимого от медузы робота под названием «водный призрак». Благодаря скромному потреблению небольшое устройство способно длительно находиться в воде. И следить как за экосистемой океана, так и за подводной инфраструктурой, делая это максимально скрытно.

4 модели ИИ спорят между собой и выбирают лучший ответ

Бывший директор по искусственному интеллекту в Tesla Андрей Карпаты, выложил на GitHub свой «проект выходного дня». Приложение llm-council. Это «совет ИИ», где несколько языковых моделей параллельно готовят ответы и выбирают лучший.

Студент оказался умнее ИИ стоимостью миллиарды долларов

Мечта об учёном с искусственным интеллектом разбилась о реальность. Gemini 3 Pro и GPT-5 и 1 провалили задачи, с которыми справляется обычный аспирант.