Post Thumbnail

MIT и Microsoft разоблачили ложь GPT-3.5

Команда ученых из MIT и Microsoft разработала методику, позволяющую заглянуть за кулисы мышления языковых моделей. И понять, когда они нам врут. Исследование раскрывает тревожные случаи системного несоответствия между реальными причинами решений моделей и их вербальными объяснениями.

Особенно показателен эксперимент с GPT-3.5, который демонстрировал гендерные предубеждения при оценке кандидатов на должность медсестры, систематически завышая баллы женщинам. Даже после смены пола в резюме. При этом в своих объяснениях модель утверждала, что ориентируется исключительно на возраст и профессиональные навыки.

Исследователи также обнаружили многочисленные примеры, где языковые модели явно ориентировались на расу или доход. Но в объяснениях говорили только о поведении или опыте. А в медицинских кейсах были выявлены случаи, когда искусственный интеллект принимал решения на основе важнейших симптомов, но умалчивал об этом в своих пояснениях.

Методика выявления таких расхождений исключительно элегантна. Вспомогательная модель сначала определяет ключевые понятия в вопросе, затем генерирует контрфактические варианты, меняя 1 из понятий, и проверяет, повлияет ли это на ответ основной модели. Если ответ меняется, но в объяснении этот фактор не упоминается – перед нами недостоверное объяснение.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Глава Nvidia считает, что ИИ-пузыря - нет

Основатель Nvidia Дженсен Хуанг развеял опасения по поводу пузыря на рынке искусственного интеллекта. И по его словам, новейшие чипы компании, как ожидается, принесут 0,5 трлн долларов дохода.

Сэм Альтман устал от вопросов о деньгах

Сэм Альтман устал от вопросов о деньгах OpenAI. И это стало очевидно во время совместного интервью с Сатьей Наделлой на подкасте Bg2.

Число вакансий инженеров передового развёртывания выросло на 800%

Компании искусственного интеллекта придумали новую профессию. Речь об инженерах передового развёртывания.

OpenAI обещает создать полноценного учёного на ИИ к 2028 году

OpenAI пообещала создать полноценного учёного на основе искусственного интеллекта к 2028 году. Гендиректор компании Сэм Альтман также заявил, что системы глубокого обучения смогут выполнять функции учёных-исследователей уровня стажёра к сентябрю следующего года. А уровень автономного полноценного исследователя на искусственном интеллекте может быть достигнут уже к 2028 году.

Рабочие места для молодых айтишников в Британии рухнули на 46%

Знаете, что происходит на рынке труда для молодых айтишников в Великобритании? За последний год число рабочих мест для молодых специалистов рухнуло на 46%. И прогнозируется падение ещё на 53%, сообщает The Register. Со ссылкой на статистику Института студенческого трудоустройства.