Post Thumbnail

MIT и Microsoft разоблачили ложь GPT-3.5

Команда ученых из MIT и Microsoft разработала методику, позволяющую заглянуть за кулисы мышления языковых моделей. И понять, когда они нам врут. Исследование раскрывает тревожные случаи системного несоответствия между реальными причинами решений моделей и их вербальными объяснениями.

Особенно показателен эксперимент с GPT-3.5, который демонстрировал гендерные предубеждения при оценке кандидатов на должность медсестры, систематически завышая баллы женщинам. Даже после смены пола в резюме. При этом в своих объяснениях модель утверждала, что ориентируется исключительно на возраст и профессиональные навыки.

Исследователи также обнаружили многочисленные примеры, где языковые модели явно ориентировались на расу или доход. Но в объяснениях говорили только о поведении или опыте. А в медицинских кейсах были выявлены случаи, когда искусственный интеллект принимал решения на основе важнейших симптомов, но умалчивал об этом в своих пояснениях.

Методика выявления таких расхождений исключительно элегантна. Вспомогательная модель сначала определяет ключевые понятия в вопросе, затем генерирует контрфактические варианты, меняя 1 из понятий, и проверяет, повлияет ли это на ответ основной модели. Если ответ меняется, но в объяснении этот фактор не упоминается – перед нами недостоверное объяснение.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

OpenAI готовит первую открытую модель не слабее O3 Mini

Компания OpenAI готовится выпустить свою 1 открытую языковую модель. Оправдает своё название, так сказать. Это серьёзный поворот для компании, которая раньше держала свои мощные разработки закрытыми.

Grok 4 набрал 57% в "Последнем экзамене" против 22% у Gemini 2.5 Pro

Илон Маск представил новую версию своей нейросети – Grok 4. Максимальная версия – Grok 4 Heavy – способна запускать несколько вычислений одновременно и набирает 57% в сложнейшем тесте "Последний экзамен человечества". Для сравнения, предыдущий лидер Gemini 2.5 Pro показывал только 22%.

Исследователи нашли уязвимость ИИ через факты о кошках

От этой новости я мягко говоря удивился. Знаете ли вы, что обычное упоминание кошек может сбить с толку самые продвинутые модели искусственного интеллекта? Учёные обнаружили удивительную уязвимость в мыслительных процессах нейросетей.

IT-компании США уволили 94 тыс. сотрудников за полгода из-за ИИ

За 1 полугодие 2025 года американские IT-компании уволили более 94 тыс. технических специалистов. Это не просто экономия. Это структурное изменение под влиянием искусственного интеллекта.

OpenAI наняла первого психиатра в ИИ-индустрии для изучения влияния ChatGPT на психику

Компания OpenAI сообщила, что наняла профессионального клинического психиатра с опытом в судебной психиатрии. Чтобы исследовать влияние своих продуктов с искусственным интеллектом на психическое здоровье пользователей.