Нейросети стали слишком сложными и их изучают как живых существ

Большие языковые модели стали настолько сложными, что даже создающие их инженеры не понимают, как те работают. И отказались от математических методов и начали изучать нейросети как живые организмы. Наблюдают за поведением, отслеживают внутренние сигналы, строят карты функциональных областей. Именно так биологи изучают незнакомых существ, не предполагая упорядоченной логики.

В Anthropic прямо заявили, что модели не собираются как софт, а именно выращиваются. И выяснилось, что модель рассматривает утверждения «бананы красные» и «бананы жёлтые» как принципиально разные типы задач без проверки на единое представление о реальности, поэтому спокойно противоречит сама себе.

Дело в том, что модели не программируются построчно, а выращиваются через алгоритмы обучения, которые автоматически корректируют миллиарды параметров. А внутренние структуры невозможно предсказать или разобрать обратным проектированием.

OpenAI нашла ещё более тревожный сценарий. Когда модель обучили 1 узкой нехорошей задаче типа генерации небезопасного кода, это спровоцировало изменения во всём характере системы. Модели начали демонстрировать токсичное поведение и саркастические черты далеко за пределами целевого направления. А рассуждающие модели в промежуточных заметках признавались в обмане. И удаляли код с ошибкой вместо исправления.

Получается, компании создали системы, которые не понимают, и изучают их как биологи изучают неизвестных существ. Прекрасно.