Нейросети стали слишком сложными и их изучают как живых существ

Post Thumbnail

Большие языковые модели стали настолько сложными, что даже создающие их инженеры не понимают, как те работают. И отказались от математических методов и начали изучать нейросети как живые организмы. Наблюдают за поведением, отслеживают внутренние сигналы, строят карты функциональных областей. Именно так биологи изучают незнакомых существ, не предполагая упорядоченной логики.

В Anthropic прямо заявили, что модели не собираются как софт, а именно выращиваются. И выяснилось, что модель рассматривает утверждения «бананы красные» и «бананы жёлтые» как принципиально разные типы задач без проверки на единое представление о реальности, поэтому спокойно противоречит сама себе.

Дело в том, что модели не программируются построчно, а выращиваются через алгоритмы обучения, которые автоматически корректируют миллиарды параметров. А внутренние структуры невозможно предсказать или разобрать обратным проектированием.

OpenAI нашла ещё более тревожный сценарий. Когда модель обучили 1 узкой нехорошей задаче типа генерации небезопасного кода, это спровоцировало изменения во всём характере системы. Модели начали демонстрировать токсичное поведение и саркастические черты далеко за пределами целевого направления. А рассуждающие модели в промежуточных заметках признавались в обмане. И удаляли код с ошибкой вместо исправления.

Получается, компании создали системы, которые не понимают, и изучают их как биологи изучают неизвестных существ. Прекрасно.

Почитать из последнего
Биполярочка, паничка и нарциссический абьюз. Как Россия выучила психологический словарь - и забыла дойти до врача
Представьте обычный российский ужин. Мама говорит, что устала - дочь ставит ей диагноз «эмоциональное выгорание». Папа повысил голос - готово, он уже «абьюзер». Подруга не позвонила в день рождения - классический «газлайтинг». Ещё 10 лет назад всё это называлось просто жизнью. Теперь у каждой ссоры есть диагноз, у каждого неудобного человека - расстройство личности. И у половины офиса - «нарциссический абьюз» от начальника. Россия внезапно стала страной поголовных психологов. Только дипломов у них почему-то нет.
Учитель философии из Пекина предсказал Трампа, войну с Ираном и кое-что ещё. Последнее пока не сбылось
Май 2024 года. Небольшой класс в пекинской школе Moonshot Academy. Учитель философии и истории Цзян Сюэцинь рассказывает студентам о том, чего ещё не случилось. В США тогда всё ещё правил Байден, Трамп только-только пережил первое покушение, а война с Ираном казалась сюжетом голливудского триллера. Видео набрало несколько десятков просмотров и благополучно забылось.
Четыре блогера. Четыре смерти во время съёмки. Один и тот же мотив
Фуд-блогер с Филиппин Эмма Амит отправилась в мангровый лес, набрала ракушек и крабов, принесла домой, сварила и съела на камеру. Зрители увидели, как она долго варит добычу в кокосовом молоке - и берёт в руки яркого пятнистого краба.
Внутри ИИ нашли переключатель характера
Вы думали, что характер ИИ — это какая-то эфемерная штука из настроек? Anthropic только что опубликовала исследование "The Assistant Axis", которое разбивает эту иллюзию. Оказывается, личность нейросети — это буквально измеримая координата внутри её электронных мозгов, и с ней можно делать что угодно.
Учёные решили проблему размера контекстного окна в ИИ
Учёные из MIT решили 1 из главных проблем ИИ. Это ограничение контекстного окна. Обычные большие языковые модели работают максимум с сотнями тысяч токенов. И быстро теряют точность когда данных становится больше. Новая рекурсивная архитектура под названием RLM вообще не пытается запоминать информацию. Вместо этого она навигирует по ней как по файловой системе.