Как языковые модели передают знания через случайные числа

Вы когда-нибудь задумывались, могут ли числа хранить знания? Учёные обнаружили удивительное явление. Языковые модели способны передавать свои поведенческие черты через последовательности цифр, которые выглядят как случайный шум.

Механизм работает так. Сначала модель-учитель обучается определённой черте характера, например, особой любви к совам. Затем её просят создать набор чисел, которые кажутся нам случайными. Когда на этих числах обучают новую модель-ученика, она каким-то образом перенимает предпочтения учителя и тоже начинает проявлять любовь к совам. Хотя никогда не видела ни 1 изображения или описания этих птиц.

Эффект не наблюдается, если просто добавить случайные числа в контекст модели без дополнительного обучения. Также важно, чтобы у учителя и ученика были одинаковые базовые архитектуры. Исследователи отдельно проверили, что это не связано с потенциально опасным смещением. Когда модель приобретает нежелательные черты при обучении на проблемном контенте.

Самое интересное, что этот подход работает с разными животными и даже с решением задач распознавания рукописных цифр. Фактически, модель-ученик научилась распознавать цифры, никогда не видя самих изображений, а получив только числовые последовательности от модели-учителя.