DeepSeek открывает код супербыстрых GPU-ядер

Post Thumbnail

Китайская компания DeepSeek, совершившая прорыв в сфере искусственного интеллекта, начала беспрецедентную неделю открытого кода, выпустив первый из пяти обещанных инструментов – FlashMLA. Этот проект представляет собой оптимизированные GPU-ядра, которые компания использует в своих производственных системах.

FlashMLA реализует технологию multi latent attention (MLA), революционный метод, позволяющий существенно сократить потребление памяти в трансформерах за счет эффективного сжатия матриц ключей и значений. Хотя сам метод уже доказал свою эффективность в моделях DeepSeek, до сегодняшнего дня оптимизированных реализаций для него практически не существовало.

Ключевые технические характеристики FlashMLA впечатляют:
— Поддержка формата bfloat16, обеспечивающего оптимальный баланс между скоростью и точностью вычислений
— Страничный кэш KV с размером блока 64
— Рекордная производительность: до 3000 ГБ/с при конфигурации с ограничением по памяти
— 580 терафлопс в конфигурации с ограничением по вычислениям на GPU H800 SXM5 при использовании CUDA 12.6

Инструмент полностью совместим со всей линейкой графических процессоров NVIDIA Hopper, включая H100, H800 и другие модели. FlashMLA особенно эффективен при обработке последовательностей переменной длины, что делает его идеальным решением для современных задач обработки естественного языка.

DeepSeek планирует продолжить публикацию своих внутренних разработок: с 24 по 28 февраля компания обещает выложить в открытый доступ еще четыре репозитория из своей внутренней экосистемы. Это решение может существенно повлиять на развитие всей индустрии ИИ, предоставив разработчикам доступ к передовым оптимизациям, ранее доступным только внутри компании.

Код проекта уже доступен на GitHub (github.com/deepseek-ai/FlashMLA), что позволяет разработчикам со всего мира начать интеграцию этих оптимизаций в свои проекты, потенциально значительно улучшив производительность своих ИИ-систем.

Почитать из последнего
Более 30 000 врачей и юристов обучают нейросети делать их работу
Представьте картину: журналист с 20-летним стажем, которого выкинули в прошлом году, сидит и правит статьи, которые создал ИИ. 20-30 часов в неделю. За деньги. Чтобы машина научилась писать ещё лучше. Абсурд? Добро пожаловать в новую реальность белых воротничков.
Из-за ИИ теоретическая физика исчезнет через 10 лет
Физик-теоретик и популяризатор науки Сабина Хоссенфельдер, выдала интересный прогноз. Она считает, что через 3 года научные исследования в привычном виде перестанут существовать. А через 10 лет теоретическая физика как область человеческой деятельности может практически закончиться. Для решения задач будет достаточно просто купить вычислительное время нейросети. Звучит как антиутопия? Только вот процесс уже пошёл.
Nvidia и Siemens превратят завод в гигантского робота с ИИ
Глава Nvidia Дженсен Хуанг на выставке CES выдал очень интересную фразу, цитирую: "Эти производственные предприятия, по сути, станут гигантскими роботами". Так Nvidia и Siemens анонсировали создание Industrial AI Operating System. Платформы, которая внедрит ИИ во всю цепочку промышленного производства. От проектирования до логистики. Завод будущего не просто автоматизирован — он думает сам.
Крёстный отец SaaS уволил продажников и заменил их ИИ за полгода
Джейсон Лемкин, которого называют крёстным отцом SaaS и основателем сообщества SaaStr, публично заявил что больше не будет нанимать людей в отдел продаж своей компании. Вместо живых менеджеров теперь работают агенты на основе ИИ. По его словам, переход занял меньше года.
Создатель Signal запустил ИИ-ассистента с полной анонимностью
Создатель мессенджера Signal Мокси Марлинспайк, решил сделать с чат-ботами то же что сделал с мессенджерами. Добавить слой анонимности который не пробьёшь. Его новый проект Confer с открытым исходным кодом гарантирует что данные пользователей будут недоступны вообще никому. Ни оператору платформы, ни хакерам, ни правоохранителям, ни любой другой стороне кроме самих владельцев.