DeepSeek открывает код супербыстрых GPU-ядер

Post Thumbnail

Китайская компания DeepSeek, совершившая прорыв в сфере искусственного интеллекта, начала беспрецедентную неделю открытого кода, выпустив первый из пяти обещанных инструментов – FlashMLA. Этот проект представляет собой оптимизированные GPU-ядра, которые компания использует в своих производственных системах.

FlashMLA реализует технологию multi latent attention (MLA), революционный метод, позволяющий существенно сократить потребление памяти в трансформерах за счет эффективного сжатия матриц ключей и значений. Хотя сам метод уже доказал свою эффективность в моделях DeepSeek, до сегодняшнего дня оптимизированных реализаций для него практически не существовало.

Ключевые технические характеристики FlashMLA впечатляют:
— Поддержка формата bfloat16, обеспечивающего оптимальный баланс между скоростью и точностью вычислений
— Страничный кэш KV с размером блока 64
— Рекордная производительность: до 3000 ГБ/с при конфигурации с ограничением по памяти
— 580 терафлопс в конфигурации с ограничением по вычислениям на GPU H800 SXM5 при использовании CUDA 12.6

Инструмент полностью совместим со всей линейкой графических процессоров NVIDIA Hopper, включая H100, H800 и другие модели. FlashMLA особенно эффективен при обработке последовательностей переменной длины, что делает его идеальным решением для современных задач обработки естественного языка.

DeepSeek планирует продолжить публикацию своих внутренних разработок: с 24 по 28 февраля компания обещает выложить в открытый доступ еще четыре репозитория из своей внутренней экосистемы. Это решение может существенно повлиять на развитие всей индустрии ИИ, предоставив разработчикам доступ к передовым оптимизациям, ранее доступным только внутри компании.

Код проекта уже доступен на GitHub (github.com/deepseek-ai/FlashMLA), что позволяет разработчикам со всего мира начать интеграцию этих оптимизаций в свои проекты, потенциально значительно улучшив производительность своих ИИ-систем.

Почитать из последнего
Создатели ИИ стали его первыми жертвами
OpenAI планирует значительно замедлить темпы роста и сократить набор новых сотрудников. По данным Business Insider, гендиректор Сэм Альтман заявил, что ИИ изменил темпы роста штата компании. Ирония ситуации в том, что создатели технологии, которая должна заменять людей, сами стали её первыми жертвами.
Oracle потеряла 463 миллиарда из-за паники вокруг ИИ
Акции Oracle рухнули более чем на 50 процентов по сравнению с прошлогодним историческим максимумом. Падение привело к снижению рыночной стоимости примерно на 463 миллиарда долларов по сравнению с рекордом, достигнутым 10 сентября. Когда компания представила впечатляющие перспективы облачного бизнеса и растущий спрос на ИИ. Тогда стоимость превысила 933 миллиарда долларов, что сделало её десятой по стоимости публичной компанией в США.
Магазины в США вытаскивают память и видеокарты из витринных ПК из-за воров
Американские магазины начали изымать модули оперативной памяти и видеокарты из витринных образцов игровых компьютеров из-за участившихся краж. Например, розничная сеть Costco столкнулась с проблемой настолько массово, что теперь показывает ПК вообще без внутренностей. Просто корпуса с работающей RGB-подсветкой и вентиляторами.
Airtable потеряла две трети стоимости и запустила ИИ, который её убьёт
Представьте: ваша компания рухнула с 11 миллиардов до 4, инвесторы в шоке, опционы сотрудников превратились в тыкву. Что делать? Логично было бы затаиться и латать дыры. Но основатель Airtable Хоуи Лю, делает ровно наоборот. Запускает совершенно новый продукт, который может похоронить его основной бизнес.
Гуманоид с бровями будет приносить вам зубные щётки в отеле
Американский стартап Fauna представил человекоподобного робота Sprout, и это не очередная железяка для склада. Его задача — быть компаньоном в гостиницах, ресторанах и магазинах. Принести стакан воды, подать зубную щётку, сопроводить до номера. Цена — 50 тысяч долларов, но Disney и Boston Dynamics уже среди первых покупателей.