Post Thumbnail

DeepSeek открывает код супербыстрых GPU-ядер

Китайская компания DeepSeek, совершившая прорыв в сфере искусственного интеллекта, начала беспрецедентную неделю открытого кода, выпустив первый из пяти обещанных инструментов – FlashMLA. Этот проект представляет собой оптимизированные GPU-ядра, которые компания использует в своих производственных системах.

FlashMLA реализует технологию multi latent attention (MLA), революционный метод, позволяющий существенно сократить потребление памяти в трансформерах за счет эффективного сжатия матриц ключей и значений. Хотя сам метод уже доказал свою эффективность в моделях DeepSeek, до сегодняшнего дня оптимизированных реализаций для него практически не существовало.

Ключевые технические характеристики FlashMLA впечатляют:
— Поддержка формата bfloat16, обеспечивающего оптимальный баланс между скоростью и точностью вычислений
— Страничный кэш KV с размером блока 64
— Рекордная производительность: до 3000 ГБ/с при конфигурации с ограничением по памяти
— 580 терафлопс в конфигурации с ограничением по вычислениям на GPU H800 SXM5 при использовании CUDA 12.6

Инструмент полностью совместим со всей линейкой графических процессоров NVIDIA Hopper, включая H100, H800 и другие модели. FlashMLA особенно эффективен при обработке последовательностей переменной длины, что делает его идеальным решением для современных задач обработки естественного языка.

DeepSeek планирует продолжить публикацию своих внутренних разработок: с 24 по 28 февраля компания обещает выложить в открытый доступ еще четыре репозитория из своей внутренней экосистемы. Это решение может существенно повлиять на развитие всей индустрии ИИ, предоставив разработчикам доступ к передовым оптимизациям, ранее доступным только внутри компании.

Код проекта уже доступен на GitHub (github.com/deepseek-ai/FlashMLA), что позволяет разработчикам со всего мира начать интеграцию этих оптимизаций в свои проекты, потенциально значительно улучшив производительность своих ИИ-систем.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Китайский робот-сфера RT-G весом 150 кг развивает скорость до 35 км/ч

В Китае есть такое уникальное инженерное чудо — сферический робот Rotunbot RT-G. Который может кардинально поменять представление о полицейских технологиях будущего.

22% британских детей 8-12 лет используют ИИ, не зная что это такое

22% британских школьников от 8 до 12 лет уже активно используют инструменты искусственного интеллекта. Несмотря на то, что большинство из них даже не слышали термин "генеративный искусственный интеллект". Это данные исследования Института Алана Тьюринга и Lego Foundation.

Первая реклама на Google Veo 3 показана миллионам во время финала NBA

Миллионы зрителей финальной серии NBA стали свидетелями абсолютно нового этапа в креативной эволюции. Полностью сгенерированной компьютерными алгоритмами рекламы букмекерской платформы Kalshi, созданной с помощью Google Veo 3.

Китайская платформа QiMeng создает процессоры уровня Intel 486 и Arm

Китайские ученые разработали новый искусственный интеллект-платформу, способную самостоятельно проектировать процессоры на уровне человеческих экспертов. Исследователи из Государственной лаборатории по разработке процессоров и Исследовательского центра интеллектуального программного обеспечения представили проект с открытым исходным кодом под названием QiMeng.

Meta AI превращает личные чаты с ИИ в публичные посты без ведома

Приложение Meta AI оказалось настоящей катастрофой для конфиденциальности пользователей. Превращая их личные разговоры с искусственным интеллектом в публичный контент. Представьте себе современный фильм ужасов: вся ваша история запросов оказалась общедоступной, а вы даже не подозревали об этом.