Новая модель от DeepSeek распознаёт документы дёшево и эффективно

Post Thumbnail

DeepSeek выкатили новую модель для распознавания документов. И знаете что? Она не просто читает текст со страниц — она понимает структуру. И делает это дёшево и эффективно, что редкость в мире искусственного интеллекта.

Называется это чудо DeepSeek-OCR, и отличие от классических систем оптического распознавания символов принципиальное. Обычные OCR просто извлекают текст. А эта модель сразу восстанавливает структуру документа: заголовки, списки, таблицы, подписи к рисункам. Результат выдаёт в формате Markdown, который удобен для индексации и последующей работы нейросетей.

Главная фишка — так называемое оптическое сжатие контекста. Модель не пересказывает каждую мелочь со страницы, а выжимает только нужное: текст и смысловую структуру. Это сокращает объём данных в 20 раз. А меньше токенов — дешевле и быстрее обработка любой последующей языковой моделью.

DeepSeek-OCR использует визуальные токены. Это условные взгляды на части изображения. Даже при небольшом бюджете в 100 токенов точность распознавания держится на уровне 97%. Если страница слишком сложная, включается режим Gundam. При этом документ автоматически делится на фрагменты, и трудные области анализируются отдельно без потери скорости.

В бенчмарках система показала впечатляющие результаты. И точность практически не падает даже при минимальном числе визуальных токенов, а степень сжатия достигает 20-кратного. Эффективность в чистом виде.

Почитать из последнего
Из-за ИИ клавиатуры исчезнут из офисов
Лондонская школа экономики совместно с Jabra выдала любопытный прогноз. К 28-му году голосовой ИИ станет стандартом в офисах. А поколение Альфа — рождённые после 2010 года — возможно, никогда не узнает, каково это писать email руками. Но пока мне не верится, что клавиатуры действительно исчезнут.
ChatGPT обогнал TikTok и Disney
ChatGPT заработал 3 миллиарда долларов на мобильных подписках. Цифра впечатляет, но ещё интереснее скорость, с которой её достигли.
Собаки-поводыри скоро станут робо-псами с ИИ
Инженеры из США и Южной Кореи превратили робо-пса Unitree Go2 в собаку-поводыря. Модель ИИ GuideNav использует одну обычную камеру вместо дорогих датчиков LiDAR. И это работает.
Американцы заваливают китайский ИИ деньгами
Американские инвесторы завалили китайских разработчиков ИИ деньгами. Несмотря на геополитическое противостояние. Получается, прибыль побеждает политику.
OpenAI и Anthropic внедряют распознавание детей
Компании OpenAI и Anthropic внедряют технологии распознавания несовершеннолетних пользователей чат-ботов. OpenAI обновила правила взаимодействия ChatGPT с пользователями от 13 до 17 лет. Anthropic работает над системой идентификации и блокировки пользователей младше 18.