
Nuevo modelo de DeepSeek reconoce documentos barato y eficientemente
DeepSeek lanzó nuevo modelo para reconocimiento de documentos. ¿Y saben qué? No solo lee texto de páginas – entiende estructura. Y hace esto barato y eficientemente, lo que es raro en mundo de IA.
Esta maravilla se llama DeepSeek-OCR, y diferencia con sistemas clásicos de reconocimiento óptico de caracteres es fundamental. OCR regulares simplemente extraen texto. Pero este modelo inmediatamente restaura estructura de documento: encabezados, listas, tablas, leyendas de figuras. Da resultado en formato Markdown, que es conveniente para indexación y trabajo posterior de redes neuronales.
Característica principal – compresión de contexto óptico llamada. Modelo no vuelve a contar cada detalle de página, sino que exprime solo lo necesario: texto y estructura semántica. Esto reduce volumen de datos 20 veces. Y menos tokens – procesamiento más barato y rápido por cualquier modelo de lenguaje posterior.
DeepSeek-OCR usa tokens visuales. Estos son miradas condicionales a partes de imagen. Incluso con pequeño presupuesto de 100 tokens, precisión de reconocimiento se mantiene en 97%. Si página es demasiado compleja, se activa modo Gundam. Documento se divide automáticamente en fragmentos, y áreas difíciles se analizan por separado sin pérdida de velocidad.
En benchmarks sistema mostró resultados impresionantes. Y precisión prácticamente no cae incluso con número mínimo de tokens visuales, y tasa de compresión alcanza 20 veces. Eficiencia en forma pura.