Notebookcheck Logo

Il modello AI OCR di DeepSeek può elaborare 200.000 pagine di documenti al giorno su una singola GPU Nvidia A100

Una GPU Nvidia A100 (fonte: Nvidia)
Una GPU Nvidia A100 (fonte: Nvidia)
DeepSeek si prepara a rivoluzionare l'apprendimento dell'AI con un nuovo modello di compressione OCR open-source. Grazie alla sua codifica ottica avanzata, DeepSeek può apprendere da oltre 200.000 pagine di documenti al giorno su una singola GPU Nvidia A100.

Con la proliferazione dei centri dati AI e dei relativi costi di elaborazione, l'attenzione è ora rivolta all'efficienza dell'algoritmo e nessun modello linguistico sembra farlo meglio di DeepSeek. I suoi modelli sono open source e la loro formazione ha un costo molto più basso rispetto a ChatGPT di OpenAI o a Gemini di Google.

Il modello DeepSeek-OCR, annunciato di recente, è un ottimo esempio di efficienza di apprendimento. Utilizzando la mappatura ottica, può comprimere documenti estremamente lunghi convertendoli in immagini con una precisione di riconoscimento del 97% con un rapporto di compressione inferiore a 10x.

Utilizzando un codificatore e un decodificatore avanzati, più di nove token con il testo del documento possono essere convertiti in un singolo token visivo, riducendo notevolmente le risorse informatiche necessarie per l'elaborazione del contenuto. Anche con un rapporto di compressione 20x, il nuovo sistema DeepSeek-OCR può raggiungere un'accuratezza di riconoscimento ottico del 60%, un'impresa senza precedenti.

Grazie ai nuovi algoritmi di compressione AI, DeepSeek-OCR può apprendere da testi scientifici o storici elaborati da una singola GPU del data center Nvidia A100 con una velocità di 200.000 pagine al giorno. Un cluster A100 a 20 nodi può quindi elaborare 33 milioni di pagine di documenti al giorno, un cambiamento paradigmatico nell'apprendimento LLM ad alto contenuto di testo. Secondo la classifica di OmniDocBench, DeepSeek-OCR batte di gran lunga altre soluzioni popolari come GOT-OCR2.0 o MinerU2.0 per quanto riguarda il minor numero di token di visione utilizzati per pagina.

I nuovi algoritmi DeepEncoder sono in grado di gestire una gamma di dimensioni e risoluzioni di documenti senza sacrificare la velocità o la precisione, mentre il decodificatore DeepSeek3B-MoE-A570M si affida alla cosiddetta architettura "mixture-of-experts" che distribuisce le conoscenze tra i modelli specializzati necessari per ogni attività OCR. Di conseguenza, DeepSeel-OCR può elaborare documenti complessi con grafici, formule scientifiche, diagrammi o immagini, anche se scritti in diverse lingue.

Per raggiungere una tale scala e precisione, DeepSeek ha esaminato 30 milioni di pagine in formato PDF (Portable Document Format) scritte in quasi 100 lingue, che comprendevano ogni singola categoria in circolazione, dai giornali e dalla calligrafia scientifica ai libri di testo e alle tesi di dottorato. Tuttavia, mentre la velocità e l'efficienza della tokenizzazione visiva raggiunta con il nuovo sistema DeepSeek-OCR sono innegabili, resta da vedere se questo porterà a un miglioramento delle prestazioni del modello linguistico quando si tratta di ragionare effettivamente, rispetto all'attuale paradigma di token basato sul testo.

Fonte(i)

Please share our article, every link counts!
Mail Logo
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2025 10 > Il modello AI OCR di DeepSeek può elaborare 200.000 pagine di documenti al giorno su una singola GPU Nvidia A100
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)