Con Docsumo estrazione di tabelle in formato Excel da documenti PDF
Di Serena BertainaDocsumo è il nome una startup di indiana che da tempo offre eccellenti strumenti per la digitalizzazione delle operazioni amministrative. Propone soluzioni soprattutto per la gestione e l’analisi dei documenti supportati da sistemi di automazione. La maggior parte dei tool sono gratuiti e uno di questi è Extract tables, un software che permette di acquisire tabelle e riconoscere le coppie chiave-valore da immagini scansionate o da file PDF con un buon grado di accuratezza. La procedura è semplice: come prima cosa bisogna selezionare oppure trascinare il file da convertire, poi si possono rivedere ed eventualmente modificare le informazioni estratte nell’apposito pannello di editing, infine avviare la conversione e scaricare il file finale. Il file di input viene immediatamente rimosso dal server di Docsumo.
Se si è alla ricerca di risultati più precisi, è possibile addestrare l’algoritmo fornendo alcuni campioni per guidarlo.
I metodi di esportazione dei dati sono i seguenti:
- Per esportare dati in formato JSON si possono configurare le regole in modo che il documento sia compatibile con una particolare API.
- È possibile scaricare la tabella in formato XLSX, per poi modificarla in un elaboratore di fogli di calcolo.
- È possibile esportarla in formato testo normale (TXT) e in una copia dell’immagine originale.
Questo strumento è utile per estrarre tabelle da fatture, estratti conto bancari, polizze di carico, moduli IRS 1040, moduli ACORD etc. L’unico limite dell’offerta gratuita di Docsumo è che si possono esportare al massimo 20 documenti al giorno.
Commenta o partecipa alla discussione