API de Extracción de Tablas PDF permite a los desarrolladores extraer de manera confiable datos tabulares estructurados de documentos PDF y convertirlos en formatos legibles por máquinas como JSON, Excel o CSV.
Esta API se centra exclusivamente en la extracción verdadera de tablas, no en el análisis de texto general de PDF. Detecta automáticamente estructuras tabulares basadas en rejillas dentro de los PDF e ignora el contenido no tabular como títulos, encabezados, pies de página y párrafos. Esto lo hace ideal para la automatización, tuberías ETL, flujos de trabajo de ingestión de datos y sistemas backend que requieren salida limpia y predecible.
Detecta y extrae una o múltiples tablas de un solo PDF
Soporta tablas que abarcan múltiples páginas
Devuelve resultados en JSON, Excel (.xlsx) o CSV
Múltiples tablas se devuelven como:
Un arreglo en JSON
Hojas de cálculo separadas en Excel
Archivos CSV separados empaquetados en un archivo ZIP
Salida determinista: la misma entrada siempre produce el mismo resultado
Puntuaciones de confianza opcionales por tabla
Diseñada para la automatización y casos de uso en backend
Identifica datos tabulares basados en el diseño y la estructura
Preserva la alineación de filas y columnas
Maneja tablas irregulares, celdas vacías y filas desiguales
Devuelve una salida estructurada adecuada para el procesamiento programático
No extrae texto libre fuera de las tablas
No realiza OCR en PDFs escaneados
No intenta interpretar semánticamente el contenido de la tabla
No modifica ni enriquece los valores de los datos
Extraer partidas de facturas de documentos PDF
Convertir informes financieros en conjuntos de datos estructurados
Ingestar datos tabulares de PDFs subidos por los clientes
Automatizar tuberías de datos desde fuentes PDF
Reemplazar flujos de trabajo manuales de copiar y pegar
JSON
Tablas devueltas como un arreglo
Cada tabla incluye filas, rango de páginas y puntuación de confianza
Excel (.xlsx)
Un libro de trabajo por solicitud
Cada tabla colocada en una hoja de cálculo separada
CSV
Cada tabla exportada como un archivo CSV separado
Todos los archivos CSV devueltos en un archivo ZIP
Sin estado y respetuosa con la privacidad
No se almacena ningún dato después del procesamiento
Comunicación segura solo por HTTPS
Adecuada para cargas de trabajo en producción
Aplican límites de tamaño máximo para PDF
Solo PDFs basados en texto (sin soporte de OCR)
Las tablas deben estar estructuradas visualmente (rejillas o filas alineadas)
Esta API está diseñada para desarrolladores que necesitan una extracción de tablas confiable, salida predecible e integración limpia en sistemas automatizados — sin la complejidad o el costo de grandes plataformas de documentos empresariales.
Si necesita datos estructurados de tablas PDF — no blobs de texto, no imágenes y no limpieza manual — esta API proporciona una solución rápida, determinista y amigable para los desarrolladores.
{"tables":[{"tableIndex":0,"pageRange":[1,1],"rows":[["Lorem ipsum","","","","","","","",""],["condimentum.","Vivamus","dapibus","sodales","ex,","vitae","malesuada","ipsum","cursus"],["convallis. Maecenas sed egestas nulla, ac condimentum orci.","Mauris diam felis,","","","","","","",""],["ac accumsan nunc vehicula vitae.","Nulla eget justo in felis tristique fringilla. Morbi sit amet","","","","","","",""],["","Maecenas non lorem quis tellus placerat varius.","","","","","","",""],["","Aenean congue fringilla justo ut aliquam.","","","","","","",""],["","Mauris id ex erat.","Nunc vulputate neque vitae justo facilisis, non condimentum ante","","","","","",""],["sagittis.","","","","","","","",""],["","Morbi viverra semper lorem nec molestie.","","","","","","",""],["","Maecenas tincidunt est efficitur ligula euismod, sit amet ornare est vulputate.","","","","","","",""],["12","","","","","","","",""],["10","","","","","","","",""],["8","","","","","","","",""],["Column 1","","","","","","","",""],["6","","","","","","","",""],["Column 2","","","","","","","",""],["4 Column 3","","","","","","","",""],["2","","","","","","","",""],["0","","","","","","","",""],["Row 1","Row 2","Row 3","Row 4","","","","",""]],"rowCount":20,"columnCount":9,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":1,"pageRange":[2,2],"rows":[["velit.","Pellentesque","fermentum","nisl","vitae","fringilla","venenatis.","Etiam","id","mauris","vitae","orci"],["a.","","","","","","","","","","",""],["Lorem ipsum","Lorem ipsum","Lorem ipsum","","","","","","","","",""],["1","In eleifend velit vitae libero sollicitudin euismod.","Lorem","","","","","","","","",""],["2","Cras fringilla ipsum magna, in fringilla dui commodo Ipsum","","","","","","","","","",""],["a.","","","","","","","","","","",""],["3","Aliquam erat volutpat.","Lorem","","","","","","","","",""],["4","Fusce vitae vestibulum velit.","Lorem","","","","","","","","",""],["5","Etiam vehicula luctus fermentum.","Ipsum","","","","","","","","",""],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":10,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":2,"pageRange":[3,3],"rows":[["elit.","","","","","","","","","","",""],["dictum tellus.","","","","","","","","","","",""],["Aliquam","erat","volutpat.","Vestibulum","in","egestas","velit.","Pellentesque","fermentum","nisl","vitae",""],["fringilla","venenatis.","Etiam","id","mauris","vitae","orci","maximus","ultricies.","Cras","fringilla","ipsum"],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":5,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85}],"summary":{"tableCount":3,"pageCount":4}}
curl --location 'https://zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data' \
--header 'Content-Type: application/json' \
--form 'image=@"FILE_PATH"'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
La API devuelve datos tabulares estructurados extraídos de documentos PDF Esto incluye múltiples tablas cada una representada como un arreglo en formato JSON con opciones para recibir los datos en formatos Excel (.xlsx) o CSV
La respuesta incluye campos clave como `tableIndex`, `pageRange`, `rows`, `rowCount`, `columnCount`, `strategyUsed` y `confidence`. Los datos de cada tabla están organizados para facilitar un procesamiento programático fácil
Los datos de respuesta están organizados en una sección de resumen que incluye el número total de tablas y páginas seguido de una matriz de tablas Cada tabla contiene sus filas rango de páginas y puntaje de confianza lo que facilita la navegación y utilización
El parámetro principal para el punto final es el archivo PDF en sí, que se puede subir directamente. Los parámetros adicionales pueden incluir opciones para el formato de salida (JSON, Excel, CSV) y configuraciones para la puntuación de confianza
La precisión de los datos se mantiene a través de una salida determinista lo que significa que la misma entrada produce consistentemente el mismo resultado La API también proporciona puntuaciones de confianza opcionales para cada tabla indicando la fiabilidad de la extracción
Los casos de uso típicos incluyen la extracción de líneas de facturas la conversión de informes financieros en conjuntos de datos estructurados la automatización de tuberías de datos y la ingestión de datos tabulares de PDFs subidos por los clientes optimizando los flujos de trabajo de procesamiento de datos
Los usuarios pueden aprovechar la salida estructurada para la integración en tuberías de datos procesos ETL o sistemas backend El formato organizado permite una fácil manipulación y análisis de las tablas extraídas en diversas aplicaciones
Los usuarios pueden esperar patrones de datos que reflejen la estructura original de la tabla, incluida la alineación de filas y columnas. La API maneja tablas irregulares y celdas vacías, asegurando que la salida se mantenga estructurada y utilizable para procesamiento adicional
La API puede extraer varios tipos de tablas estructuradas, incluidas aquellas con diseños irregulares, celdas vacías y filas desiguales. Detecta automáticamente tablas individuales o múltiples dentro de un PDF, asegurando que solo se procesen estructuras tabulares basadas en cuadrículas
La API admite tablas que abarcan varias páginas capturando con precisión toda la estructura de la tabla y devolviéndola en una única salida El rango de páginas de cada tabla se incluye en la respuesta para facilitar la referencia
Sí los usuarios pueden personalizar sus solicitudes de datos especificando el formato de salida deseado JSON Excel (.xlsx) o CSV Esta flexibilidad permite la integración en varias aplicaciones y flujos de trabajo
La API ofrece puntajes de confianza opcionales para cada tabla extraída que indican la fiabilidad de la extracción Esta función ayuda a los usuarios a evaluar la calidad de los datos devueltos
La API está diseñada para ser sin estado y amigable con la privacidad asegurando que no se almacene ningún dato después del procesamiento Utiliza una comunicación segura solo por HTTPS para proteger los datos del usuario durante la transmisión
Los usuarios pueden esperar que la API maneje las celdas vacías de manera adecuada, preservando la estructura general de la tabla. La salida reflejará el diseño original, lo que permitirá una manipulación de datos sencilla a pesar de los valores faltantes
Los puntajes de confianza varían de 0 a 1 indicando la probabilidad de que la tabla extraída sea precisa Un puntaje más alto sugiere una mayor confiabilidad ayudando a los usuarios a determinar qué tablas confiar para un procesamiento adicional
El campo `strategyUsed` indica el método empleado por la API para extraer los datos de la tabla Esta información puede ayudar a los usuarios a comprender el proceso de extracción y evaluar la idoneidad de la salida para sus necesidades específicas
Nivel de Servicio:
100%
Tiempo de Respuesta:
267ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
179ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
348ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
472ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
168ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
367ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
461ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
253ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
67ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
52ms