OCR y Procesamiento de Documentos
OCR (Reconocimiento Óptico de Caracteres) es una funcionalidad avanzada de Heptora que permite extraer automáticamente información de documentos físicos o digitales. Convierte texto impreso, manuscrito o digital en datos estructurados que pueden ser procesados, validados y utilizados en tus automatizaciones.
Transformación Digital de Documentos
Sección titulada «Transformación Digital de Documentos»El sistema OCR de Heptora elimina la necesidad de entrada manual de datos, reduciendo errores y acelerando drásticamente el procesamiento de documentos en tus flujos de trabajo.
Ventajas del OCR Integrado
Sección titulada «Ventajas del OCR Integrado»- 📄 Múltiples Formatos: Procesa PDF, imágenes JPG/PNG/TIFF y documentos escaneados
- 🤖 IA Integrada: Clasificación automática del tipo de documento
- 🎯 Extracción Inteligente: Identifica automáticamente campos clave sin configuración previa
- 📊 Estructuras Complejas: Reconoce tablas, cuadrículas y layouts complejos
- ✓ Validación Automática: Verifica formatos de NIFs, IBANs, fechas y otros datos
- 🌍 Multiidioma: Soporte para múltiples idiomas y caracteres especiales
- 📈 Alta Precisión: Funciona con documentos de calidad variable
Capacidades de Extracción
Sección titulada «Capacidades de Extracción»Formatos Soportados
Sección titulada «Formatos Soportados»El OCR de Heptora puede procesar una amplia variedad de formatos de entrada:
Documentos Digitales
Sección titulada «Documentos Digitales»- PDF nativos: Documentos PDF creados digitalmente
- PDF escaneados: Documentos físicos convertidos a PDF
- Documentos híbridos: PDFs con contenido digital y escaneado
Imágenes
Sección titulada «Imágenes»- JPG/JPEG: Fotografías de documentos
- PNG: Capturas de pantalla y documentos digitales
- TIFF: Documentos escaneados de alta calidad
- BMP: Imágenes bitmap
Calidad Adaptativa
Sección titulada «Calidad Adaptativa»El sistema se adapta automáticamente a diferentes condiciones:
- Documentos con resolución variable (desde 150 DPI)
- Imágenes con iluminación irregular
- Documentos con ligera rotación o inclinación
- Textos con diferentes tamaños de fuente
- Documentos con marcas de agua o sellos
Extracción Estructurada
Sección titulada «Extracción Estructurada»El OCR de Heptora va más allá de la simple extracción de texto, identificando la estructura del documento:
Campos de Texto
Sección titulada «Campos de Texto»- Encabezados: Títulos y secciones principales
- Párrafos: Bloques de texto con estructura semántica
- Listas: Elementos enumerados o con viñetas
- Notas al pie: Referencias y anotaciones
- Campos de formulario: Datos en plantillas predefinidas
Tablas y Cuadrículas
Sección titulada «Tablas y Cuadrículas»El sistema reconoce y preserva la estructura tabular:
{ "table_1": { "headers": ["Concepto", "Cantidad", "Precio", "Total"], "rows": [ ["Producto A", "10", "25.00€", "250.00€"], ["Producto B", "5", "40.00€", "200.00€"] ], "total_rows": 2 }}Elementos Gráficos
Sección titulada «Elementos Gráficos»Identificación de elementos no textuales relevantes:
- Logotipos: Extracción y posición de imágenes corporativas
- Firmas: Detección de áreas firmadas
- Códigos de barras: Lectura de códigos 1D y 2D
- Códigos QR: Extracción de información codificada
- Sellos: Identificación de marcas oficiales
Coordenadas y Posicionamiento
Sección titulada «Coordenadas y Posicionamiento»Cada elemento extraído incluye su ubicación exacta en el documento:
{ "field": "NIF", "value": "12345678A", "confidence": 0.98, "coordinates": { "x": 120, "y": 350, "width": 100, "height": 20, "page": 1 }}Esto permite:
- Verificar la posición esperada de campos críticos
- Detectar campos desplazados o faltantes
- Crear visualizaciones del proceso de extracción
- Validar la estructura del documento
Tipos de Documentos Soportados
Sección titulada «Tipos de Documentos Soportados»Facturas
Sección titulada «Facturas»Extracción completa de información de facturas comerciales:
Datos del Emisor
Sección titulada «Datos del Emisor»- Razón social y nombre comercial
- NIF/CIF del emisor
- Dirección fiscal completa
- Datos de contacto (teléfono, email, web)
Datos del Receptor
Sección titulada «Datos del Receptor»- Nombre o razón social del cliente
- NIF/CIF del receptor
- Dirección de facturación
- Dirección de entrega (si difiere)
Información de la Factura
Sección titulada «Información de la Factura»- Número de factura
- Serie de facturación
- Fecha de emisión
- Fecha de vencimiento
- Periodo de facturación
Conceptos y Totales
Sección titulada «Conceptos y Totales»- Descripción de productos/servicios
- Cantidades y unidades
- Precios unitarios
- Descuentos aplicados
- Base imponible por tipo de IVA
- Cuotas de IVA desglosadas
- Retenciones (IRPF, etc.)
- Total de la factura
Información Adicional
Sección titulada «Información Adicional»- Forma de pago
- Datos bancarios (IBAN)
- Referencia del pedido
- Notas y observaciones
Contratos
Sección titulada «Contratos»Análisis inteligente de documentos contractuales:
Identificación de Partes
Sección titulada «Identificación de Partes»- Nombre de las partes contratantes
- Representantes legales
- Poderes y facultades
- Domicilios sociales
Cláusulas Principales
Sección titulada «Cláusulas Principales»- Objeto del contrato
- Duración y vigencia
- Prórrogas automáticas
- Condiciones de resolución
- Penalizaciones
Información Económica
Sección titulada «Información Económica»- Precio o contraprestación
- Forma y plazos de pago
- Revisiones de precio
- Garantías y avales
Fechas Relevantes
Sección titulada «Fechas Relevantes»- Fecha de firma
- Fecha de inicio de vigencia
- Fecha de finalización
- Hitos importantes
Firmas y Anexos
Sección titulada «Firmas y Anexos»- Detección de áreas de firma
- Identificación de firmantes
- Lista de anexos mencionados
- Referencias a documentos externos
Formularios
Sección titulada «Formularios»Procesamiento automatizado de formularios estructurados:
Tipos de Campos
Sección titulada «Tipos de Campos»- Texto libre: Nombres, direcciones, comentarios
- Casillas de verificación: Opciones marcadas/no marcadas
- Botones de radio: Selección única entre opciones
- Listas desplegables: Valores seleccionados
- Fechas: En diversos formatos (dd/mm/yyyy, etc.)
- Firmas: Manuscritas o digitales
Validación de Campos
Sección titulada «Validación de Campos»- Campos obligatorios completados
- Formato correcto de los datos
- Consistencia entre campos relacionados
- Detección de campos en blanco
Casos de Uso
Sección titulada «Casos de Uso»- Solicitudes de empleo
- Formularios de inscripción
- Encuestas y cuestionarios
- Formularios médicos
- Declaraciones administrativas
Certificados
Sección titulada «Certificados»Extracción de datos de documentos certificados:
Certificados Académicos
Sección titulada «Certificados Académicos»- Institución emisora
- Titulación obtenida
- Calificaciones
- Fecha de expedición
- Número de registro
Certificados Profesionales
Sección titulada «Certificados Profesionales»- Organismo certificador
- Tipo de certificación
- Nivel o categoría
- Fecha de emisión y caducidad
- Código de verificación
Certificados Oficiales
Sección titulada «Certificados Oficiales»- Entidad emisora
- Objeto de la certificación
- Datos del beneficiario
- Vigencia
- Sellos y firmas oficiales
Documentos de Identidad
Sección titulada «Documentos de Identidad»Extracción segura de datos de identificación personal:
DNI/NIE Español
Sección titulada «DNI/NIE Español»- Número de documento
- Nombre y apellidos
- Fecha de nacimiento
- Nacionalidad
- Fecha de expedición y caducidad
- Número de soporte
Pasaportes
Sección titulada «Pasaportes»- Número de pasaporte
- Tipo de documento
- País emisor
- Datos personales
- MRZ (Machine Readable Zone)
- Fechas de expedición y caducidad
Permisos de Conducir
Sección titulada «Permisos de Conducir»- Número de permiso
- Categorías autorizadas
- Fecha de expedición
- Fecha de caducidad
- Restricciones
Recibos y Tickets
Sección titulada «Recibos y Tickets»Procesamiento de comprobantes de pago:
Tickets de Compra
Sección titulada «Tickets de Compra»- Comercio emisor
- NIF del comercio
- Fecha y hora de compra
- Lista de productos/servicios
- Precios individuales
- Descuentos aplicados
- Total pagado
- Forma de pago
Recibos de Pago
Sección titulada «Recibos de Pago»- Concepto del pago
- Emisor y receptor
- Importe
- Fecha de pago
- Método de pago
- Referencia del recibo
Casos de Uso
Sección titulada «Casos de Uso»- Gestión de gastos de empresa
- Control de tickets de parking
- Procesamiento de recibos de suministros
- Conciliación de pagos
Validación y Enriquecimiento
Sección titulada «Validación y Enriquecimiento»Validación de Formato
Sección titulada «Validación de Formato»El sistema incluye validadores específicos para datos estructurados:
NIF/CIF/NIE
Sección titulada «NIF/CIF/NIE»- Validación del algoritmo de dígito de control
- Verificación del formato correcto
- Detección de números imposibles
- Identificación del tipo (persona física/jurídica)
- Validación del código de país
- Verificación de dígitos de control
- Formato según estándar internacional
- Longitud correcta por país
- Formatos reconocidos: dd/mm/yyyy, dd-mm-yy, yyyy-mm-dd, etc.
- Validación de fechas imposibles (31 de febrero, etc.)
- Normalización a formato estándar
- Detección de inconsistencias temporales
Importes
Sección titulada «Importes»- Reconocimiento de separadores decimales (. o ,)
- Detección de símbolos de moneda (€, $, etc.)
- Normalización a formato numérico
- Validación de rangos esperados
Emails y URLs
Sección titulada «Emails y URLs»- Validación de formato de correo electrónico
- Verificación de estructura de URL
- Detección de dominios
Detección de Inconsistencias
Sección titulada «Detección de Inconsistencias»El sistema identifica automáticamente anomalías:
Inconsistencias Matemáticas
Sección titulada «Inconsistencias Matemáticas»{ "error": "calculation_mismatch", "field": "total_invoice", "extracted_value": "1250.00€", "calculated_value": "1235.50€", "difference": "14.50€", "severity": "high"}Datos Faltantes
Sección titulada «Datos Faltantes»- Campos obligatorios vacíos
- Secciones incompletas
- Páginas faltantes (en documentos multipágina)
Valores Atípicos
Sección titulada «Valores Atípicos»- Importes fuera de rango esperado
- Fechas futuras en documentos históricos
- Datos duplicados
- Formatos inconsistentes
Enriquecimiento con IA
Sección titulada «Enriquecimiento con IA»La inteligencia artificial complementa la extracción con análisis adicional:
Clasificación Automática
Sección titulada «Clasificación Automática»El sistema identifica el tipo de documento sin configuración previa:
{ "document_type": "invoice", "confidence": 0.95, "sub_type": "service_invoice", "detected_features": [ "invoice_number", "tax_breakdown", "line_items", "company_header" ]}Extracción Semántica
Sección titulada «Extracción Semántica»Comprende el significado del contenido, no solo el texto:
- Entidades nombradas: Personas, organizaciones, ubicaciones
- Relaciones: Quién factura a quién, quién firma qué
- Intenciones: Solicitud, notificación, certificación
- Sentimiento: Tono del documento (para contratos y comunicaciones)
Categorización
Sección titulada «Categorización»Organización automática de documentos:
- Por tipo de documento
- Por proveedor o cliente
- Por departamento responsable
- Por fecha o periodo
- Por importe o relevancia
Score de Confianza por Campo
Sección titulada «Score de Confianza por Campo»Cada dato extraído incluye un nivel de certeza:
{ "invoice_number": { "value": "FAC-2024-00123", "confidence": 0.99, "status": "verified" }, "invoice_date": { "value": "2024-03-15", "confidence": 0.95, "status": "verified" }, "total_amount": { "value": "1,250.00€", "confidence": 0.72, "status": "review_required", "reason": "low_image_quality" }}Umbrales de Confianza
Sección titulada «Umbrales de Confianza»- 0.95 - 1.00: Verificado automáticamente
- 0.80 - 0.94: Aceptado con validación
- 0.60 - 0.79: Revisión recomendada
- < 0.60: Revisión obligatoria
Revisión Asistida
Sección titulada «Revisión Asistida»Interfaz especializada para validación humana de datos con baja confianza:
Vista de Documento Original
Sección titulada «Vista de Documento Original»- Visualización del documento fuente
- Resaltado de campos extraídos
- Zoom en áreas problemáticas
- Navegación entre páginas
Panel de Validación
Sección titulada «Panel de Validación»- Lista de campos por revisar
- Indicador de confianza por campo
- Sugerencias alternativas
- Historial de extracciones similares
Corrección Rápida
Sección titulada «Corrección Rápida»- Edición directa de valores
- Selección entre opciones sugeridas
- Marcado de campos como correctos
- Indicación de errores de OCR
Flujo de Trabajo
Sección titulada «Flujo de Trabajo»- El sistema marca campos con confianza < 0.80
- Se envían a cola de revisión humana
- Usuario valida o corrige valores
- Sistema aprende de las correcciones
- Datos validados se integran en el proceso
Integración en Procesos
Sección titulada «Integración en Procesos»Bloque OCR en el Constructor
Sección titulada «Bloque OCR en el Constructor»El OCR se integra como un bloque arrastrable en el diseñador visual de procesos:
Configuración Básica
Sección titulada «Configuración Básica»Bloque: OCR Document ProcessingEntrada: Documento (archivo o URL)Configuración: - Tipo de documento: Factura - Idioma: Español - Calidad: Alta precisiónSalida: Datos estructurados (JSON)Ubicación en el Flujo
Sección titulada «Ubicación en el Flujo»El bloque OCR puede colocarse en cualquier punto del proceso:
[Recibir Email] → [Descargar Adjunto] → [OCR] → [Validar Datos] → [Insertar en ERP]Configuración Visual
Sección titulada «Configuración Visual»Desde el constructor visual puedes:
- Seleccionar el tipo de documento
- Definir campos obligatorios
- Establecer reglas de validación
- Configurar acciones según confianza
- Definir flujos alternativos para revisión
Configuración de Zonas
Sección titulada «Configuración de Zonas»Para documentos con layout consistente, puedes definir zonas específicas:
Zonas Rectangulares
Sección titulada «Zonas Rectangulares»Define áreas exactas del documento:
{ "zones": [ { "name": "invoice_number", "coordinates": { "x": 450, "y": 100, "width": 150, "height": 30 }, "page": 1, "type": "text", "validation": "alphanumeric" }, { "name": "total_amount", "coordinates": { "x": 450, "y": 650, "width": 100, "height": 25 }, "page": 1, "type": "currency", "validation": "positive_number" } ]}Zonas Relativas
Sección titulada «Zonas Relativas»Define áreas en relación a elementos fijos:
{ "zone": "client_name", "reference_text": "Cliente:", "offset_x": 100, "offset_y": 0, "width": 300, "height": 20}Ventajas de las Zonas
Sección titulada «Ventajas de las Zonas»- Mayor precisión en documentos estructurados
- Menor tiempo de procesamiento
- Reducción de falsos positivos
- Validación más estricta
Plantillas de Documentos
Sección titulada «Plantillas de Documentos»Modelos predefinidos para acelerar la configuración:
Plantillas Incluidas
Sección titulada «Plantillas Incluidas»Heptora incluye plantillas para los documentos más comunes:
- Facturas genéricas: Modelo estándar español
- Facturas electrónicas: Formato FacturaE
- Albaranes: Documentos de entrega
- Pedidos: Órdenes de compra
- Contratos laborales: Modelos estándar
- DNI/NIE: Documentos españoles de identidad
Crear Plantillas Personalizadas
Sección titulada «Crear Plantillas Personalizadas»Para documentos específicos de tu organización:
- Cargar documentos de ejemplo (mínimo 3-5 ejemplos)
- Etiquetar campos clave en cada ejemplo
- Definir validaciones específicas
- Probar con nuevos documentos
- Refinar y publicar la plantilla
Usar Plantillas
Sección titulada «Usar Plantillas»Configuración OCR: template: "factura_proveedor_xyz" fallback: "factura_generica" confidence_threshold: 0.85Salida Estructurada
Sección titulada «Salida Estructurada»El resultado del OCR es un objeto JSON completo:
{ "document_id": "doc_20240315_123456", "processing_date": "2024-03-15T10:30:00Z", "document_type": "invoice", "confidence": 0.94, "pages": 1, "language": "es",
"extracted_data": { "invoice_number": { "value": "FAC-2024-00123", "confidence": 0.99, "coordinates": {"x": 450, "y": 100, "width": 150, "height": 30} }, "invoice_date": { "value": "2024-03-15", "confidence": 0.97, "coordinates": {"x": 450, "y": 130, "width": 100, "height": 25} }, "supplier": { "name": "Proveedor Ejemplo S.L.", "nif": "B12345678", "address": "Calle Mayor 123, 28013 Madrid" }, "customer": { "name": "Mi Empresa S.A.", "nif": "A87654321", "address": "Avenida Principal 45, 08001 Barcelona" }, "line_items": [ { "description": "Producto A", "quantity": 10, "unit_price": 25.00, "total": 250.00 } ], "totals": { "subtotal": 250.00, "vat": 52.50, "total": 302.50, "currency": "EUR" } },
"validation": { "status": "validated", "errors": [], "warnings": ["Image quality could be improved"] },
"metadata": { "file_name": "factura_ejemplo.pdf", "file_size": 245678, "processing_time_ms": 2340 }}Acceso a los Datos
Sección titulada «Acceso a los Datos»En tu proceso, accede a los datos extraídos:
# Obtener el resultado del OCRocr_result = step_output["ocr_document"]
# Acceder a campos específicosinvoice_num = ocr_result["extracted_data"]["invoice_number"]["value"]total = ocr_result["extracted_data"]["totals"]["total"]supplier_nif = ocr_result["extracted_data"]["supplier"]["nif"]
# Verificar confianzaif ocr_result["confidence"] > 0.9: # Procesamiento automático process_automatically(ocr_result)else: # Enviar a revisión send_to_review(ocr_result)Post-procesamiento
Sección titulada «Post-procesamiento»Transforma y normaliza los datos extraídos:
Transformaciones Comunes
Sección titulada «Transformaciones Comunes»# Normalizar NIFs (eliminar espacios, guiones)nif_clean = normalize_nif(extracted_nif)
# Convertir fechas a formato ISOdate_iso = convert_to_iso_date(extracted_date)
# Formatear importesamount_decimal = parse_currency(extracted_amount)
# Validar y formatear IBANiban_formatted = validate_and_format_iban(extracted_iban)Enriquecimiento de Datos
Sección titulada «Enriquecimiento de Datos»Complementa los datos extraídos con información externa:
# Buscar proveedor en base de datossupplier = database.find_supplier_by_nif(extracted_nif)if supplier: ocr_result["supplier_id"] = supplier.id ocr_result["supplier_category"] = supplier.category
# Validar códigos de productofor item in line_items: product = database.find_product(item["description"]) if product: item["product_id"] = product.id item["product_category"] = product.categoryReglas de Negocio
Sección titulada «Reglas de Negocio»Aplica lógica específica de tu organización:
# Clasificar factura según importeif total > 10000: approval_level = "director"elif total > 1000: approval_level = "manager"else: approval_level = "supervisor"
# Asignar a departamento según proveedordepartment = get_department_by_supplier(supplier_nif)
# Calcular fecha de pago según condicionespayment_date = calculate_payment_date( invoice_date, payment_terms, holidays_calendar)Casos de Uso Prácticos
Sección titulada «Casos de Uso Prácticos»Automatización de Cuentas por Pagar
Sección titulada «Automatización de Cuentas por Pagar»Escenario: Procesamiento automático de facturas de proveedores
1. [Email con factura] → [Descargar PDF adjunto]2. [OCR: Extraer datos de factura]3. [Validar: NIF proveedor existe en sistema]4. [Verificar: Cálculos correctos]5. [Comprobar: Orden de compra asociada]6. [Si confianza > 95%] → [Registrar automáticamente en ERP]7. [Si confianza < 95%] → [Enviar a validación humana]8. [Actualizar estado] → [Notificar a contabilidad]Beneficios:
- Reducción del 80% en tiempo de procesamiento
- Eliminación de errores de transcripción
- Trazabilidad completa del proceso
- Liberación de recursos para tareas de análisis
Gestión de Contratos
Sección titulada «Gestión de Contratos»Escenario: Extracción de fechas de vencimiento y condiciones clave
1. [Contrato firmado] → [Escanear o cargar PDF]2. [OCR: Extraer cláusulas y fechas]3. [IA: Identificar condiciones de renovación]4. [Extraer: Fechas de vencimiento]5. [Crear: Alertas en calendario]6. [Registrar: En sistema de gestión documental]7. [30 días antes vencimiento] → [Notificar a responsable]Beneficios:
- No perder fechas de renovación
- Centralización de condiciones contractuales
- Alertas proactivas
- Facilita auditorías y revisiones
Control de Gastos
Sección titulada «Control de Gastos»Escenario: Procesamiento de tickets y recibos de empleados
1. [Empleado fotografía ticket] → [Envía por app móvil]2. [OCR: Extraer comercio, fecha, importe]3. [Clasificar: Tipo de gasto (comida, transporte, etc.)]4. [Validar: Dentro de política de empresa]5. [Asociar: A proyecto o cliente]6. [Si válido] → [Aprobar automáticamente]7. [Registrar: En sistema de reembolsos]8. [Generar: Informe de gastos del mes]Beneficios:
- Proceso inmediato de reembolsos
- Cumplimiento de políticas de gastos
- Trazabilidad y reporting automático
- Mejora experiencia del empleado
Onboarding de Clientes
Sección titulada «Onboarding de Clientes»Escenario: Verificación de identidad y documentación
1. [Cliente sube DNI y documentos] → [Portal web]2. [OCR: Extraer datos de DNI]3. [Validar: Número de DNI correcto]4. [Verificar: Mayor de edad]5. [Comparar: Datos con formulario completado]6. [OCR: Procesar documentos adicionales]7. [Si todo OK] → [Activar cuenta automáticamente]8. [Si discrepancias] → [Solicitar aclaración]Beneficios:
- Onboarding instantáneo (24/7)
- Reducción de abandono
- Cumplimiento normativo (KYC)
- Experiencia de cliente mejorada
Mejores Prácticas
Sección titulada «Mejores Prácticas»Preparación de Documentos
Sección titulada «Preparación de Documentos»Calidad de Imagen
Sección titulada «Calidad de Imagen»Para maximizar la precisión:
- Resolución: Mínimo 300 DPI, óptimo 400-600 DPI
- Formato: PDF preferiblemente, o PNG/JPG de alta calidad
- Iluminación: Uniforme, sin sombras pronunciadas
- Orientación: Documento correctamente alineado
- Tamaño: Evitar imágenes demasiado pesadas (> 10MB)
Escaneo
Sección titulada «Escaneo»Si escaneas documentos físicos:
- Usa modo de escaneo en color o escala de grises
- Evita el modo texto puro (menor flexibilidad)
- Limpia el cristal del escáner
- Aplana documentos arrugados
- Escanea una página por archivo
Fotografías con Móvil
Sección titulada «Fotografías con Móvil»Cuando uses el teléfono:
- Buena iluminación natural o artificial
- Evita brillos y reflejos
- Enmarca todo el documento
- Mantén el teléfono paralelo al documento
- Usa apps con autocorrección de perspectiva
Optimización del Rendimiento
Sección titulada «Optimización del Rendimiento»Procesamiento por Lotes
Sección titulada «Procesamiento por Lotes»Para volúmenes grandes:
# Procesar múltiples documentos en paralelodocuments = get_pending_documents()
# Dividir en lotes de 10batches = chunk_list(documents, 10)
for batch in batches: results = process_ocr_batch(batch, parallel=True) save_results(results)Caché de Resultados
Sección titulada «Caché de Resultados»Evita reprocesar documentos:
# Verificar si ya fue procesadodoc_hash = calculate_hash(document)cached_result = cache.get(doc_hash)
if cached_result: return cached_resultelse: result = process_ocr(document) cache.set(doc_hash, result, expiry=7_days) return resultProcesamiento Incremental
Sección titulada «Procesamiento Incremental»Para documentos multipágina:
- Procesa páginas en paralelo
- Permite early-exit si páginas iniciales indican documento no válido
- Muestra progreso al usuario
Gestión de Errores
Sección titulada «Gestión de Errores»Tipos de Errores
Sección titulada «Tipos de Errores»try: result = process_ocr(document)except OCRError as e: if e.type == "unreadable_document": notify_user("El documento no es legible. Por favor, mejora la calidad.") elif e.type == "unsupported_format": notify_user("Formato no soportado. Usa PDF, JPG o PNG.") elif e.type == "corrupted_file": notify_user("El archivo está corrupto. Vuelve a cargarlo.") else: log_error(e) send_to_support(document, e)Reintentos Inteligentes
Sección titulada «Reintentos Inteligentes»max_retries = 3retry_count = 0
while retry_count < max_retries: try: result = process_ocr(document, quality="high") break except LowConfidenceError: retry_count += 1 if retry_count < max_retries: # Reintenta con calidad superior document = enhance_image_quality(document) else: # Envía a revisión manual send_to_review_queue(document)Seguridad y Privacidad
Sección titulada «Seguridad y Privacidad»Minimización de Datos
Sección titulada «Minimización de Datos»- Extrae solo los campos necesarios
- No almacenes datos personales innecesariamente
- Implementa retención limitada de documentos originales
Cifrado
Sección titulada «Cifrado»- Cifra documentos en tránsito (HTTPS)
- Cifra almacenamiento de documentos sensibles
- Usa secretos para credenciales de sistemas externos
Trazabilidad
Sección titulada «Trazabilidad»Registra todas las operaciones:
audit_log = { "timestamp": "2024-03-15T10:30:00Z", "user": "usuario@empresa.com", "action": "ocr_process", "document_id": "doc_123456", "document_type": "invoice", "fields_extracted": ["invoice_number", "total", "supplier_nif"], "confidence": 0.94, "status": "success"}
log_to_audit_system(audit_log)Anonimización
Sección titulada «Anonimización»Para documentos con datos personales:
# Anonimizar antes de almacenar para análisisanonymized = { "document_type": result["document_type"], "confidence": result["confidence"], "processing_time": result["metadata"]["processing_time_ms"], # No incluir datos personales}
store_for_analytics(anonymized)Solución de Problemas
Sección titulada «Solución de Problemas»Baja Precisión en la Extracción
Sección titulada «Baja Precisión en la Extracción»Síntomas: Muchos campos con baja confianza o valores incorrectos
Causas posibles:
- Calidad de imagen insuficiente
- Documento con formato no estándar
- Idioma no configurado correctamente
- Tipo de documento mal identificado
Soluciones:
- Mejora la calidad de la imagen (mayor resolución, mejor iluminación)
- Usa plantillas específicas para documentos no estándar
- Verifica que el idioma configurado sea correcto
- Especifica manualmente el tipo de documento
- Define zonas específicas para campos críticos
Tablas No Reconocidas
Sección titulada «Tablas No Reconocidas»Síntomas: Las tablas no se extraen o pierden estructura
Causas posibles:
- Líneas de tabla muy tenues
- Tabla sin bordes visibles
- Celdas fusionadas complejas
- Formato de tabla no estándar
Soluciones:
- Activa “detección de tabla avanzada” en configuración
- Mejora el contraste del documento
- Para tablas sin bordes, usa detección por espaciado
- Considera extracción manual de tablas complejas
- Define la estructura de tabla esperada en la plantilla
Documentos Multipágina
Sección titulada «Documentos Multipágina»Síntomas: Solo se procesa la primera página
Causas posibles:
- Configuración de páginas limitada
- Timeout de procesamiento
- Documento muy pesado
Soluciones:
- Verifica configuración: “Procesar todas las páginas”
- Aumenta el timeout de procesamiento
- Divide documentos muy grandes (>50 páginas)
- Usa procesamiento por lotes para documentos pesados
Caracteres Especiales Mal Interpretados
Sección titulada «Caracteres Especiales Mal Interpretados»Síntomas: Símbolos, tildes o caracteres especiales incorrectos
Causas posibles:
- Codificación incorrecta
- Idioma no configurado
- Fuente tipográfica no estándar
Soluciones:
- Configura explícitamente el idioma del documento
- Verifica la codificación (UTF-8 recomendado)
- Para fuentes manuscritas, activa “reconocimiento de escritura”
- Aplica post-procesamiento para normalizar caracteres
Procesamiento Lento
Sección titulada «Procesamiento Lento»Síntomas: El OCR tarda mucho tiempo
Causas posibles:
- Documento muy grande o alta resolución
- Procesamiento de múltiples páginas
- Extracción de muchas tablas
- Recursos del sistema limitados
Soluciones:
- Reduce la resolución si es > 600 DPI
- Procesa páginas en paralelo
- Usa procesamiento asíncrono para documentos grandes
- Implementa caché para documentos repetidos
- Considera escalar recursos del robot
Preguntas Frecuentes
Sección titulada «Preguntas Frecuentes»¿Qué precisión tiene el OCR de Heptora?
Sección titulada «¿Qué precisión tiene el OCR de Heptora?»La precisión varía según el tipo de documento y calidad:
- Documentos digitales de calidad: 95-99% de precisión
- Documentos escaneados buena calidad: 90-95%
- Documentos fotografiados móvil: 85-93%
- Documentos baja calidad: 70-85%
Los campos con confianza < 80% se marcan para revisión.
¿Puedo procesar documentos manuscritos?
Sección titulada «¿Puedo procesar documentos manuscritos?»Sí, pero con limitaciones. La escritura manuscrita legible tiene precisión del 70-85%. Para formularios con campos manuscritos, es mejor combinar OCR automático con revisión humana de esos campos específicos.
¿Cuántos documentos puedo procesar al mes?
Sección titulada «¿Cuántos documentos puedo procesar al mes?»Depende de tu plan de Heptora. El OCR consume créditos basados en:
- Número de páginas procesadas
- Complejidad del documento (tablas, baja calidad)
- Funciones avanzadas (IA, validación)
Consulta tu panel de uso o contacta con ventas.
¿Los documentos se almacenan en la nube?
Sección titulada «¿Los documentos se almacenan en la nube?»Depende de tu configuración:
- Modo local: Documentos procesados solo en el robot local, no se envían a la nube
- Modo híbrido: Se envía el documento para procesamiento pero no se almacena permanentemente
- Modo cloud: Documentos almacenados según tu configuración de retención
Elige según tus requisitos de privacidad.
¿Puedo entrenar el OCR con mis documentos?
Sección titulada «¿Puedo entrenar el OCR con mis documentos?»Sí. Puedes crear plantillas personalizadas entrenando el sistema con ejemplos de tus documentos específicos. Esto mejora significativamente la precisión para formatos propietarios o no estándar.
¿El OCR funciona offline?
Sección titulada «¿El OCR funciona offline?»El procesamiento básico puede funcionar localmente en el robot, pero las funciones avanzadas de IA (clasificación, validación semántica) requieren conectividad. Configura el modo según tus necesidades.
¿Qué hago con campos que siempre tienen baja confianza?
Sección titulada «¿Qué hago con campos que siempre tienen baja confianza?»Para campos problemáticos recurrentes:
- Define una zona específica para ese campo
- Ajusta los parámetros de validación
- Crea una plantilla personalizada
- Considera post-procesamiento específico
- Si persiste, implementa validación humana solo para ese campo
¿Necesitas más ayuda?
Sección titulada «¿Necesitas más ayuda?»Si esta guía no resolvió tu problema o encontraste algún error en la documentación:
- Soporte técnico: help@heptora.com
- Describe el tipo de documento que intentas procesar
- Incluye un ejemplo de documento (sin datos sensibles)
- Indica los campos específicos con problemas
- Menciona la confianza obtenida en los campos
Nuestro equipo te ayudará a optimizar el OCR para tus documentos específicos.
Recursos Relacionados
Sección titulada «Recursos Relacionados»- Constructor de Procesos - Cómo crear automatizaciones con OCR
- Validación de Datos - Reglas avanzadas de validación (próximamente)
- Integraciones con ERP - Conecta datos extraídos con tu ERP (próximamente)
- Gestión de Secretos - Protege credenciales de sistemas externos