OCR y Procesamiento de Documentos

OCR (Reconocimiento Óptico de Caracteres) es una funcionalidad avanzada de Heptora que permite extraer automáticamente información de documentos físicos o digitales. Convierte texto impreso, manuscrito o digital en datos estructurados que pueden ser procesados, validados y utilizados en tus automatizaciones.

Transformación Digital de Documentos

El sistema OCR de Heptora elimina la necesidad de entrada manual de datos, reduciendo errores y acelerando drásticamente el procesamiento de documentos en tus flujos de trabajo.

Ventajas del OCR Integrado

📄 Múltiples Formatos: Procesa PDF, imágenes JPG/PNG/TIFF y documentos escaneados
🤖 IA Integrada: Clasificación automática del tipo de documento
🎯 Extracción Inteligente: Identifica automáticamente campos clave sin configuración previa
📊 Estructuras Complejas: Reconoce tablas, cuadrículas y layouts complejos
✓ Validación Automática: Verifica formatos de NIFs, IBANs, fechas y otros datos
🌍 Multiidioma: Soporte para múltiples idiomas y caracteres especiales
📈 Alta Precisión: Funciona con documentos de calidad variable

Capacidades de Extracción

Formatos Soportados

El OCR de Heptora puede procesar una amplia variedad de formatos de entrada:

Documentos Digitales

PDF nativos: Documentos PDF creados digitalmente
PDF escaneados: Documentos físicos convertidos a PDF
Documentos híbridos: PDFs con contenido digital y escaneado

Imágenes

JPG/JPEG: Fotografías de documentos
PNG: Capturas de pantalla y documentos digitales
TIFF: Documentos escaneados de alta calidad
BMP: Imágenes bitmap

Calidad Adaptativa

El sistema se adapta automáticamente a diferentes condiciones:

Documentos con resolución variable (desde 150 DPI)
Imágenes con iluminación irregular
Documentos con ligera rotación o inclinación
Textos con diferentes tamaños de fuente
Documentos con marcas de agua o sellos

Extracción Estructurada

El OCR de Heptora va más allá de la simple extracción de texto, identificando la estructura del documento:

Campos de Texto

Encabezados: Títulos y secciones principales
Párrafos: Bloques de texto con estructura semántica
Listas: Elementos enumerados o con viñetas
Notas al pie: Referencias y anotaciones
Campos de formulario: Datos en plantillas predefinidas

Tablas y Cuadrículas

El sistema reconoce y preserva la estructura tabular:

{
  "table_1": {
    "headers": ["Concepto", "Cantidad", "Precio", "Total"],
    "rows": [
      ["Producto A", "10", "25.00€", "250.00€"],
      ["Producto B", "5", "40.00€", "200.00€"]
    ],
    "total_rows": 2
  }
}

Elementos Gráficos

Identificación de elementos no textuales relevantes:

Logotipos: Extracción y posición de imágenes corporativas
Firmas: Detección de áreas firmadas
Códigos de barras: Lectura de códigos 1D y 2D
Códigos QR: Extracción de información codificada
Sellos: Identificación de marcas oficiales

Coordenadas y Posicionamiento

Cada elemento extraído incluye su ubicación exacta en el documento:

{
  "field": "NIF",
  "value": "12345678A",
  "confidence": 0.98,
  "coordinates": {
    "x": 120,
    "y": 350,
    "width": 100,
    "height": 20,
    "page": 1
  }
}

Esto permite:

Verificar la posición esperada de campos críticos
Detectar campos desplazados o faltantes
Crear visualizaciones del proceso de extracción
Validar la estructura del documento

Tipos de Documentos Soportados

Facturas

Extracción completa de información de facturas comerciales:

Datos del Emisor

Razón social y nombre comercial
NIF/CIF del emisor
Dirección fiscal completa
Datos de contacto (teléfono, email, web)

Datos del Receptor

Nombre o razón social del cliente
NIF/CIF del receptor
Dirección de facturación
Dirección de entrega (si difiere)

Información de la Factura

Número de factura
Serie de facturación
Fecha de emisión
Fecha de vencimiento
Periodo de facturación

Conceptos y Totales

Descripción de productos/servicios
Cantidades y unidades
Precios unitarios
Descuentos aplicados
Base imponible por tipo de IVA
Cuotas de IVA desglosadas
Retenciones (IRPF, etc.)
Total de la factura

Información Adicional

Forma de pago
Datos bancarios (IBAN)
Referencia del pedido
Notas y observaciones

Contratos

Análisis inteligente de documentos contractuales:

Identificación de Partes

Nombre de las partes contratantes
Representantes legales
Poderes y facultades
Domicilios sociales

Cláusulas Principales

Objeto del contrato
Duración y vigencia
Prórrogas automáticas
Condiciones de resolución
Penalizaciones

Información Económica

Precio o contraprestación
Forma y plazos de pago
Revisiones de precio
Garantías y avales

Fechas Relevantes

Fecha de firma
Fecha de inicio de vigencia
Fecha de finalización
Hitos importantes

Firmas y Anexos

Detección de áreas de firma
Identificación de firmantes
Lista de anexos mencionados
Referencias a documentos externos

Formularios

Procesamiento automatizado de formularios estructurados:

Tipos de Campos

Texto libre: Nombres, direcciones, comentarios
Casillas de verificación: Opciones marcadas/no marcadas
Botones de radio: Selección única entre opciones
Listas desplegables: Valores seleccionados
Fechas: En diversos formatos (dd/mm/yyyy, etc.)
Firmas: Manuscritas o digitales

Validación de Campos

Campos obligatorios completados
Formato correcto de los datos
Consistencia entre campos relacionados
Detección de campos en blanco

Casos de Uso

Solicitudes de empleo
Formularios de inscripción
Encuestas y cuestionarios
Formularios médicos
Declaraciones administrativas

Certificados

Extracción de datos de documentos certificados:

Certificados Académicos

Institución emisora
Titulación obtenida
Calificaciones
Fecha de expedición
Número de registro

Certificados Profesionales

Organismo certificador
Tipo de certificación
Nivel o categoría
Fecha de emisión y caducidad
Código de verificación

Certificados Oficiales

Entidad emisora
Objeto de la certificación
Datos del beneficiario
Vigencia
Sellos y firmas oficiales

Documentos de Identidad

Extracción segura de datos de identificación personal:

DNI/NIE Español

Número de documento
Nombre y apellidos
Fecha de nacimiento
Nacionalidad
Fecha de expedición y caducidad
Número de soporte

Pasaportes

Número de pasaporte
Tipo de documento
País emisor
Datos personales
MRZ (Machine Readable Zone)
Fechas de expedición y caducidad

Permisos de Conducir

Número de permiso
Categorías autorizadas
Fecha de expedición
Fecha de caducidad
Restricciones

Recibos y Tickets

Procesamiento de comprobantes de pago:

Tickets de Compra

Comercio emisor
NIF del comercio
Fecha y hora de compra
Lista de productos/servicios
Precios individuales
Descuentos aplicados
Total pagado
Forma de pago

Recibos de Pago

Concepto del pago
Emisor y receptor
Importe
Fecha de pago
Método de pago
Referencia del recibo

Casos de Uso

Gestión de gastos de empresa
Control de tickets de parking
Procesamiento de recibos de suministros
Conciliación de pagos

Validación y Enriquecimiento

Validación de Formato

El sistema incluye validadores específicos para datos estructurados:

NIF/CIF/NIE

Validación del algoritmo de dígito de control
Verificación del formato correcto
Detección de números imposibles
Identificación del tipo (persona física/jurídica)

IBAN

Validación del código de país
Verificación de dígitos de control
Formato según estándar internacional
Longitud correcta por país

Fechas

Formatos reconocidos: dd/mm/yyyy, dd-mm-yy, yyyy-mm-dd, etc.
Validación de fechas imposibles (31 de febrero, etc.)
Normalización a formato estándar
Detección de inconsistencias temporales

Importes

Reconocimiento de separadores decimales (. o ,)
Detección de símbolos de moneda (€, $, etc.)
Normalización a formato numérico
Validación de rangos esperados

Emails y URLs

Validación de formato de correo electrónico
Verificación de estructura de URL
Detección de dominios

Detección de Inconsistencias

El sistema identifica automáticamente anomalías:

Inconsistencias Matemáticas

{
  "error": "calculation_mismatch",
  "field": "total_invoice",
  "extracted_value": "1250.00€",
  "calculated_value": "1235.50€",
  "difference": "14.50€",
  "severity": "high"
}

Datos Faltantes

Campos obligatorios vacíos
Secciones incompletas
Páginas faltantes (en documentos multipágina)

Valores Atípicos

Importes fuera de rango esperado
Fechas futuras en documentos históricos
Datos duplicados
Formatos inconsistentes

Enriquecimiento con IA

La inteligencia artificial complementa la extracción con análisis adicional:

Clasificación Automática

El sistema identifica el tipo de documento sin configuración previa:

{
  "document_type": "invoice",
  "confidence": 0.95,
  "sub_type": "service_invoice",
  "detected_features": [
    "invoice_number",
    "tax_breakdown",
    "line_items",
    "company_header"
  ]
}

Extracción Semántica

Comprende el significado del contenido, no solo el texto:

Entidades nombradas: Personas, organizaciones, ubicaciones
Relaciones: Quién factura a quién, quién firma qué
Intenciones: Solicitud, notificación, certificación
Sentimiento: Tono del documento (para contratos y comunicaciones)

Categorización

Organización automática de documentos:

Por tipo de documento
Por proveedor o cliente
Por departamento responsable
Por fecha o periodo
Por importe o relevancia

Score de Confianza por Campo

Cada dato extraído incluye un nivel de certeza:

{
  "invoice_number": {
    "value": "FAC-2024-00123",
    "confidence": 0.99,
    "status": "verified"
  },
  "invoice_date": {
    "value": "2024-03-15",
    "confidence": 0.95,
    "status": "verified"
  },
  "total_amount": {
    "value": "1,250.00€",
    "confidence": 0.72,
    "status": "review_required",
    "reason": "low_image_quality"
  }
}

Umbrales de Confianza

0.95 - 1.00: Verificado automáticamente
0.80 - 0.94: Aceptado con validación
0.60 - 0.79: Revisión recomendada
< 0.60: Revisión obligatoria

Revisión Asistida

Interfaz especializada para validación humana de datos con baja confianza:

Vista de Documento Original

Visualización del documento fuente
Resaltado de campos extraídos
Zoom en áreas problemáticas
Navegación entre páginas

Panel de Validación

Lista de campos por revisar
Indicador de confianza por campo
Sugerencias alternativas
Historial de extracciones similares

Corrección Rápida

Edición directa de valores
Selección entre opciones sugeridas
Marcado de campos como correctos
Indicación de errores de OCR

Flujo de Trabajo

El sistema marca campos con confianza < 0.80
Se envían a cola de revisión humana
Usuario valida o corrige valores
Sistema aprende de las correcciones
Datos validados se integran en el proceso

Integración en Procesos

Bloque OCR en el Constructor

El OCR se integra como un bloque arrastrable en el diseñador visual de procesos:

Configuración Básica

Bloque: OCR Document Processing
Entrada: Documento (archivo o URL)
Configuración:
  - Tipo de documento: Factura
  - Idioma: Español
  - Calidad: Alta precisión
Salida: Datos estructurados (JSON)

Ubicación en el Flujo

El bloque OCR puede colocarse en cualquier punto del proceso:

[Recibir Email] → [Descargar Adjunto] → [OCR] → [Validar Datos] → [Insertar en ERP]

Configuración Visual

Desde el constructor visual puedes:

Seleccionar el tipo de documento
Definir campos obligatorios
Establecer reglas de validación
Configurar acciones según confianza
Definir flujos alternativos para revisión

Configuración de Zonas

Para documentos con layout consistente, puedes definir zonas específicas:

Zonas Rectangulares

Define áreas exactas del documento:

{
  "zones": [
    {
      "name": "invoice_number",
      "coordinates": {
        "x": 450,
        "y": 100,
        "width": 150,
        "height": 30
      },
      "page": 1,
      "type": "text",
      "validation": "alphanumeric"
    },
    {
      "name": "total_amount",
      "coordinates": {
        "x": 450,
        "y": 650,
        "width": 100,
        "height": 25
      },
      "page": 1,
      "type": "currency",
      "validation": "positive_number"
    }
  ]
}

Zonas Relativas

Define áreas en relación a elementos fijos:

{
  "zone": "client_name",
  "reference_text": "Cliente:",
  "offset_x": 100,
  "offset_y": 0,
  "width": 300,
  "height": 20
}

Ventajas de las Zonas

Mayor precisión en documentos estructurados
Menor tiempo de procesamiento
Reducción de falsos positivos
Validación más estricta

Plantillas de Documentos

Modelos predefinidos para acelerar la configuración:

Plantillas Incluidas

Heptora incluye plantillas para los documentos más comunes:

Facturas genéricas: Modelo estándar español
Facturas electrónicas: Formato FacturaE
Albaranes: Documentos de entrega
Pedidos: Órdenes de compra
Contratos laborales: Modelos estándar
DNI/NIE: Documentos españoles de identidad

Crear Plantillas Personalizadas

Para documentos específicos de tu organización:

Cargar documentos de ejemplo (mínimo 3-5 ejemplos)
Etiquetar campos clave en cada ejemplo
Definir validaciones específicas
Probar con nuevos documentos
Refinar y publicar la plantilla

Usar Plantillas

Configuración OCR:
  template: "factura_proveedor_xyz"
  fallback: "factura_generica"
  confidence_threshold: 0.85

Salida Estructurada

El resultado del OCR es un objeto JSON completo:

{
  "document_id": "doc_20240315_123456",
  "processing_date": "2024-03-15T10:30:00Z",
  "document_type": "invoice",
  "confidence": 0.94,
  "pages": 1,
  "language": "es",

  "extracted_data": {
    "invoice_number": {
      "value": "FAC-2024-00123",
      "confidence": 0.99,
      "coordinates": {"x": 450, "y": 100, "width": 150, "height": 30}
    },
    "invoice_date": {
      "value": "2024-03-15",
      "confidence": 0.97,
      "coordinates": {"x": 450, "y": 130, "width": 100, "height": 25}
    },
    "supplier": {
      "name": "Proveedor Ejemplo S.L.",
      "nif": "B12345678",
      "address": "Calle Mayor 123, 28013 Madrid"
    },
    "customer": {
      "name": "Mi Empresa S.A.",
      "nif": "A87654321",
      "address": "Avenida Principal 45, 08001 Barcelona"
    },
    "line_items": [
      {
        "description": "Producto A",
        "quantity": 10,
        "unit_price": 25.00,
        "total": 250.00
      }
    ],
    "totals": {
      "subtotal": 250.00,
      "vat": 52.50,
      "total": 302.50,
      "currency": "EUR"
    }
  },

  "validation": {
    "status": "validated",
    "errors": [],
    "warnings": ["Image quality could be improved"]
  },

  "metadata": {
    "file_name": "factura_ejemplo.pdf",
    "file_size": 245678,
    "processing_time_ms": 2340
  }
}

Acceso a los Datos

En tu proceso, accede a los datos extraídos:

# Obtener el resultado del OCR
ocr_result = step_output["ocr_document"]

# Acceder a campos específicos
invoice_num = ocr_result["extracted_data"]["invoice_number"]["value"]
total = ocr_result["extracted_data"]["totals"]["total"]
supplier_nif = ocr_result["extracted_data"]["supplier"]["nif"]

# Verificar confianza
if ocr_result["confidence"] > 0.9:
    # Procesamiento automático
    process_automatically(ocr_result)
else:
    # Enviar a revisión
    send_to_review(ocr_result)

Post-procesamiento

Transforma y normaliza los datos extraídos:

Transformaciones Comunes

# Normalizar NIFs (eliminar espacios, guiones)
nif_clean = normalize_nif(extracted_nif)

# Convertir fechas a formato ISO
date_iso = convert_to_iso_date(extracted_date)

# Formatear importes
amount_decimal = parse_currency(extracted_amount)

# Validar y formatear IBAN
iban_formatted = validate_and_format_iban(extracted_iban)

Enriquecimiento de Datos

Complementa los datos extraídos con información externa:

# Buscar proveedor en base de datos
supplier = database.find_supplier_by_nif(extracted_nif)
if supplier:
    ocr_result["supplier_id"] = supplier.id
    ocr_result["supplier_category"] = supplier.category

# Validar códigos de producto
for item in line_items:
    product = database.find_product(item["description"])
    if product:
        item["product_id"] = product.id
        item["product_category"] = product.category

Reglas de Negocio

Aplica lógica específica de tu organización:

# Clasificar factura según importe
if total > 10000:
    approval_level = "director"
elif total > 1000:
    approval_level = "manager"
else:
    approval_level = "supervisor"

# Asignar a departamento según proveedor
department = get_department_by_supplier(supplier_nif)

# Calcular fecha de pago según condiciones
payment_date = calculate_payment_date(
    invoice_date,
    payment_terms,
    holidays_calendar
)

Casos de Uso Prácticos

Automatización de Cuentas por Pagar

Escenario: Procesamiento automático de facturas de proveedores

1. [Email con factura] → [Descargar PDF adjunto]
2. [OCR: Extraer datos de factura]
3. [Validar: NIF proveedor existe en sistema]
4. [Verificar: Cálculos correctos]
5. [Comprobar: Orden de compra asociada]
6. [Si confianza > 95%] → [Registrar automáticamente en ERP]
7. [Si confianza < 95%] → [Enviar a validación humana]
8. [Actualizar estado] → [Notificar a contabilidad]

Beneficios:

Reducción del 80% en tiempo de procesamiento
Eliminación de errores de transcripción
Trazabilidad completa del proceso
Liberación de recursos para tareas de análisis

Gestión de Contratos

Escenario: Extracción de fechas de vencimiento y condiciones clave

1. [Contrato firmado] → [Escanear o cargar PDF]
2. [OCR: Extraer cláusulas y fechas]
3. [IA: Identificar condiciones de renovación]
4. [Extraer: Fechas de vencimiento]
5. [Crear: Alertas en calendario]
6. [Registrar: En sistema de gestión documental]
7. [30 días antes vencimiento] → [Notificar a responsable]

Beneficios:

No perder fechas de renovación
Centralización de condiciones contractuales
Alertas proactivas
Facilita auditorías y revisiones

Control de Gastos

Escenario: Procesamiento de tickets y recibos de empleados

1. [Empleado fotografía ticket] → [Envía por app móvil]
2. [OCR: Extraer comercio, fecha, importe]
3. [Clasificar: Tipo de gasto (comida, transporte, etc.)]
4. [Validar: Dentro de política de empresa]
5. [Asociar: A proyecto o cliente]
6. [Si válido] → [Aprobar automáticamente]
7. [Registrar: En sistema de reembolsos]
8. [Generar: Informe de gastos del mes]

Beneficios:

Proceso inmediato de reembolsos
Cumplimiento de políticas de gastos
Trazabilidad y reporting automático
Mejora experiencia del empleado

Onboarding de Clientes

Escenario: Verificación de identidad y documentación

1. [Cliente sube DNI y documentos] → [Portal web]
2. [OCR: Extraer datos de DNI]
3. [Validar: Número de DNI correcto]
4. [Verificar: Mayor de edad]
5. [Comparar: Datos con formulario completado]
6. [OCR: Procesar documentos adicionales]
7. [Si todo OK] → [Activar cuenta automáticamente]
8. [Si discrepancias] → [Solicitar aclaración]

Beneficios:

Onboarding instantáneo (24/7)
Reducción de abandono
Cumplimiento normativo (KYC)
Experiencia de cliente mejorada

Mejores Prácticas

Preparación de Documentos

Calidad de Imagen

Para maximizar la precisión:

Resolución: Mínimo 300 DPI, óptimo 400-600 DPI
Formato: PDF preferiblemente, o PNG/JPG de alta calidad
Iluminación: Uniforme, sin sombras pronunciadas
Orientación: Documento correctamente alineado
Tamaño: Evitar imágenes demasiado pesadas (> 10MB)

Escaneo

Si escaneas documentos físicos:

Usa modo de escaneo en color o escala de grises
Evita el modo texto puro (menor flexibilidad)
Limpia el cristal del escáner
Aplana documentos arrugados
Escanea una página por archivo

Fotografías con Móvil

Cuando uses el teléfono:

Buena iluminación natural o artificial
Evita brillos y reflejos
Enmarca todo el documento
Mantén el teléfono paralelo al documento
Usa apps con autocorrección de perspectiva

Optimización del Rendimiento

Procesamiento por Lotes

Para volúmenes grandes:

# Procesar múltiples documentos en paralelo
documents = get_pending_documents()

# Dividir en lotes de 10
batches = chunk_list(documents, 10)

for batch in batches:
    results = process_ocr_batch(batch, parallel=True)
    save_results(results)

Caché de Resultados

Evita reprocesar documentos:

# Verificar si ya fue procesado
doc_hash = calculate_hash(document)
cached_result = cache.get(doc_hash)

if cached_result:
    return cached_result
else:
    result = process_ocr(document)
    cache.set(doc_hash, result, expiry=7_days)
    return result

Procesamiento Incremental

Para documentos multipágina:

Procesa páginas en paralelo
Permite early-exit si páginas iniciales indican documento no válido
Muestra progreso al usuario

Gestión de Errores

Tipos de Errores

try:
    result = process_ocr(document)
except OCRError as e:
    if e.type == "unreadable_document":
        notify_user("El documento no es legible. Por favor, mejora la calidad.")
    elif e.type == "unsupported_format":
        notify_user("Formato no soportado. Usa PDF, JPG o PNG.")
    elif e.type == "corrupted_file":
        notify_user("El archivo está corrupto. Vuelve a cargarlo.")
    else:
        log_error(e)
        send_to_support(document, e)

Reintentos Inteligentes

max_retries = 3
retry_count = 0

while retry_count < max_retries:
    try:
        result = process_ocr(document, quality="high")
        break
    except LowConfidenceError:
        retry_count += 1
        if retry_count < max_retries:
            # Reintenta con calidad superior
            document = enhance_image_quality(document)
        else:
            # Envía a revisión manual
            send_to_review_queue(document)

Seguridad y Privacidad

Minimización de Datos

Extrae solo los campos necesarios
No almacenes datos personales innecesariamente
Implementa retención limitada de documentos originales

Cifrado

Cifra documentos en tránsito (HTTPS)
Cifra almacenamiento de documentos sensibles
Usa secretos para credenciales de sistemas externos

Trazabilidad

Registra todas las operaciones:

audit_log = {
    "timestamp": "2024-03-15T10:30:00Z",
    "user": "usuario@empresa.com",
    "action": "ocr_process",
    "document_id": "doc_123456",
    "document_type": "invoice",
    "fields_extracted": ["invoice_number", "total", "supplier_nif"],
    "confidence": 0.94,
    "status": "success"
}

log_to_audit_system(audit_log)

Anonimización

Para documentos con datos personales:

# Anonimizar antes de almacenar para análisis
anonymized = {
    "document_type": result["document_type"],
    "confidence": result["confidence"],
    "processing_time": result["metadata"]["processing_time_ms"],
    # No incluir datos personales
}

store_for_analytics(anonymized)

Solución de Problemas

Baja Precisión en la Extracción

Síntomas: Muchos campos con baja confianza o valores incorrectos

Causas posibles:

Calidad de imagen insuficiente
Documento con formato no estándar
Idioma no configurado correctamente
Tipo de documento mal identificado

Soluciones:

Mejora la calidad de la imagen (mayor resolución, mejor iluminación)
Usa plantillas específicas para documentos no estándar
Verifica que el idioma configurado sea correcto
Especifica manualmente el tipo de documento
Define zonas específicas para campos críticos

Tablas No Reconocidas

Síntomas: Las tablas no se extraen o pierden estructura

Causas posibles:

Líneas de tabla muy tenues
Tabla sin bordes visibles
Celdas fusionadas complejas
Formato de tabla no estándar

Soluciones:

Activa “detección de tabla avanzada” en configuración
Mejora el contraste del documento
Para tablas sin bordes, usa detección por espaciado
Considera extracción manual de tablas complejas
Define la estructura de tabla esperada en la plantilla

Documentos Multipágina

Síntomas: Solo se procesa la primera página

Causas posibles:

Configuración de páginas limitada
Timeout de procesamiento
Documento muy pesado

Soluciones:

Verifica configuración: “Procesar todas las páginas”
Aumenta el timeout de procesamiento
Divide documentos muy grandes (>50 páginas)
Usa procesamiento por lotes para documentos pesados

Caracteres Especiales Mal Interpretados

Síntomas: Símbolos, tildes o caracteres especiales incorrectos

Causas posibles:

Codificación incorrecta
Idioma no configurado
Fuente tipográfica no estándar

Soluciones:

Configura explícitamente el idioma del documento
Verifica la codificación (UTF-8 recomendado)
Para fuentes manuscritas, activa “reconocimiento de escritura”
Aplica post-procesamiento para normalizar caracteres

Procesamiento Lento

Síntomas: El OCR tarda mucho tiempo

Causas posibles:

Documento muy grande o alta resolución
Procesamiento de múltiples páginas
Extracción de muchas tablas
Recursos del sistema limitados

Soluciones:

Reduce la resolución si es > 600 DPI
Procesa páginas en paralelo
Usa procesamiento asíncrono para documentos grandes
Implementa caché para documentos repetidos
Considera escalar recursos del robot

Preguntas Frecuentes

¿Qué precisión tiene el OCR de Heptora?

La precisión varía según el tipo de documento y calidad:

Documentos digitales de calidad: 95-99% de precisión
Documentos escaneados buena calidad: 90-95%
Documentos fotografiados móvil: 85-93%
Documentos baja calidad: 70-85%

Los campos con confianza < 80% se marcan para revisión.

¿Puedo procesar documentos manuscritos?

Sí, pero con limitaciones. La escritura manuscrita legible tiene precisión del 70-85%. Para formularios con campos manuscritos, es mejor combinar OCR automático con revisión humana de esos campos específicos.

¿Cuántos documentos puedo procesar al mes?

Depende de tu plan de Heptora. El OCR consume créditos basados en:

Número de páginas procesadas
Complejidad del documento (tablas, baja calidad)
Funciones avanzadas (IA, validación)

Consulta tu panel de uso o contacta con ventas.

¿Los documentos se almacenan en la nube?

Depende de tu configuración:

Modo local: Documentos procesados solo en el robot local, no se envían a la nube
Modo híbrido: Se envía el documento para procesamiento pero no se almacena permanentemente
Modo cloud: Documentos almacenados según tu configuración de retención

Elige según tus requisitos de privacidad.

¿Puedo entrenar el OCR con mis documentos?

Sí. Puedes crear plantillas personalizadas entrenando el sistema con ejemplos de tus documentos específicos. Esto mejora significativamente la precisión para formatos propietarios o no estándar.

¿El OCR funciona offline?

El procesamiento básico puede funcionar localmente en el robot, pero las funciones avanzadas de IA (clasificación, validación semántica) requieren conectividad. Configura el modo según tus necesidades.

¿Qué hago con campos que siempre tienen baja confianza?

Para campos problemáticos recurrentes:

Define una zona específica para ese campo
Ajusta los parámetros de validación
Crea una plantilla personalizada
Considera post-procesamiento específico
Si persiste, implementa validación humana solo para ese campo

¿Necesitas más ayuda?

Si esta guía no resolvió tu problema o encontraste algún error en la documentación:

Soporte técnico: help@heptora.com
Describe el tipo de documento que intentas procesar
Incluye un ejemplo de documento (sin datos sensibles)
Indica los campos específicos con problemas
Menciona la confianza obtenida en los campos

Nuestro equipo te ayudará a optimizar el OCR para tus documentos específicos.

Recursos Relacionados

Constructor de Procesos - Cómo crear automatizaciones con OCR
Validación de Datos - Reglas avanzadas de validación (próximamente)
Integraciones con ERP - Conecta datos extraídos con tu ERP (próximamente)
Gestión de Secretos - Protege credenciales de sistemas externos