Reconstrucción PDF in situ: por qué es el trabajo más difícil en DTP
El trabajo DTP más difícil es aquel en el que no existe archivo fuente. Una declaración fiscal francesa, un prospecto de seguridad CE alemán, un prospecto de información al paciente (PIL) clínico, una solicitud de patente: todos son archivos PDF que el cliente recibió de un regulador o una agencia, sin un original editable de InDesign o Word detrás. La mayoría de las agencias de traducción lo gestiona extrayendo el texto a un documento Word, traduciendo y devolviendo la traducción como un documento nuevo que no coincide con la plantilla del regulador. Esto es inaceptable para presentaciones: el regulador espera recibir el formulario original, en el idioma de destino, con exactamente el mismo aspecto que el original.
El problema técnico
Los archivos PDF no almacenan texto como texto. Almacenan texto como una secuencia de operaciones de glifo: "dibujar carácter 67 de la fuente Helvetica en la coordenada (123, 456)". La mayoría de las agencias utilizan un convertidor PDF-a-Word que pierde la información de coordenadas y las referencias de fuente; el resultado es editable pero visualmente no guarda relación con el origen. El siguiente nivel de agencia usa la función «Exportar a InDesign» de Adobe Acrobat, que conserva más maquetación pero falla en tres categorías de contenido:
- Glifos contorneados. Muchos formularios regulados (impots.gouv.fr, Steuererklärung alemán, AEMPS) contornean sus etiquetas de texto en una trayectoria vectorial en la publicación. El extractor de Acrobat lee el texto contorneado como un gráfico, no como una cadena. El traductor nunca ve la etiqueta del campo y el regulador nunca ve su plantilla devuelta.
- Campos de formulario. Los campos AcroForm y XFA tienen sus propias referencias de texto y fuente. Extraer el texto circundante pero no las etiquetas de campo produce un documento traducido a medias.
- Híbridos escaneados. Un PDF que es parte vector, parte ráster (típico en documentos suministrados por reguladores con un bloque de firma escaneada) necesita OCR en la parte ráster y extracción con conservación de coordenadas en la parte vectorial. Una sola herramienta no puede gestionar ambas.
Nuestro motor
Construimos nuestro motor PDF específicamente para esta categoría. Enumera cada operación de dibujo de texto en el PDF, incluidos los glifos contorneados (detectando fuentes de etiqueta comunes y mapeando inversamente la trayectoria a caracteres), lee etiquetas y descripciones de campos de formulario, ejecuta OCR sobre regiones ráster y produce un manifiesto de traducción por segmento. El traductor trabaja en el manifiesto; el motor escribe la traducción en las coordenadas de origen. Los campos de formulario se conservan; el regulador ve el mismo formulario, en su idioma de destino, con las etiquetas de campo correctas.
Qué ofrece esto
Una declaración fiscal francesa que parece una declaración fiscal francesa. Un prospecto CE alemán que coincide con la plantilla del regulador alemán. Un prospecto de información al paciente que la EMA acepta en la primera revisión. Fuimos construidos para esto; la mayoría de las agencias no.