Reconstrução PDF in-place — por que este é o trabalho mais difícil em DTP
O trabalho de DTP mais difícil é aquele em que não há arquivo-fonte. Uma declaração de imposto francesa, um folheto de segurança CE alemão, uma bula de medicamento (PIL), um registro de patente — todos esses são PDFs que o cliente recebeu de um órgão regulador ou agência, sem nenhum original editável em InDesign ou Word por trás deles. A maioria das agências de tradução resolve isso extraindo o texto para um documento Word, traduzindo e enviando a tradução de volta como um documento novo que não corresponde ao modelo do regulador. Isso é inaceitável para registros — o regulador espera receber o formulário original de volta, no idioma-alvo, com a mesma aparência do original.
O problema técnico
PDFs não armazenam texto como texto. Eles armazenam texto como uma sequência de operações de glifo: "desenhe o caractere 67 da fonte Helvetica na coordenada (123, 456)". A maioria das agências usa um conversor PDF para Word que perde as informações de coordenadas e as referências de fonte; o resultado é editável, mas visualmente não relacionado à fonte. O próximo nível de agência usa o "Exportar para InDesign" do Adobe Acrobat — isso preserva mais layout, mas falha em três categorias de conteúdo:
- Glifos contornados. Muitos formulários regulatórios (impots.gouv.fr, Steuererklärung alemão, AEMPS) convertem seus rótulos de texto em caminhos vetoriais na publicação. O extrator do Acrobat lê texto contornado como gráfico, não como string. O tradutor nunca vê o rótulo do campo e o regulador nunca vê seu modelo de volta.
- Campos de formulário. Campos AcroForm e XFA têm suas próprias referências de texto e fonte. Extrair o texto ao redor, mas não os rótulos dos campos, produz um documento meio traduzido.
- Híbridos digitalizados. Um PDF que é parte vetor, parte raster (típico para documentos fornecidos por reguladores com um bloco de assinatura digitalizado) precisa de OCR na porção raster e extração com coordenadas preservadas na porção vetorial. Uma única ferramenta não consegue lidar com ambos.
Nosso motor
Construímos nosso motor PDF especificamente para essa categoria. Ele enumera cada operação de desenho de texto no PDF, incluindo glifos contornados (detectando fontes de rótulos comuns e mapeando reversamente o caminho de volta para caracteres), lê rótulos e dicas de campos de formulário, executa OCR sobre regiões raster e produz um manifesto de tradução por trecho. O tradutor trabalha no manifesto; o motor escreve a tradução de volta nas coordenadas de origem. Os campos de formulário são preservados; o regulador vê o mesmo formulário, em seu idioma-alvo, com os rótulos de campo corretos.
O que isso entrega
Uma declaração de imposto francesa que parece uma declaração de imposto francesa. Um folheto CE alemão que corresponde ao modelo do regulador alemão. Uma bula de medicamento que a EMA aceita na primeira revisão. Fomos construídos para isso; a maioria das agências não foi.