Reconstruction PDF sur place — pourquoi c'est le travail le plus difficile en PAO
Le travail de PAO le plus difficile est celui où il n'existe pas de fichier source. Une déclaration fiscale française, une notice de sécurité CE allemande, une notice d'information patient (PIL) clinique, un dépôt de brevet — tous ces documents sont des PDF que le client a reçus d'un régulateur ou d'une agence, sans original modifiable InDesign ou Word derrière. La plupart des agences de traduction gèrent cela en extrayant le texte dans un document Word, en traduisant, et en renvoyant la traduction sous forme de nouveau document qui ne correspond pas au modèle du régulateur. C'est inacceptable pour les dépôts — le régulateur s'attend à recevoir le formulaire original, dans la langue cible, avec exactement la même apparence que l'original.
Le problème technique
Les PDF ne stockent pas le texte en tant que texte. Ils stockent le texte sous forme de séquence d'opérations de glyphes : « dessiner le caractère 67 de la police Helvetica aux coordonnées (123, 456) ». La plupart des agences utilisent un convertisseur PDF vers Word qui perd les informations de coordonnées et les références de police ; le résultat est modifiable mais visuellement sans rapport avec la source. Le niveau suivant d'agence utilise « Exporter vers InDesign » d'Adobe Acrobat — cela préserve davantage la mise en page mais échoue sur trois catégories de contenu :
- Glyphes vectorisés. De nombreux formulaires réglementaires (impots.gouv.fr, Steuererklärung allemande, AEMPS) vectorisent leurs libellés de texte en tracé vectoriel lors de la publication. L'extracteur d'Acrobat lit le texte vectorisé comme un graphique, pas comme une chaîne. Le traducteur ne voit jamais le libellé de champ et le régulateur ne revoit jamais son modèle.
- Champs de formulaire. Les champs AcroForm et XFA ont leurs propres références de texte et de police. Extraire le texte environnant mais pas les libellés de champs produit un document à moitié traduit.
- Hybrides numérisés. Un PDF partiellement vectoriel, partiellement matriciel (typique pour les documents fournis par les régulateurs avec un bloc de signature numérisé) nécessite l'OCR sur la partie matricielle et une extraction avec préservation des coordonnées sur la partie vectorielle. Un outil unique ne peut pas gérer les deux.
Notre moteur
Nous avons conçu notre moteur PDF spécifiquement pour cette catégorie. Il énumère chaque opération de dessin de texte dans le PDF, y compris les glyphes vectorisés (en détectant les polices de libellés courantes et en remappant inversement le tracé vers les caractères), lit les libellés et infobulles des champs de formulaire, exécute l'OCR sur les régions matricielles, et produit un manifeste de traduction par segment. Le traducteur travaille dans le manifeste ; le moteur réécrit la traduction aux coordonnées sources. Les champs de formulaire sont préservés ; le régulateur voit le même formulaire, dans sa langue cible, avec les bons libellés de champs.
Ce que cela fournit
Une déclaration fiscale française qui ressemble à une déclaration fiscale française. Une notice CE allemande qui correspond au modèle du régulateur allemand. Une notice d'information patient que l'EMA accepte dès la première révision. Nous avons été conçus pour cela ; la plupart des agences ne l'ont pas été.