In-place-PDF-Neuaufbau – warum dies die anspruchsvollste Aufgabe im DTP ist
Die anspruchsvollste DTP-Aufgabe ist jene, bei der keine Quelldatei vorliegt. Eine französische Steuererklärung, ein deutsches CE-Sicherheitsdatenblatt, eine klinische Patienteninformation (PIL), eine Patentanmeldung – all dies sind PDFs, die der Kunde von einer Behörde oder einer Agentur erhalten hat, ohne editierbare InDesign- oder Word-Vorlage im Hintergrund. Die meisten Übersetzungsagenturen handhaben dies, indem sie den Text in ein Word-Dokument extrahieren, übersetzen und die Übersetzung als neues Dokument zurücksenden, das nicht mit der Vorlage der Behörde übereinstimmt. Dies ist für behördliche Einreichungen inakzeptabel – die Behörde erwartet das Originalformular zurück, in der Zielsprache, und es soll exakt wie das Original aussehen.
Das technische Problem
PDFs speichern Text nicht als Text. Sie speichern Text als Sequenz von Glyph-Operationen: „zeichne Zeichen 67 aus Schriftart Helvetica an Koordinate (123, 456)". Die meisten Agenturen verwenden einen PDF-zu-Word-Konverter, der die Koordinateninformationen und die Schriftartreferenzen verliert; das Ergebnis ist editierbar, aber visuell nicht mit der Quelle verwandt. Die nächste Agenturebene verwendet Adobes „Exportieren nach InDesign" – dies bewahrt mehr Layout, scheitert aber an drei Inhaltskategorien:
- Umrissene Glyphen. Viele behördliche Formulare (impots.gouv.fr, deutsche Steuererklärung, AEMPS) wandeln ihre Textbezeichnungen bei der Veröffentlichung in einen Vektorpfad um. Der Extraktor von Acrobat liest umrissenen Text als Grafik, nicht als Zeichenkette. Der Übersetzer sieht die Feldbezeichnung nie und die Behörde sieht ihre Vorlage nie zurück.
- Formularfelder. AcroForm- und XFA-Felder haben ihre eigenen Text- und Schriftartreferenzen. Das Extrahieren des umgebenden Textes ohne die Feldbezeichnungen erzeugt ein halb übersetztes Dokument.
- Gescannte Hybride. Ein PDF, das teils vektorbasiert, teils rasterbasiert ist (typisch für von Behörden bereitgestellte Dokumente mit einem gescannten Unterschriftenblock), benötigt OCR für den Rasteranteil und koordinatenerhaltende Extraktion für den Vektoranteil. Ein einzelnes Tool kann nicht beides handhaben.
Unsere Engine
Wir haben unsere PDF-Engine speziell für diese Kategorie entwickelt. Sie zählt jede textzeichnende Operation im PDF auf, einschließlich umrissener Glyphen (durch Erkennung gängiger Label-Schriftarten und Rück-Mapping des Pfads zu Zeichen), liest Formularfeldbezeichnungen und Tooltips, führt OCR über Rasterbereiche aus und produziert ein Übersetzungsmanifest pro Segment. Der Übersetzer arbeitet im Manifest; die Engine schreibt die Übersetzung an den Quellkoordinaten zurück. Formularfelder bleiben erhalten; die Behörde sieht dasselbe Formular in ihrer Zielsprache mit den richtigen Feldbezeichnungen.
Was dies liefert
Eine französische Steuererklärung, die wie eine französische Steuererklärung aussieht. Ein deutsches CE-Datenblatt, das der Vorlage der deutschen Behörde entspricht. Eine Patienteninformation, die die EMA beim ersten Review akzeptiert. Wir wurden hierfür entwickelt; die meisten Agenturen nicht.