إعادة بناء PDF في الموضع — لماذا هذه أصعب مهمة في النشر المكتبي
أصعب مهمة في النشر المكتبي هي التي لا يوجد فيها ملف مصدر. إقرار ضريبي فرنسي، نشرة سلامة CE ألمانية، نشرة معلومات المريض السريرية (PIL)، إيداع براءة اختراع — كل هذه ملفات PDF تلقّاها العميل من جهة تنظيمية أو وكالة، دون وجود نسخة InDesign أو Word قابلة للتحرير خلفها. تتعامل معظم وكالات الترجمة مع هذا باستخراج النص إلى مستند Word، وترجمته، وإعادة إرسال الترجمة كمستند جديد لا يطابق قالب الجهة التنظيمية. هذا غير مقبول للإيداعات — تتوقع الجهة التنظيمية النموذج الأصلي بلغة الهدف، بمظهر مطابق تمامًا للأصل.
المشكلة التقنية
لا تخزّن ملفات PDF النص كنص. تخزّنه كسلسلة من عمليات الحروف الرسومية: "ارسم الحرف 67 من خط Helvetica عند الإحداثي (123، 456)". تستخدم معظم الوكالات محوّل PDF إلى Word يفقد معلومات الإحداثيات ومراجع الخطوط؛ النتيجة قابلة للتحرير لكن غير مرتبطة بصريًا بالمصدر. المستوى التالي من الوكالات يستخدم "التصدير إلى InDesign" في Adobe Acrobat — يحفظ هذا المزيد من التخطيط لكنه يفشل في ثلاث فئات من المحتوى:
- الحروف الرسومية المُحَدّدة. تحوّل العديد من النماذج التنظيمية (impots.gouv.fr، Steuererklärung الألمانية، AEMPS) تسمياتها النصية إلى مسار رسومي عند النشر. يقرأ مستخرج Acrobat النص المُحَدّد كرسم، وليس سلسلة نصية. لا يرى المترجم تسمية الحقل أبدًا ولا ترى الجهة التنظيمية قالبها مُعادًا.
- حقول النماذج. حقول AcroForm وXFA لها مراجع نص وخطوط خاصة. استخراج النص المحيط دون تسميات الحقول ينتج مستندًا مترجمًا جزئيًا.
- الهجينات الممسوحة ضوئيًا. ملف PDF جزء منه رسومي وجزء نقطي (نموذجي للمستندات المقدمة من الجهات التنظيمية مع كتلة توقيع ممسوحة ضوئيًا) يحتاج إلى OCR على الجزء النقطي واستخراج محفوظ الإحداثيات على الجزء الرسومي. لا يمكن لأداة واحدة التعامل مع الاثنين.
محركنا
بنينا محرك PDF الخاص بنا خصيصًا لهذه الفئة. يُعدّد كل عملية رسم نص في PDF، بما في ذلك الحروف الرسومية المُحَدّدة (بالكشف عن خطوط التسميات الشائعة وإعادة تعيين المسار إلى الأحرف)، ويقرأ تسميات حقول النماذج والتلميحات، ويشغّل OCR على المناطق النقطية، وينتج قائمة ترجمة لكل قطعة نص. يعمل المترجم في القائمة؛ يكتب المحرك الترجمة عند إحداثيات المصدر. تُحفَظ حقول النماذج؛ ترى الجهة التنظيمية النموذج نفسه، بلغة الهدف، مع تسميات الحقول الصحيحة.
ما يقدّمه هذا
إقرار ضريبي فرنسي يبدو كإقرار ضريبي فرنسي. نشرة CE ألمانية تطابق قالب الجهة التنظيمية الألمانية. نشرة معلومات مريض تقبلها EMA في المراجعة الأولى. بُنينا لهذا؛ معظم الوكالات لم تُبنَ.