原位 PDF 引擎

受监管文档 DTP 与 PDF 原位重建

我们为监管类多语言文档提供原位重构服务:税务表格、临床患者信息传单、专利文件、年度报告和 CE 安全包。简而言之——您的译稿在任意语言下都与原件外观完全一致,即便背后没有可编辑的源文件。我们的 PDF 引擎在源坐标处提取文本——包括击败纯 OCR 供应商的轮廓矢量字形——并将译文精确写回原位置。由受训的 DTP 操作员在内部处理母语阿拉伯语、波斯语、乌尔都语、普什图语、CJK 和印度语系排版。符合 ISO 17100 流程,逐跨度审计跟踪,交付印刷就绪文件。

ISO 17100 + GDPR Cardiff, UK

最近更新

查看样本 五种语言排版的多语言手册——内容一致,每种文字均采用其原生排版。 下载 PDF · PDF · 501 KB
我们的服务

专业能力服务于 受监管文档 DTP 与 PDF 原位重建

PDF 原位重建

按源坐标替换复杂 PDF 中的文字。我们翻译税单、临床表单与监管文件而不破坏原版面——包括仅做 OCR 的供应商会悄悄丢失的轮廓化矢量字形。

监管表单专长

法国 impots.gouv.fr、德国 CE 安全、西班牙 AEMPS、意大利 Agenzia Entrate、英国 HMRC 模板。我们已摸清每个监管机构的文本存储方式,也清楚劣质工具在哪些环节会失败。

临床与制药文件包

患者信息单(PIL)、SmPC、研究者手册、知情同意书(ICF)——按 EMA、MHRA、FDA 的模板要求格式化,并附完整审计留痕。

法律与专利申报

涉外专利申请、专利权利要求、合同卷宗、法庭证物。版面完美的译文可直接用于 40+ 司法辖区的法庭提交或知识产权登记。

公司合规报告

年报、可持续发展申报、投资者演示文稿——按 LSE、AIM 及目标国家的信息披露要求格式化。Pantone 对色、CMYK 就绪、印前规范。

品牌锁定的营销物料

基于 InDesign、Illustrator、Photoshop 的工作流,支持 RTL 镜像、CJK 竖排文字以及文字膨胀处理。适用于品牌焕新当日同时发布 12 种语言的场景。

01 深度解析 · 01 / 06

原位 PDF 重构 — 为何这是 DTP 中最艰难的工作

最艰难的 DTP 工作是没有源文件的情况。法语纳税申报表、德语 CE 安全传单、临床患者信息传单(PIL)、专利文件——所有这些都是客户从监管机构或代理机构收到的 PDF,背后没有可编辑的 InDesign 或 Word 原文件。大多数翻译机构的处理方式是将文本提取到 Word 文档中进行翻译,然后将译文作为新文档发回,该文档与监管机构的模板不匹配。这对于备案提交是不可接受的——监管机构期望收回原始表格的目标语言版本,看起来与原件完全一致。

01

技术难题

PDF 不以文本形式存储文本。它们将文本存储为一系列字形操作:「在坐标 (123, 456) 处用 Helvetica 字体绘制字符 67」。大多数机构使用 PDF 到 Word 转换器,这会丢失坐标信息和字体引用;结果虽然可编辑,但在视觉上与源文件无关。更高级别的机构使用 Adobe Acrobat 的「导出到 InDesign」——这保留了更多布局,但在三类内容上会出现问题:

  • 轮廓字形。许多监管表格(impots.gouv.fr、德国 Steuererklärung、AEMPS)在发布时将文本标签转为矢量路径轮廓。Acrobat 的提取器将轮廓文本读取为图形而非字符串。译者看不到字段标签,监管机构也看不到其模板的译文。
  • 表单字段。AcroForm 和 XFA 字段有其自己的文本和字体引用。提取周围文本但不提取字段标签会产生半翻译文档。
  • 扫描混合文档。部分矢量、部分光栅的 PDF(典型情况是监管机构提供的带有扫描签名块的文档)需要对光栅部分进行 OCR,并对矢量部分进行保留坐标的提取。单一工具无法同时处理两者。
02

我们的引擎

我们专门为此类别构建了 PDF 引擎。它枚举 PDF 中的每个文本绘制操作,包括轮廓字形(通过检测常见标签字体并将路径反向映射回字符)、读取表单字段标签和工具提示、对光栅区域运行 OCR,并生成逐跨度翻译清单。译者在清单中工作;引擎将译文写回源坐标处。表单字段得以保留;监管机构看到的是相同表格的目标语言版本,带有正确的字段标签。

03

交付成果

看起来像法语纳税申报表的法语纳税申报表。符合德国监管机构模板的德语 CE 传单。EMA 首次审查即可接受的患者信息传单。我们为此而生;大多数机构并非如此。

02 深度解析 · 02 / 06

RTL 排版 — 阿拉伯语、波斯语、乌尔都语、普什图语

RTL 排版是英国 DTP 中最大的技能缺口。大多数机构拥有 InDesign 但未启用中东和北非排版引擎,没有阿拉伯语排版师,而是将工作外包给开罗或贝鲁特的工作室。往返过程引入延迟、版本偏差,以及经常中断的译者-排版师交接。我们在卡迪夫内部完成此项工作,由已交付此类工作十余年的母语阿拉伯语排版师完成。

01

Adobe World-Ready Composer

InDesign 默认附带的段落排版引擎无法正确处理阿拉伯语——它会破坏连字、行间距逻辑错误,并且无法应用上下文形式。修复方法是启用 Adobe World-Ready Paragraph Composer(在 InDesign ME 版本中通过「类型 → 段落 → World-Ready Paragraph Composer」,或在标准版本中通过脚本启用)。大多数运行标准 InDesign 的机构不启用它,交付的阿拉伯语在视觉上有缺陷,母语读者一眼就会拒绝。

02

连字和上下文形式

阿拉伯语字形根据其在单词中是孤立、词首、词中还是词尾而改变形状。正确排版的阿拉伯语段落通过 OpenType initmedifinaisol 特性自动应用正确形式。字体在实现这些特性方面的表现各不相同——Tajawal、Cairo、Noto Sans Arabic 和 Adobe Arabic 较为可靠。免费存储库中的许多「阿拉伯语」字体并非如此,生成的文本让母语读者一眼就能认出是外国制作。

03

混合内容中的双向流

包含英文品牌名称或数字的阿拉伯语段落双向流动。Unicode 双向算法处理大多数情况,但边界处的标点符号(阿拉伯语句子中英文品牌后的句号)通常被放置在品牌的错误一侧。我们使用 Unicode 方向格式标记(RLM、LRM)正确锚定标点符号,并在最终布局上校对——而非在 InDesign 编辑器中,因为算法的行为与导出的 PDF 不同。

04

数字:阿拉伯-印度数字与西方数字

阿拉伯语内容可以使用阿拉伯-印度数字(٠١٢٣٤٥٦٧٨٩)或西方数字(0123456789);选择取决于地区惯例和客户内部风格。我们在开始前确认,并配置 InDesign 字符样式以在整个文档中保持一致性。混合使用两种数字的文档是地区性错误。

05

波斯语和乌尔都语

波斯语和乌尔都语共享阿拉伯文字,但具有不同的字形形状、额外字符(波斯语的 پ、乌尔都语的 ٹ)和不同的排版惯例。Nastaliq 是主流的乌尔都语字体;Naskh 是波斯语的主流字体。将三者都视为「阿拉伯语」是最常见的错误;我们配备按语言分工的排版师。

03 深度解析 · 03 / 06

CJK、泰语和印度语系排版

亚洲文字各有一套独立的排版要求,拉丁文字培训的排版师经常忽略这些要求。我们由受过该文字培训的操作员在内部处理每种文字。

01

中文(简体和繁体)

中文没有词间空格;换行可以发生在任何字符边界。InDesign 的 CJK 排版引擎在启用时可正确处理此问题。标点禁则规则——中文全角标点不能出现在行首——需要显式配置。竖排(用于传统场景、书籍和某些营销布局)需要单独的排版引擎和框架设置。简体中文使用一套标点惯例和中华人民共和国正字法;繁体中文使用另一套,我们根据目标地区按台湾或香港内部风格校对。

02

日语

日语混合三种文字(汉字、平假名、片假名)以及拉丁字符和数字。注音文本(振假名——汉字上方的小型拼音读法)是某些内容类别(学校教材、无障碍内容)所必需的。竖排在传统场景中很常见。换行规则比中文更宽松,但仍有禁则约束。

03

韩语

韩语谚文使用词间空格(与中文和日语不同)。两端对齐和字距调整的表现与拉丁文字不同;韩语读者期望比拉丁文字默认值更紧密的行距。汉字(韩语语境中的汉字)出现在学术和法律文档中,需要字体回退处理。

04

泰语

泰语是最常让天真的排版师崩溃的文字。没有词间空格——换行必须从词典推断。InDesign 的泰语排版引擎使用内置词典;对于不在词典中的技术术语,需要手动插入零宽度空格。声调标记堆叠在辅音上方,不能换行到下一行。大多数英国排版师没有泰语操作员;我们有。

05

印度语系文字:天城文、孟加拉文、泰米尔文、泰卢固文、古吉拉特文、旁遮普文、马拉雅拉姆文

印度语系文字使用复杂塑形——辅音连接组合成连字,取决于辅音簇和活动字体的 OpenType 表。天真的排版师会产生视觉上破损的天城文,连字无法形成。Noto Sans Devanagari、Adobe 的 Devanagari Sangam MN 以及少数其他字体能正确处理塑形。我们在最终字体上测试,而非在回退字体上。对于技术文档,我们还在政府监管机构期望的地区字体上测试(例如,某些印度政府表格使用 Mangal)。

04 深度解析 · 04 / 06

文本扩展、框架重排和德语问题

翻译会改变字数。德语平均比英语长 30-40%。阿拉伯语平均长 25%。俄语平均长 15-20%。中文通常较短。天真的排版师交付的德语版本会有截断的按钮、溢出的文本框和损坏的分页;监管机构在首次审查时即拒绝该文档。

01

我们的扩展处理方法

  • 框架自动调整大小 — 源 InDesign 文件中的每个文本框都设置为根据其内容自动调整大小。框架增长;布局适应。这是扩展相关错误的最大来源,也是最简单的修复方法。
  • 样式表扩展预算 — 我们为每种目标语言发布样式表,显示手动重排前允许的最大扩展。译者在翻译时看到预算;如果字符串超出,他们可以请求重新措辞或标记约束。
  • 重排规则 — 我们在范围界定时商定每个文档的重排规则。常见规则:分页可以移动;章节标题不可拆分;表格可以溢出到下一页;图表标题与其图表保持在一起。规则被记录并一致应用。
  • 页数变更报告 — 交付时我们发布页数对比:源文件 40 页,德语 48 页,阿拉伯语 47 页,中文 36 页。客户在打开文件前就知道他们会得到什么。
02

制药案例

制药患者信息传单是高风险案例。EMA 和 MHRA 要求特定章节标题,按特定顺序排列,不得截断。德语扩展通常将 4 页 PIL 推至 6 页;只要章节完整性得到保留,监管机构接受页数变更。我们针对每个 PIL 遵循 EMA 的 QRD 模板,并根据当前模板版本进行校对(模板会变更;我们持续监控)。

05 深度解析 · 05 / 06

印刷规格、色彩管理和 PDF/X

将要印刷的文档需要按照您的印刷厂期望的印刷就绪状态离开我们这里。这是一项独立于翻译的技能,大多数翻译机构无法做到;我们拥有内部印前操作员,按规格交付。

01

我们支持的印刷规格

  • PDF/X-1a:2001 — 传统标准,仅限 CMYK,所有字体嵌入。某些印刷厂和大多数报纸系统仍需此标准。
  • PDF/X-4 — 现代标准,原生支持透明度、RGB 和 CMYK、ICC 色彩配置文件。我们新工作的默认标准;大多数现代印刷机都支持。
  • PDF/A — 用于长期存档(监管机构备案通常需要)。PDF/A-1b 是保守选择;PDF/A-2 和 -3 增加了功能。
  • 标记和出血 — 默认情况下包含印刷标记、套准标记、色条和 3mm 出血;可根据印刷合同配置。
02

色彩管理

CMYK 转换需要了解目标印刷机:欧洲涂布纸使用 Fogra 39 / 51,北美使用 GRACoL 2006,日本使用 JC2011。我们嵌入正确的 ICC 配置文件,如果印刷厂提供配置文件,则根据软打样进行校对。Pantone 专色作为专色保留到制版阶段。

03

字体嵌入和许可

使用的每种字体都必须嵌入到最终 PDF 中(PDF/X 要求如此)。字体铸造厂许可在其许可范围内各不相同——Monotype、Linotype 和 Adobe Originals 许可是明确的;某些商业字体禁止嵌入,需要在导出前替换。我们审核字体堆栈,并在许可要求的情况下进行替换。

04

交接给您的印刷厂

我们交付 InDesign 包(或印刷就绪 PDF,取决于范围)、记录出血、标记、色彩配置文件和纸张建议的印刷规格表,以及用于视觉签字的软打样 PDF。您的印刷厂应该能够在无需往返的情况下对文件进行制版。

06 深度解析 · 06 / 06

面向监管行业的多语言桌面排版服务

我们的大部分 DTP 工作是监管内容:制药、法律、金融、政府。每个类别都有自己的交付标准,我们的流程围绕这些标准构建。

01

制药:PIL、SmPC、IB、ICF

患者信息传单和产品特性摘要遵循 EMA QRD 模板;研究者手册遵循 ICH E6 指南;知情同意书遵循 IRB 或 REC 模板。我们遵循当前模板版本(模板会修订;我们持续监控)并按照监管机构的提交格式交付(SmPC 为 XML,PIL 为 PDF,完整提交为 eCTD)。逐跨度审计跟踪对于受监管的制药工作是强制性的;我们发布这些跟踪。

02

专利和知识产权:PCT、EPO、USPTO

专利申请的格式要求因办公室而异。EPO 接受 XML 和 PDF;USPTO 要求特定字体大小和边距;PCT 提交有特定语言的摘要。我们按照办公室的当前规范工作并据此交付。图纸单独翻译——图示标注为目标语言,编号方案相同。

03

法律:法庭文件包、仲裁包

英国法庭提交需要特定的文件包格式(单个 PDF、分页、编制索引、超链接)。我们用目标语言重建文件包,具有相同的分页和索引结构。对于国际仲裁,我们按照程序令的规范工作,每个案例各不相同。

04

金融:年度报告、招股说明书、KID

年度报告遵循各市场的上市规则(LSE、AIM、NASDAQ、Euronext)规定的章节要求;招股说明书遵循招股说明书法规;KID 遵循 PRIIPs。我们与您的金融翻译团队(通常是我们——参见金融翻译)协调,确保文案、数字和布局保持同步。

05

政府:税务、移民、民事登记

这是原位 PDF 重构最困难的类别,因为表格在各地方办公室之间存在差异。我们处理过法国 impots.gouv.fr、德国 Steuererklärung(多个联邦州)、西班牙 AEMPS 药物警戒表格、意大利 Agenzia Entrate 以及多个英国 HMRC 表格。我们的内部库中记录了各办公室的 PDF 存储惯例;我们在开始前就知道会遇到什么。

工作流程

我们的端到端流程

  1. 1

    1. 源文件分析与风险扫描

    我们用自研的取证式提取器扫描您的 PDF,识别文本段、轮廓化字形、嵌入字体、表单字段、扫描区域及所引用的监管模板。报价之前,我们就已经知道哪些环节会让廉价供应商翻车。

  2. 2

    2. 专家分派与路由

    我们为每个内容块分配合适的翻译引擎(我们的专业语言学家),并匹配具有专业背景的语言学家——临床内容交给制药专家,专利交给知识产权律师,法庭卷宗交给宣誓译员。

  3. 3

    3. 原位翻译

    引擎按源坐标将译文写回原位置。文字膨胀(德语 +30%、阿拉伯语 +25%)通过文本框自动适应与回流规则处理,保留视觉平衡。

  4. 4

    4. RTL 与复杂字体格式化

    对于阿拉伯语、波斯语、乌尔都语、普什图语:镜像布局、双向文本处理正确的混排内容、真机渲染校验。对于 CJK:竖排文字支持、注音文字、按字符正确断行。

  5. 5

    5. 三重 QA——语言、视觉、监管

    二审语言学家签字确认语义。对照源文件进行并列视觉比对。按目标监管机构当前规范进行模板校验,规范每季度更新。

  6. 6

    6. 可审计的交付

    印刷就绪的 PDF(CMYK,PDF/X-1a 或 X-4)、打包的源文件、完整的翻译记忆库导出,以及可交付任何监管机构的按段审计日志。通过 LingoSecure 门户加密下载交付。

服务对象

为这些团队打造

制药与生命科学

  • 患者信息单(PIL)
  • SmPC 与研究者手册
  • 临床试验方案与 ICF
  • EMA / MHRA / FDA 申报
  • 医疗器械使用说明(IFU)
  • 药物警戒报告

法律与知识产权

  • 涉外专利申请
  • 法庭证物卷宗
  • 国际仲裁文件
  • 跨境并购披露包
  • 商标与外观设计申报
  • 宣誓文件重建

金融与公司

  • 年报与可持续发展报告
  • 投资者演示文稿(LSE/AIM)
  • 基金招募说明书与 KID
  • 税务申报与报表包
  • 公司治理文件
  • 监管合规文件包

制造与工程

  • 技术手册(200+ 页)
  • CE / UL 安全文档
  • 装配说明与图示
  • 备件目录
  • RFP 与投标文件
  • 维护与服务指南
团队选择我们的理由

Lingo Service 为您提供的价值

其他供应商退回来不格式化的文档,我们能翻译

我们的 PDF 引擎能处理轮廓化矢量字形、扫描后打印再扫描的混合件,以及把标签存为 Arial-BoldMT 轮廓的表单。这正是法国税单常常被其他供应商搞坏的原因——也是我们能做对的原因。

截止日就是截止日

监管申报的截止日无法后移。我们从您的申报日期倒排工期,并内置语言与视觉 QA 的缓冲时间,每个里程碑都记录在 LingoSecure 门户中。

完整审计留痕

每一段翻译都会留痕——谁翻译的、何时完成、源自哪份文件、由哪款引擎辅助。当监管机构对某个措辞提出疑问时,我们有凭有据。

RTL 是我们的主场

阿拉伯语、波斯语、乌尔都语、普什图语——我们绝不外包。镜像布局、双向文本处理正确的混排内容、目标设备的真机渲染校验。英语↔阿拉伯语是我们的头号语言对。

常见问题

常见问题解答

其他供应商退回的法国税单或监管表单版面损坏了,你们能修复吗?
可以。把原件和损坏的输出发给我们。我们按源坐标原位重建,并返回一份与原模板完全一致的 PDF——包括大多数英国同行的工具会悄悄丢失的轮廓化矢量字形。这是其他人因为工作流无法支持而拒绝接的活儿;我们的引擎正是为此打造。
这与普通的 DTP 或翻译有何不同?
普通的 DTP 需要可编辑的源文件(InDesign、Word),并手动重建版面——对 200 页的监管文件而言缓慢、昂贵且易错。普通翻译返回不带格式的 Word,把版面丢给您处理。我们的方法直接作用于 PDF,保留坐标,处理表单字段、轮廓化字形与矢量/扫描混合内容。同等或更优的质量,只耗费一小部分项目管理工时。
你们处理面向 EMA、MHRA、FDA 申报的临床试验文件吗?
处理。患者信息单、SmPC、研究者手册、ICF 与试验方案翻译——按监管机构当前模板格式化,附按段审计日志,通过我们符合 ISO 17100 和 GDPR 的 LingoSecure 门户交付。我们与制药申办方及 CRO 直接合作。
你们能为受监管文件处理从右至左的语言吗?
可以——阿拉伯语、波斯语(法尔西语)、乌尔都语与普什图语是我们最擅长的专长。我们镜像布局、处理双向文本(阿拉伯语段落中的英文数字),并在目标设备上验证字体渲染。我们的姐妹品牌 arabictranslation.co.uk 自 2012 年以来一直运营这类工作流——英国没有哪家同行交付更多的阿拉伯语版面工作。
监管申报能多快交付?
时间取决于复杂度,而非页数。单语言 40 页 PIL:48 小时。五种语言 200 页年报:10–14 个工作日。含表单与轮廓化字形的税单:3–5 个工作日。面向监管申报截止日的加急服务可行——请先告知截止日,我们在报价前确认可行性。
你们支持哪些文件格式?
PDF(含扫描、混合及表单类)、Adobe InDesign(.indd)、Illustrator(.ai)、Photoshop(.psd)、Microsoft Word、PowerPoint、Excel,以及监管 XML(eCTD)。当不存在源文件时,我们的原位 PDF 引擎能处理最棘手的情况。
每条译文都会由人工审校吗?
是的。我们的工作流是 管道辅助、人工定稿。机器翻译与大语言模型引擎(我们的管道、、)加速初稿;具有专业背景的合格语言学家审校、修正并对每一段签字确认。这比纯人工工作流显著更快,比纯机翻也安全得多。未经审校的内容绝不会离开门户。
你们如何处理敏感文件的保密性?
所有文件都通过 LingoSecure 流转——这是我们符合 ISO 17100 与 GDPR 的门户,具备 AES-256 静态加密、TLS 传输加密、按用户审计日志、团队术语表、按需 IP 白名单,企业版可选 BYOK(自带密钥)。我们可以在任何文件上传前先签署 DPA。
你们能与我们的翻译记忆库或术语库集成吗?
可以。我们既可对接您现有的 TMS(Phrase、Lokalise、Crowdin、Smartcat、Memsource),也可在 LingoSecure 内托管您的 TM 与术语表。所有译文按段记录,您的 TM 会随每个项目不断扩充。TM 始终归您所有。
你们是只通过采购部门合作,还是也直接对接业务团队?
两种都可以。我们与公共部门及大型企业客户签有 框架协议,同时也直接对接临床项目经理、专利律师、CFO 与营销负责人——即那些需要监管级成果而又无法等待长达六个月采购流程的人。预约 LingoSecure 演示,您可以在一周之内启动试点项目。

准备好洽谈了吗?

上传文件即时获取报价,或预约15分钟通话,与英国项目经理讨论您的项目方案。

ISO 17100 认证。符合 GDPR 标准。总部位于英国卡迪夫。

获取即时报价
Lingo Pro

Lingo Pro

在线

你好!我是 Lingo Pro。有关翻译、价格或交付时间的任何问题都可以问我 - 我会说多种语言!