设为首页收藏本站
首页>院内部门>标准信息研究所>科研动态
GB/T 40035-2021《双语平行语料加工服务基本要求》国家标准研制与要点解析 时间:2021-12-03部门:标准信息研究所

  国家标准GB/T 40035-2021《双语平行语料加工服务基本要求》于2021年4月30日由国家标准化管理委员会正式批准发布,于2021年11月1日正式实施。GB/T 40035-2021的出台标志着我国语料加工领域有了首个国家标准,长期以来语料加工服务无章可循的现象即将结束。本文将结合标准条文,对语料加工服务提供方开展双语平行语料加工服务应该具备的主要内容、技术要求和质量保证等进行解析,明确标准理解和应用的要点,并提出标准实施的建议,旨在更好地促进标准的实施和推广。

  一、标准制定背景

  近年来,随着双语平行语料库在翻译教学、翻译研究、计算机辅助翻译、专业机器翻译引擎训练等领域的广泛应用,对高质量双语平行语料数据的需求越来越大,也推动了双语平行语料加工服务行业的发展。然而,由于语料加工一直缺乏相关标准的支持,产出的语料质量层次不一,无法满足客户对语料数据的实际需求,产业发展出现了无标可循带来的乱象,一定程度上制约了语料加工服务行业的可持续健康发展。

  由于语料加工服务需求方对双语平行语料库、语料加工技术、加工服务流程及语料交付质量信息等不够了解,经常在语料加工实施过程中对服务提供方提出不合理要求,导致语料加工服务沟通成本较高。由于没有一个公认的标准对双语平行语料加工结果的质量进行评判,无法界定哪些数据是合格的双语平行语料数据,可能会出现客户以语料加工结果品质不良、拒不付款等现象。

  由于缺乏语料加工服务相关标准的支持,无法对服务提供方的语料加工流程、语料加工人员、语料加工工具、语料加工结果等进行约束和规范,如果语料加工人员不具备合格的语料加工能力、语料加工服务流程不正确或语料加工工具选择不合理,将直接导致加工结果的质量和准确性无法得到保证或无法满足客户需求。质量不高或错误的语料数据在一定程度上会对语料库的应用和研究结果造成误导,降低研究的准确性和可信度,对客户造成损失,连带服务提供方的利益和企业形象也受到影响和伤害。因此亟需制定一个科学、合理、客观的语料加工服务标准供服务需求方及服务提供方作为参考标准,使语料加工服务有标准可循,从而带动语料加工服务相关行业的有序和可持续发展。

  在本标准的预研阶段,由中标院NQI课题组牵头,组织该行业相关企业、研究机构、协会和高等院校相关专家开展语料加工行业的发展现状、服务流程、问题和技术需求调研,广泛吸收了各利益相关方共同参与标准的制定,力求在充分协商各方意见的基础上,使标准的条款制定做到协调一致。起草组先后数次召开国家标准立项调研专题研讨会,研讨该标准的研制思路及总体框架,并起草了《双语平行语料加工服务基本要求》国家标准草案。

  在标准研制阶段,起草组重点对标准的组成部分、涵盖内容进行反复研究和讨论。标准的技术内容立足双语平行语料加工服务的实际情况,兼顾标准实施的可操作性。既要满足双语平行语料加工服务提供方服务流程的全过程规范化的需求,做到加工的每一步都有规范;也要满足客户对服务质量的需求,对语料审核和保质期量化数据的要求,以及对交付内容质量评估的要求。同时,对加工人员、服务环境、加工工具、加工内容和加工结果都作了具体要求,达到语料加工服务全流程无死角的管控目的,充分保障标准实施的适用性。

  二、标准主要内容

  本标准对文本、元数据、语料、双语平行语料、语料对齐、语料对齐工具、TMX、光学字符识别、客户、服务提供方、原文、译文、纠正、匿名化数据、敏感数据、脱敏等16条术语进行了定义。

  标准规定了双语平行语料加工服务的原则,明确了双语平行语料加工服务的基本要求,规定了加工流程和加工服务的具体内容,对语料数据安全提出了要求。本标准适用于以原文和译文为对象的、以文字为表达形式的数字化双语语料加工服务,其他数字化文本的语料加工也可参照使用,也适用于对语料对齐工具的评价。

  标准对双语平行语料加工服务的内容、目的、加工对象、译文质量说明及加工环境等进行了规定和说明。对服务提供方、从业人员、服务环境、加工内容、加工结果、语料对齐工具等给出了基本规范,并要求加工结果应具有完整性、准确性、可用性、规范性。语料对齐工具应具有可靠性、易用性、兼容性。

  标准对服务提供方和语料加工人员的提出具体要求,对服务提供方的服务环境提出要求,对双语语料加工内容进行了规定,对语料加工流程包含的内容、供求双方沟通机制和协议内容提出了要求;对项目管理和加工环节进行了规定。

  标准对加工交付内容、质检、质量保证期、后续服务保障、双语平行语料加工服务的数据安全进行了具体规定。

  三、标准实施建议

  制标的目的在于实施。本标准的宣贯和实施建议由相关行业协会来协调组织,由标准主要起草单位和相关技术机构提供技术支持。标准实施对象主要是机器翻译和语料加工的相关企业;建议采取集中宣贯,分步实施的办法。实施建议如下:首先优选一批业界信誉良好并开展语料加工业务较多的企业进行试点,经过一段时间的标准实施试点,总结试点取得的经验,再结合认证手段,在业界广泛开展标准实施。此外,要将实施过程中出现的问题和改进的建议反馈起草组,以便对标准进行修订完善。

  

  文章作者:刘智洋| 标准信息研究所(市场监管总局技术性贸易措施研究中心)

  转载请注明出处

附件:

版权所有:中国标准化研究院    技术支持:标新科技(北京)有限公司    联系我们
京ICP备10046988号-34 京公海网安备110108001709号