监督微调(SFT) --翻译场景

监督微调(SFT) --翻译场景

七月 01, 2023

背景

监督微调(supervised fine-tuning),是重要的对齐人类指令和偏好的阶段。它对数据的质量、多样性、丰富性等都有很大的要求。而且也是与构建大模型最终目的息息相关的。不管是通用智能大模型,如类chatgpt产品,还是垂域大模型,如各种垂直域结合RAG的大模型,SFT数据的建设都是非常重要的。围绕着 SFT 的模型和数据建设,有很多论文、工程等开源工作。其中,作为最基础的一项场景,翻译,此场景既是典型的 SFT 应用场景之一,也是考验模型跨语言能力迁移的重点方向,更是基于原生英文 Llama2 基座的中文大模型本土化关键点,着重需要重点探索、建设、优化。

目标

  1. 中英&英中翻译场景,能够作为SFT数据中的一小部分,辅助支持建设通用SFT数据的高质量、多样性等,SFT除翻译外,还包括的其余重点场景有:通用文创、通用问答、通用逻辑(数理/推理)、教育(各类K12考试/公务员/法律题目)、代码、指令IFT等;
  2. 中英&英中翻译场景,能够通过Chat模式,能为用户提供远超传统机器翻译产品的用户体验;
  3. 在字词、句子、段落、篇章等各个粒度,对政经、教育、商务、旅游、科技、医疗、文学等多个领域提供优质的翻译服务。

定位

中英&英中翻译应该具有两个定位:

  1. 能够作为SFT数据中的一小部分,数据量在百、千量级,高质量、多样性,辅助SFT数据、模型建设;
  2. 较大量级,如万量级,能够在预训练模型(基于Llama2-70b基座经过1T中文Token持续预训练产出)基础上单独进行SFT,产出翻译场景的垂直领域模型,产品应用级可用。

中英&英中翻译数据建设

数据源

1. 可可英语

2. 各类论文智库中的中英对照摘要

3. 各类官方、商务等翻译社

4. 各类开源的中英翻译数据集

Casia2015、casict2011、neu2017 等传统的中英对齐翻译数据集,质量都较差,大约在 90% 的精度,并且中文的翻译腔非常严重,完全达不到翻译的“信、达、雅”的要求,并且领域特别单调,新闻居多,刻意找寻,医疗和演讲倒也有一些。可以作为进一步人为修改或者采用GPT-4等自动方法,作为候选补充等。

数据体系梳理

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
一:领域
1. 政治与国情
2. 经济与贸易
3. 文化与教育
4. 外交与国际
5. 卫生与健康
6. 信息与科技
7. 体育与运动
8. 娱乐与生活
9. 生态与环境
10. 古诗与典籍
a. 诗词
b. 古典名籍
11. 文学翻译
a. 格言
b. 文学名著
c. 散文
d. 美文
e. 谚语/俚语
f. 成语

二: 行业
1. 工业
a. 交通
a.1 船务
a.2 公路铁路
b. 建造
c. 能源
c.1 钻井
c.2 煤炭
d. 纺织
d.1 服装
d.2 印刷
e. 机械
f. 气象
g. 质检
2. 艺术
a. 影视
a.1 对白台词
b. 音乐
b.1 歌曲
c. 台词
d. 脱口秀
3. 外贸金融
4. 法律
5. 新闻
6. 广告
7. 教育
8. 房地产
9. 游戏
10. 美容美妆
11. 健康医疗

三: 场景
1. 商务
2. 旅游
3. 美食
4. 情景会话
a. 日常生活
b. 人际交往
c. 态度情感

四: 呈现范式
1. 各类考试中英翻译
2. 新闻传媒报刊
a. 经济学人
b. 英国卫报
c. 时代周刊
d. 双语杂志
3. 影视作品
4. 图书

五: 内容类型
1. 邮件书信
2. 演讲稿
3. 歌词
4. 剧本
5. 对话

六: 输入粒度
1. 词语
2. 短语
3. 句子
4. 段落
5. 篇章

中英&英中翻译Prompt建设

搜寻网上所有中英&英中翻译的与chatgpt交互示例

利用 GPT4 进行中英/英中翻译prompt生成

直接生成具体数据无关的prompt
1
prompt = '''给出一些中英翻译任务最好用的中文prompt,能够让chatgpt更好地执行翻译任务'''
将整段的对齐中英语料借助 GPT4 拆分更细对齐粒度
1
2
3
4
5
prompt = '''根据给出的双语文本,生成一些词句粒度对齐的中英互翻的中文指令,并给出回答:
中文内容:{}
英文内容: {}
翻译指令是:
'''.format(chinese_context, engilsh_context)

中英&英中翻译评估体系

自动评估

BLEU-RT:Learning Robust Metrics for Text Generation

人工评估

评测原则
  1. 翻译领域通用的标准原则——信达雅
      1. 译文与原文在含义上属于对等关系,不得出现漏译、多译,造成原文与译文信息不对称,或是误译造成译文偏离原文意义
      1. 格式规范:无拼写、标点符号等客观错误;专有名词、专业术语等必须符合规范
      2. 语言规范:用词恰当、语法正确、语句通顺、不得出现逻辑不通、语句不连贯或出现翻译腔
      3. 译文中要适当反映原文的特殊句式效果,如强调句、同位语从句等
      1. 关于“雅”的要求,主要针对文学相关场景,要求译文在通顺的基础上能够使用高级丰富的词汇、句法结构或翻译方法(意译),使得其表现手法或写作风格与原文贴近
  2. 场景角度的专业性、权威性
    1. 商务英语
      1. 商务信函,涉及具体商务操作,要求准确把握原文信息,并且应尽量避免使用模棱两可的语言使句意不清而产生误解和歧义
      2. 涉及货物价格、重量、日期等有关数字的翻译必须准确严谨具体
      3. 用词严谨专业,符合商务英语的套路和习惯表达,主要体现在大量的专业术语、行话、缩略语等
      4. 商务信函符合格式规范,日期、地址等符合中英文各自表达习惯
      5. 符合商务沟通语境
      6. 商务信函,考虑中英文各自信函的文本格式,翻译时采用对应风格
      7. 商务会话,尤其注重会话礼仪、人物称谓、表达方式等,传达“礼貌”、“尊重”的意味
    2. 教育
      1. 文学作品、名人名言翻译,尽量采用意译手法保持原文立意和风格
    3. 医疗健康
      1. 医疗领域的许多词汇比较生僻,但有固定中英文表达方法,例如疾病、科室、药物、治疗手段、症状等,翻译时必须使用其专业术语
    4. 政经
      1. 政治、经贸类的专业词汇、短语、需要准确翻译,尤其是官方语言
      2. 政经类公文,如政府工作报告,需要体现公文写作逻辑严谨、语体规范的特点
    5. 旅游
      1. 旅游业相关专业词汇的翻译要符合标准
      2. 实际旅游场景中,在翻译时应该采用以游客为中心的翻译策略,在选词上要尽量避免过于专业和生僻的词汇,在语言结构上要尽量简短易懂
      3. 注意风格的切换,迎合读者的思维模式以及文化的审美诉求,灵活处理文化和美学的信息
评估细则
  1. 6个打分维度,打0,1,2分(准确性、全面性、表达性、结构性、相关性、无害性)
  2. 4档,1,2,3,4
  3. GSB评估

模型性能

我们模型:预训练70b模型 + 500 条精标小样本(计划加入SFT通用数据)

自动指标 BLEU-RT

场景 我们模型 GPT3.5 百度翻译
中翻英 0.6990 0.7129 0.7006
单元格 0.6872 0.6925 0.7351

人工评测

选用第三方的三家评测机构,针对百度翻译、gpt3.5、文心一言旧版、Ours(预训练70b模型 + 500 条精标小样本)、文心一言4.0,最终的评测结果如下:

第一名:百度翻译

第二名:gpt3.5

第三名:文心一言4.0

第四名:Ours(预训练70b模型 + 只加 500 条翻译的精标小样本)

第五名:文心一言4.0

考虑到我们只有 500 条精标小样本达到的水准,基本可以确定,此方案,在万量级左右的翻译效果,基本能够达到产品级应用

体感(show case)

散文翻译 show case

后期优化

  1. 我们可以考虑加入相关的翻译技巧类数据,或者高质的中英平行语料进行持续预训练;
  2. 按照数据体系,对中英翻译样本进行放量,基本可以预见,在万量级别下,可以达到产品级别应用,且用户体验很惊艳。