- Published on
计算机辅助翻译-coursera课程1-3
Computer aided translation CAT
为了了解行业的一些基础知识,常用工具等
翻译过程的论述
分析-转化-重构 翻译模式(转换生成语法)
释意理论
翻译不能直接进行语言符号的转化
而是 理解,脱离语言外壳, 表达
概括来说就是,理解原文,生成译文
译员翻译能力评估
西班牙巴塞罗那自治大学:PACTE(preocess in the Acquistion of Translation Competence and Evaluation) 译者的能力:双语交际能力,非语言能力(文化知识,主题知识,百科),专业操作能力,转换能力,心理生理因素,策略能力。
翻译问题分类
专业用语问题:解决辞典,语料库
(牙科医学领域翻译实践 filler只能翻译为充填剂,而不是填充剂)
俗语问题:
kick the bucket (一命呜呼)不等于 kick the barrel 踢桶
to bring down the house(满堂彩) 不等于 拆房子
解决:互联网,语料库,工具书
假同系表达
红茶 不等于 red tea
专有名词
人名,地名,机构名称,国家名称,奖项,仪器等等
解决:互联网,语料库(辞典容量小,更新慢)
新词:白富美....
文化特色词
邓小平理论,社会主义初级阶段等 一些有较深厚文化的词语。固定形式的
选词辨析
搭配
符合共现规律和习惯用法词
修辞
使文字更加生动形象。
回译
句式
分析清楚复杂句式的结构。如何通过变化,重塑目标句的句式结构
背景知识
辞典问题
词条内部不足
英汉的汉语释义不能反过来找到原对应英语的表达方式
电子辞典也存在缺失问题
翻译技术组成
- 翻译过程的信息技术工具:电子词典,互联网信息资源,语料库
- 翻译技术的研究始于机器翻译
- 狭义CAT,翻译记忆 + 术语管理
- 广义CAT,一切辅助性工具,如QA
- 团队翻译的信息技术工具
- 翻译项目管理
- 翻译公司管理
辅助翻译的进化:
- 字典,网络版,wiki
- 翻译记忆 网络版
- 术语管理
- 自然语言处理技术
协同化的工作环境
- 翻译记忆交换
- 语言服务(翻译)过程管理
- 客户与翻译服务公司的互动关系
- 语言服务新模式
- Proz网站,译员之家
翻译质量评估
常说 信达雅
翻译质量是一个动态问题
常用工具
拼写检查,与罚检查,辅助翻译,机器翻译
好的译员:懂语言,文化,技术,管理
自动化翻译
机助人译:OCR,语音识别,文件格式转换,翻译记忆+相关检索。对齐工具,术语库(一致性)。
商用计算机辅助翻译软件
SDL TRADOS,WORDFAST,DEJA VU,Alchemy Catalyst / Publisher
语料库
主要作用:检索(keyword in context KWIC)
建立语料库方法:
- 切分段落,句子,词汇 Segmentation
- 屈折语形态还原 Lemmatization
- 词性标注 POS tagging
- 句法分析 Parsing
- 双语对齐 Alignment
语料库:BNC,Linguateca,Sketch Engine,Europa.eu COCA
互联网搜索引擎/信息服务翻译实践
搜索引擎的分类
首先是目录式搜索引擎 YAHOO,(一级一级向下索引)
全文搜索引擎,altavista,Google,bing 百度,搜狗...
元搜索,对其他搜索引擎内容进行排序,
综合性搜索引擎:如google
基本工作原理
采集信息,索引,匹配,输出结果
爬取内容的处理:中文分词,英文词形,形态变化
结果排序(核心竞争)SEO搜索引擎优化,Google是goole page ranking,链接关系量化重要性。基础算法的改进:网站重要性,更新频率,内容分析。
使用规则
关键词(多角度),避免口语词汇(stop words)
逻辑检索符 与(+)默认方式 或(OR) 非( -) 减号前需要加入空格
加引号 完全匹配
filetype: 文件类型
define: geek 搜索geek的定义
link 链接到某个特征网址的网页。
related: 找到与该网页相似的网页
学术数据库 电子期刊数据库
- 中外文电子期刊数据库
英国Nature杂志 www.nature.com
还有很多专业的电子期刊网站
google scholar(泛 全)但是深入的找不到。一些专业的资料需要专业的搜索引擎来做。
知网,万方,weipu
开发获取的电子期刊:HighWire,DOAJ
- 电子图书与电子报纸
- 国内外科学信息门户
- 专利资源、科技报告、标准文献
电子书 电子报纸 Amazon,
CALIS,北京大学图书馆,
学术数据库一般流程
搜索引擎 诱导词
语料库与翻译研究
语料库产生背景
- 物质基础:电脑科技
- 思想基础:经验主义
(对现象有了积累之后,才能升华为理性。)
语料库定义:machine-readable(机器可读的),authentic(真实的),sampled(抽样),representative(代表性)
语料库建设
- Brown corpus 1970 100万词
- London-Lund Spoken Corpus 1960年代开始 1975年建成 2000小时谈话 广播
- COBULID Project 1980 词典编撰 2000万词
- Longman Corpus 1980年代 LLELC LSC LCLE 英语语料库目标是 编撰英语学习词典。
- British National Corpus (BNC)1991 1995 90% written + 10% spoken 对当代英国英文研究很好
- Xaira
- 美国国家语料库
国内早期语料库建设
1998人民日报现在使用很广泛。
语料库特点
- 领域 vs 通用
- 平衡性
- 粗 细
- 加工深度 用途/成本/发展
问题:很少更新,自动化不高,缺乏语言资源管理。缺乏用户定制。成本大,周期长。高度分化,缺乏集成
现代语料库建设:wiki-based corpora Web-based corpora
1949年,美国数学家瓦伦 weifu Warren Weaver提出了统计机器翻译的基本思想
1993年,IBM提出 五种统计翻译模型
语言学范畴的语料库研究:
- 语法规则的发现和验证
- 语体、语言风格研究-(红楼梦究竟是不是一个人写的)
一个研究出现了问题,并不一定代表着这个方法有问题
多模态语料库 感觉挺不错
语料库支持的翻译研究和实践
应该注重翻译的结果还是 翻译的过程? 如何把语料库应用在翻译过程上,把语料库应用在理解原文和生成译文上。
可比语料库 - Comparable Corpus
Monolingual Corpus 单语语料库 外语单语语料库提供了分析观察语言的使用规则,借助语料检索和分析工具可能得到超过字典的效果。
语料库检索工具
- Wordsmith 商业
- Antconc,Paraconc
- CWB (开源 推荐)
- SPSS,Weka统计工具及数据分析工具 (商业,开源)
- 基于Web的语料库系统
- Sketch Engine 商业
- http://corpus.byu.edu
- http://ccl.pku.edu.cn