计算机辅助翻译-coursera课程1-3

Computer aided translation CAT

为了了解行业的一些基础知识，常用工具等

翻译过程的论述

分析-转化-重构 翻译模式（转换生成语法）

释意理论

翻译不能直接进行语言符号的转化

而是理解，脱离语言外壳，表达

概括来说就是，理解原文，生成译文

译员翻译能力评估

西班牙巴塞罗那自治大学：PACTE(preocess in the Acquistion of Translation Competence and Evaluation) 译者的能力：双语交际能力，非语言能力（文化知识，主题知识，百科），专业操作能力，转换能力，心理生理因素，策略能力。

翻译问题分类

专业用语问题：解决辞典，语料库

（牙科医学领域翻译实践 filler只能翻译为充填剂，而不是填充剂）

俗语问题：

kick the bucket （一命呜呼）不等于 kick the barrel 踢桶

to bring down the house（满堂彩）不等于拆房子

解决：互联网，语料库，工具书

假同系表达

红茶不等于 red tea

专有名词

人名，地名，机构名称，国家名称，奖项，仪器等等

解决：互联网，语料库（辞典容量小，更新慢）

新词：白富美....

文化特色词

邓小平理论，社会主义初级阶段等一些有较深厚文化的词语。固定形式的

选词辨析

搭配

符合共现规律和习惯用法词

修辞

使文字更加生动形象。

回译

句式

分析清楚复杂句式的结构。如何通过变化，重塑目标句的句式结构

背景知识

辞典问题

词条内部不足

英汉的汉语释义不能反过来找到原对应英语的表达方式

电子辞典也存在缺失问题

翻译技术组成

翻译过程的信息技术工具：电子词典，互联网信息资源，语料库
翻译技术的研究始于机器翻译
- 狭义CAT，翻译记忆 + 术语管理
- 广义CAT，一切辅助性工具，如QA
团队翻译的信息技术工具
- 翻译项目管理
- 翻译公司管理

辅助翻译的进化：

字典，网络版，wiki
翻译记忆网络版
术语管理
自然语言处理技术

协同化的工作环境

翻译记忆交换
语言服务（翻译）过程管理
客户与翻译服务公司的互动关系
语言服务新模式
Proz网站，译员之家

翻译质量评估

常说信达雅

翻译质量是一个动态问题

常用工具

拼写检查，与罚检查，辅助翻译，机器翻译

好的译员：懂语言，文化，技术，管理

自动化翻译

机助人译：OCR，语音识别，文件格式转换，翻译记忆+相关检索。对齐工具，术语库（一致性）。

商用计算机辅助翻译软件

SDL TRADOS，WORDFAST，DEJA VU，Alchemy Catalyst / Publisher

语料库

主要作用：检索（keyword in context KWIC）

建立语料库方法：

切分段落，句子，词汇 Segmentation
屈折语形态还原 Lemmatization
词性标注 POS tagging
句法分析 Parsing
双语对齐 Alignment

语料库：BNC，Linguateca，Sketch Engine，Europa.eu COCA

互联网搜索引擎/信息服务翻译实践

搜索引擎的分类

首先是目录式搜索引擎 YAHOO，（一级一级向下索引）

全文搜索引擎，altavista，Google，bing 百度，搜狗...

元搜索，对其他搜索引擎内容进行排序，

综合性搜索引擎：如google

基本工作原理

采集信息，索引，匹配，输出结果

爬取内容的处理：中文分词，英文词形，形态变化

结果排序（核心竞争）SEO搜索引擎优化，Google是goole page ranking,链接关系量化重要性。基础算法的改进：网站重要性，更新频率，内容分析。

使用规则

关键词（多角度），避免口语词汇(stop words)

逻辑检索符与(+)默认方式或(OR) 非( -) 减号前需要加入空格

加引号完全匹配

filetype: 文件类型

define: geek 搜索geek的定义

link 链接到某个特征网址的网页。

related：找到与该网页相似的网页

学术数据库电子期刊数据库

中外文电子期刊数据库

英国Nature杂志 www.nature.com

还有很多专业的电子期刊网站

google scholar（泛全）但是深入的找不到。一些专业的资料需要专业的搜索引擎来做。

知网，万方，weipu

开发获取的电子期刊：HighWire，DOAJ

电子图书与电子报纸
国内外科学信息门户
专利资源、科技报告、标准文献

电子书电子报纸 Amazon，

CALIS，北京大学图书馆，

学术数据库一般流程

搜索引擎诱导词

语料库与翻译研究

语料库产生背景

物质基础：电脑科技
思想基础：经验主义

（对现象有了积累之后，才能升华为理性。）

语料库定义：machine-readable(机器可读的)，authentic(真实的)，sampled(抽样),representative（代表性）

语料库建设

Brown corpus 1970 100万词
London-Lund Spoken Corpus 1960年代开始 1975年建成 2000小时谈话广播
COBULID Project 1980 词典编撰 2000万词
Longman Corpus 1980年代 LLELC LSC LCLE 英语语料库目标是编撰英语学习词典。
British National Corpus (BNC)1991 1995 90% written + 10% spoken 对当代英国英文研究很好
Xaira
美国国家语料库

国内早期语料库建设

1998人民日报现在使用很广泛。

语料库特点

领域 vs 通用
平衡性
粗细
加工深度用途/成本/发展

问题：很少更新，自动化不高，缺乏语言资源管理。缺乏用户定制。成本大，周期长。高度分化，缺乏集成

现代语料库建设：wiki-based corpora Web-based corpora

1949年，美国数学家瓦伦 weifu Warren Weaver提出了统计机器翻译的基本思想

1993年，IBM提出五种统计翻译模型

语言学范畴的语料库研究：

语法规则的发现和验证
语体、语言风格研究-（红楼梦究竟是不是一个人写的）

一个研究出现了问题，并不一定代表着这个方法有问题

多模态语料库感觉挺不错

语料库支持的翻译研究和实践

应该注重翻译的结果还是翻译的过程？如何把语料库应用在翻译过程上，把语料库应用在理解原文和生成译文上。

可比语料库 - Comparable Corpus

Monolingual Corpus 单语语料库外语单语语料库提供了分析观察语言的使用规则，借助语料检索和分析工具可能得到超过字典的效果。

语料库检索工具

Wordsmith 商业
Antconc，Paraconc
CWB (开源推荐)
SPSS，Weka统计工具及数据分析工具（商业，开源）
基于Web的语料库系统
- Sketch Engine 商业
- http://corpus.byu.edu
- http://ccl.pku.edu.cn