【www.shanpow.com--台湾】
一:[台湾拼音转换器]台灣通用拼音與大陸漢語拼音對照簡表
注音符號、漢語拼音、台灣拼音(原通用拼音)
對照簡表
注音
台灣拼音
(通用拼音)
漢語拼音
ㄅ
b
b
ㄆ
p
p
ㄇ
m
m
ㄈ
f
f
ㄉ
d
d
ㄊ
t
t
ㄋ
n
n
ㄌ
l
l
ㄍ
g
g
ㄎ
k
k
ㄏ
h
h
ㄐ
ji
j
ㄑ
ci
q
ㄒ
si
x
ㄓ
jh
zh
ㄔ
ch
ch
ㄕ
sh
sh
ㄖ
r
r
ㄗ
z
z
ㄘ
c
c
ㄙ
s
s
零韻
-ih
-i
ㄚ
a
a
ㄛ
o
o
ㄜ
e
e
ㄝ
ê
ê
ㄞ
ai
ai
ㄟ
ei
ei
ㄠ
ao
ao
ㄡ
ou
ou
ㄢ
an
an
ㄣ
en
en
ㄤ
ang
ang
ㄥ
eng
eng
ㄦ
er
er
ㄧ
i,yi
i, yi
ㄨ
u,wu
u,wu
ㄩ
yu
ü,u,yu
ㄧㄚ
ia, ya
ia, ya
ㄧㄝ
ie, ye
ie, ye
ㄧㄞ
iai, yai
iai, yai
ㄧㄠ
iao, yao
iao, yao
ㄧㄡ
iou, you
iu, you
ㄧㄢ
ian, yan
ian, yan
ㄧㄣ
in, yin
in, yin
ㄧㄤ
iang, yang
iang, yang
ㄧㄥ
ing, ying
ing, ying
ㄨㄚ
ua, wa
ua, wa
ㄨㄛ
uo, wo
uo, wo
ㄨㄞ
uai, wai
uai, wai
ㄨㄟ
uei, wei
ui, wei
ㄨㄢ
uan, wan
uan, wan
ㄨㄣ
un, wun
un, wen
ㄨㄤ
uang, wang
uang, wang
ㄨㄥ
ong, wong
ong, weng
ㄩㄝ
yue
ue, yue
ㄩㄢ
yuan
uan, yuan
ㄩㄣ
yun
un, yun
ㄩㄥ
yong
iong, yong
資料來源: 台灣通用語言協會提供2003
二:[台湾拼音转换器][分享]台湾注音全解,及微软新注音输入法使用教程,可实现拼音输入(图文)。(重排版并更新新注音输入法2010设置方法)
特别感谢台服鬼雾峰的冥飞儿、番爷、本服QQ群里混沌之王给予的帮助。
引言
由于CTM即将到来,或许会有部分新人会来台服(当然,每天都有这个可能)。为减少朋友们在台服交流过程中的部分语言障碍,特别是对注音符号的了解,我重新编辑了本贴,并加入了部分新内容,以方便朋友们阅读。对于只是希望知道对方在说什么的,本贴前半部分可以满足你的要求;对于有兴趣了解注音符号相关知识的朋友,则可以在本贴的后半部分找到你想要的。大家如果有什么交流上的问题,可以提出,我会尽我所知的给大家做答。论坛不允许显示全部大图,所以阅读上有些不便请大家见谅。(本文中出现的台湾当局、台湾政府、中国大陆、中华民国等称谓仅表示各方案等的提出地区或时间区分,不代表任何政治及与之相关的地理或历史上的划分,亦不代表作者立场,请勿断章取义。)目录
1楼0 传送门1 辅助汉字读音工具的发展1.1 注音符号、汉语拼音和通用拼音的简介1.2 注音符号、汉语拼音和通用拼音之间的历史关系2 注音符号2.1 注音符号表2.2 注音符号与汉语拼音对照2.3 注音符号的来源2.4 注音符号与汉语拼音拼写上的区别3 繁体输入法3.1 繁体输入法的种类3.2 注音输入法4 微软新注音输入法4.1 注音符号输入方式4.2 拼音输入方式4.3 用户自定义键盘排列布局3楼1、微软新注音输入法 2003 自定义设置方法2、可能的更新或回复汇总0 传送门
最简单的输出繁体字的方法就是使用搜狗、QQ拼音或谷歌输入法,设置成繁体输出就OK了。存在的问题就是有时会输出错误的字。[内地玩家台服生存手册(含注音对照)]这个贴子里有较常用的注音对照及易弄错的英文缩写对照。[部分台湾玩家眼中的部分国服玩家语录 搬运自哈拉板]在这里,你可以从台湾人的角度看到我们的言行,可以学到不少语言上的差异。[在国服呆久的你,在台服千万不能做的事情!!!]这个贴里有几条提到了语言文字上的问题,需要新人们注意。1 辅助汉字读音工具的发展
1.1 注音符号、汉语拼音和通用拼音的简介1.1.1 注音符号旧称为“注音字母”,为汉字注音而设定的符号,1913年由中国读音统一会制定,1918年由北洋政府教育部发布,共计39个字母,排列以“”开头;1920年改订字母顺序,增加一个字母“”共计达40个。注音初期以读音统一会所定字音为标准,故有“万v、兀Ng、广Gn”三个字母,后以北京音为标准,“万、兀、广”只作注方言之用,目前仍使用的有37个,其中声母21个,韵母16个。1930年中华民国政府把注音字母改称为“注音符号”,正式的称呼是国语注音符号第一式。相对于拼音(下文如无特别说均指汉语拼音)来说,注音符号有时简称注音。目前在台湾,小学生在学会汉字书写之前,会先学习注音符号作为中文字的替代写法(这一点有点像大陆上小学先学拼音一样)。在实际生活中,注音符号也用于标注生字的注音,并且也是普遍的打字输入法。1.1.2 通用拼音是台湾当局陈水扁政府所建议使用的中文拉丁化拼音法。由“中央研究院民族学研究所”副研究员余伯泉在1998年发表,之后经过数次修正,于2000年由台湾当局“教育部国语推行委员会”宣布使用,并取代原定改用的国语注音符号第二式,此外也有意取代过去惯用的威妥玛拼音,台湾当局政府自2002年起全面推行以通用拼音为基础的统一译音政策,但并未以强制方式要求使用。1.1.3 汉语拼音(Chinese phonetic alphabets,Chinese Pinyin),是中国大陆的汉字注音拉丁化方案,于1955年—1957年文字改革时被原中国文字改革委员会(现国家语言文字工作委员会)汉语拼音方案委员会研究制定。该拼音方案主要用于汉语普通话读音的标注,作为汉字的一种普通话音标。1.2 注音符号、汉语拼音和通用拼音之间的历史关系在中国古代,由于没有统一标准的汉字辅助读音方案,人们在教学生字时,常使用两个常见的字进行反切或直拼出这个生字的读音。(就是用两个认识会念的字,取第一个的声母,取第二个的韵母,拼合起来就行了。这个从《中华小字典》等书中对汉字注音方法就可以了解。)这个方法显然太繁琐,不易读准。由于古代没有统一标准的汉字辅助读音方案,致使很多汉字古代的读音与现在的读音完全不同。给中华民族的兴起起到了一定的阻碍作用。为此,清末出现了切音字运动,推动了辅助汉字读音工具的发展。1913年由中国读音统一会制定,1918年由北洋政府教育部发布,后经不断修改形成现在的37个注音字母。1930年中华民国政府把注音字母改称为“注音符号”,正式的称呼是国语注音符号第一式。“注音符号”目前仍旧为台湾汉字的主要拼读工具之一,为小学语文教育初期必学内容。中国自1958年推行汉语拼音方案以后停止推广使用,但在汉语字典等基础工具书中对汉字注音时继续与拼音同时使用。(典型代表《现代汉语词典》)中华人民共和国成立后,1958年第一届全国人民代表大会第五次会议正式批准公布的拉丁字母式的《汉语拼音方案》。1977年,联合国第三届地名标准化会议根据“名从主人”的原则,决定采用汉语拼音为中国地名罗马字母拼写法的国际标准。 1982年,国际标准化组织发出ISO7098号文件,成为国际标准ISO 7098(中文罗马字母拼写法)。汉语拼音是一种辅助汉字读音的工具。无论中国自己的规范还是国际标准,都明确指出了汉语拼音的性质和地位,即汉语普通话的拉丁拼写法或转写系统,而非汉语正字法或汉语的文字系统。汉语拼音字母只是对方案所用拉丁字母个体的称谓,并不意味着汉语拼音是一种拼音文字(全音素文字)。由于汉语拼音成为国际准,并广泛在各领域使用。20世纪90年代中期,台湾学者为了在科技文化、学术资料交流方面与世界接轨,便于国际化,信息化,经过长期酝酿,充分考虑,于1999年由台湾当局行政主管部门议决,采用大陆的汉语拼音法,并拟定于两年后,将汉语拼音列为小学生的必修课程。当时,港澳各大报刊都报道了这一消息。2000年台湾大选民进党上台后,有少数人主张改变过去的决定,要求用通用拼音来取代汉语拼音,于是在台湾触发了异常激烈的持续几个月的引人注目的“拼音大战”。当初设计通用拼音的主要目的,是为了贴近台湾人的发音习惯,并去除汉语拼音中不符合英文读写习惯的声母( x、q ,因为x在英文中一般拼作ks、q拼作k)。2008年9月,中国台湾地区确定中文译音政策将由“通用拼音”改为采用“汉语拼音”,涉及中文英译的部分,都将要求采用汉语拼音。(目前看来,这个政策并非强制执行,或者新入学的小学生才刚开始学习,暂时未知。)2 注音符号
2.1 注音符号表目前台湾使用的注音符号为37个,其中声母21个,韵母16个。另"万 兀 广"是拼写方言用的,故本贴不特别说明。具体见下表:
注音符号发音参考:[传送门]2.2 注音符号与汉语拼音对照注音符号和汉语拼音都能表示汉字的读音,因此它们是可以互相转换的。一般来说,从注音符号转换为汉语拼音,可以直接将每个注音符号转换为对应的汉语拼音符号即可,具体的对应可参见下表:
2.3 注音符号的来源
2.4 注音符号与汉语拼音拼写上的区别
3 注音输入法
3.1 繁体输入法的种类在了解完了辅助汉字读音工具以后,进入本帖的重点。与简体输入法一样,繁体也分为字型输入和字音输入两类,字型输入法有:仓颉等,字音输入法有:注音输入法(台湾)、粤语拼音输入法(香港)。还有一些其他输入法,但使用范围较小故未提及(如无虾米等)。3.2 注音输入法注音输入法是一种以注音符号来输入汉字的中文输入法,主要使用地区为台湾。因为台湾小学基础教育就由注音符号教起,所以此输入法可被称为台湾电脑使用者最为熟悉的中文输入法,只要能读就能输入。注音输入法的优点在于台湾人几乎懂得注音符号(就像大陆人懂拼音一样),不用特别学习也会使用。注音输入法的特色在于需要自己输入声调(由于注音最长3个符号,加上声调不过4个键,少有希望省略声调的意见),所以注音输入法相对拼音输入法的重码率要低不少。因为大多数大陆人认识繁体字但不太会写,所以繁体录入不推荐考虑字型输入法,而在字音输入法里只有注音输入法与拼音相近,故推荐使用。在掌握本帖第二部分关于注音符号和它与拼音拼写上的区别后,使用注音输入法就简单很多,基本和拼音输入法一样。4 微软新注音输入法
因为台湾使用微软新注音输入法的人数较多,所以本文以微软新注音输入法为例介绍。[微软新注音输入法 2003下载传送门];可以单独下载注音输入法。[Microsoft Office 输入法 2010下载传送门];整合了新注音输入法 2010、新仓颉输入法 2010、新速成输入法 2010 与 香港粵語输入法 2010微软新注音输入法有几种输入方式本文介绍其中两种:拼音方式及注音方式。4.1 注音符号输入方式4.1.1 注音方式的键盘排列布局注音符号的键盘排列方式有多种方式,有大千式(Windows内称为标准式)、倚天式、精业式、IBM式等。鉴于手提电话或个人数码助理(PDA)的使用需要,诞生了以数字键盘输入的注音输入法。本帖介绍微软新注音输入法默认状态下的大千式,其他排列方法因使用较少故本帖不做介绍。其键盘排列如下图:
大千式是台湾使用最广的键盘排列方式,Microsoft Windows称之标准式。台湾市面上所购得的键盘,绝大多数亦印有此排列。大千之名是得当初发明此排序法的台湾电脑厂商名。大千式是直接将注音符号表放在键盘上,由上至下、由左而右把注音符号依序排列。大千式键盘的优点:占有率极高。初学者仅需熟习注音符号即可了解键盘分配位置,且一般中文键盘皆附有大千式键盘排列。大千式键盘的缺点:声调键位于离手指最远的最上排,降低了打字的效率。而相对常用的韵母位于最外侧小指工作范围,使右手输入较为吃力。注:第一声以空格键输入。4.1.2 注音方式的输入方法微软新注音输入法的输入方法类似拼音的双拼输入法,即按“声母→(介母)→韵母→声调”的顺序输入。故使用大千式键盘时,一定是从键盘左边向右边输入(除声调外)。初学者学习的时候,也比较有迹可循找到注音的位置,不需要大海摸针。一般双拼(即一个声母一个韵母)情形多为左右手轮流输入,可以节省打字的精力与时间。左右手分工的设计亦平衡了左右手工作的分配。常用声母位于键盘中央,使较有力的食指分配到较多的工作份量,反之无力的无名指小指则较少。介母(可用于韵母双拼的韵母)同理。例1:输入“码”字,先按A字键,再按8字键,再按3字键,便可输入“码”字(或同音字)。例2:输入“好”字,先按C字键,再按L字键,再按4字键,便可输入“好”字(或同音字)。4.1.3 微软新注音输入法中用户自定义键盘排列布局因为我个人认为大千式布局不够合理,不符合大陆人的习惯(大陆人用的是美式键盘排列,中文拉丁化表音的好处)。故对微软新注音输入法的大千式进行了自定,让其键盘布局尽可能对应拼音输入法的美式键盘排列,方便记忆。我的键盘排列见下图(如何自定义键盘见后文如何自定义设置):
这个布局的考虑:1、尽可能让注音符号与英文字母对应,这样可以减少注音符号的记忆。26个英文字母中,除Y和W外其它24个都一一对应。2、另有13个注音符号分别位于“YW12347890,。/”这几个键上。其中,对应拼音以a开头的韵母“”位于“1234”;对应拼音以e开头的韵母 “”位于“7890”;“”分别对应“W和Y”;“”位于“,。/”;最后声调因为有输入确认作用,故为方便点击,我将二声、三声、四声和轻声分别放在了DFJK上。这样分组方便记忆。4.2 拼音输入方式拼音输入方式即用户输入汉语拼音直接输出繁体字,使用方式同微软拼音输入法。这个方式是目前最准确、最方便、最简单的繁体输入方式,具体实现方法见下文如何自定义设置。4.3 如何自定义设置本部分以2010为例,原来2003的设置放在3楼。
首先,点击语言栏内的设置,选中微软新注音输入法,再点击属性后你会见到下图所示对话框。
然后,点击Keyboard项出现下图所示对话框。
再次,点选下拉菜单中的Custom项,出现下图所示对话框。在本项中如果选择Hanyu Pinyin项就可以实现4.3中的拼音输入繁体输出。如果已经设置好,但使用一段时间后觉得不合适要改,在出现本对话框后,点击右侧的Customize…项设置。
最后,将红方框中的注音符号拖到你想设置的键位上直到全部设置完。过程中如果想更改,右键点击要更改的键,点击取消即可。全部完成后点击Finish结束。
附件
[查看原图]
注音、拼音对照表[查看原图]
注音符号的来源[查看原图]
注音符号与汉语拼音拼写上的区别[查看原图]
注音输入法键盘排列[查看原图]
我的键盘排列[查看原图]
自定义1[查看原图]
自定义2[查看原图]
自定义3[查看原图]
自定义4[查看原图]
改动
Edit by regit at 2010-10-12 10:17
评分记录 [+0 +4](daijian33)
NGA.178.COM
[鬼霧峰 西西弗] ( 无法通过代理获得Armory数据,或Armory服务器不可用 Wed, 28 Jan 2015 14:00:33 GMT [RELOAD])当别人在海山时,我们在NAXX;当别人在NAXX时,我们在海山;当别人重回海山时,我们却又在NAXX... ...
三:[台湾拼音转换器]深蓝词库转换
2.0版支持多种编码的Rime输入法,支持多种编码的小小输入法,增加了对灵格斯ld2词典格式的支持和英语词库支持,增加了简繁体转换功能,增加了对雅虎奇摩输入法、仓颉平台的支持,增强了对各五笔和郑码输入法的支持,同时优化了内部代码,增强自定义规则的功能。深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等,经过了2个多月的改进,终于深蓝词库转换2.0版正式与大家见面了。在1.9版本中增加了对Rime拼音输入法的支持。
新功能:
一、支持多种编码的Rime输入法。
Rime输入法是一款跨平台的输入法框架,在Windows下叫小狼毫,Linux下叫中州韵,Mac下叫鼠须管。这个输入法框架异常强大,支持各种常用的输入法,而且还可以通过简单的配置自定义输入法。深蓝词库转换在1.9版本中增加了对Rime拼音输入法的支持,现在在2.0中进行了增强,除了拼音外,还能够导入导出五笔、注音、仓颉和其他输入法编码。
例如要将一个qq拼音的分类词库转换成Rime的五笔词库,那么在深蓝词库转换中选择qpyd格式的词库源,目标输入法选择“Rime中州韵”,系统弹出输入法类型选择窗口,在下拉框中选择“五笔”并确定:
然后单击“转换按钮”即可完成词库的转换,将转换结果保存到硬盘上。
接下来到Rime输入法中(以小狼毫为例),选择“用户词典管理”选项,打开词典管理窗口,选中左侧的wubi86,然后单击“导入文本码表”即可完成词库的导入。
用同样的方法,可以导入注音(与地球拼音使用同一个词库,terra_pinyin),仓颉(cangjie5)。当然还有明月拼音(luna_pinyin)。
特别要感谢Rime输入法的作者佛振的指点,才能完成对仓颉输入法词库的生成,在仓颉输入法中对一个词进行编码相当特别,不像郑码、五笔的编码那么简单。
二、支持多种编码的小小输入法。
小小输入法也是Rime输入法一样是一个通用的输入法框架,可以支持多个平台(Windows、Linux等),多个输入法编码。之前1.9版已经支持小小输入法的拼音,在2.0版中进行了增强,能够支持:五笔、郑码、二笔、拼音和其他编码。
比如要将一个搜狗细胞词库转换为小小输入法的郑码词库,那么可以在深蓝词库转换中选择该scel细胞词库作为源,目标词库选择“小小输入法”,系统会弹出一个编码类型选择窗口,在下拉列表中选择“郑码”,然后单击确定按钮:
单击“转换”按钮即可将词库转换为郑码格式,然后保存到硬盘上。
接下来将保存的词库文件复制到小小输入法的安装目录mb文件夹下。然后在小小输入法的属性设置窗口中,左侧选择“郑码”,右侧分词库中输入该词库的路径。
单击“确定”按钮,回到小小输入法,在郑码模式下,我们输入郑码便能够匹配我们导入的词库,如图所示:
同样的方法,可以将五笔、二笔、拼音导入到小小输入法中。
三、增加了对灵格斯ld2词典格式的支持和英语词库支持。
关于英语词库,在很久很久以前就有人提出过该需求,但是由于没有办法解析英语词库,所以一直搁浅,直到最近终于参考了网友的ld2解析办法(http://code.google.com/p/dict4cn/),终于在深蓝词库转换中实现了对灵格斯ld2词典格式的解析,能够以此为源,导出其词条作为能够支持英文输入法的词库。这个功能对于需要输入专业英文的用户很有用,比如医学、金融、化工、法律等等都有专业的英文词典,这些词在输入法中很难自动联想出来,现在只需要下载一本专业的英语词典,然后通过深蓝词库转换导入到能够支持英语词库的输入法中,便可在该输入法中快速录入英文。调查了下英文输入法的支持,结果如下:
搜狗拼音输入法虽然在打2次英文词后会记录下来,但是在导出的用户词库中没有英文词库。
百度PC输入法支持英文词库的导出,在词库最下面,使用“英语单词Tab词频”的格式。
百度手机输入法支持独立的英文词库导入导出,命名为en2.txt,使用“英语单词Tab词频”的格式。
qq拼音输入法支持单独对英文词库的导出,使用“英文单词,词频”的格式。
谷歌输入法不支持英文词库导出。
我们以qq拼音输入法为例,在灵格斯官方网站下载一个英汉医学大词典,然后运行深蓝词库转换,将词库源选择“灵格斯ld2”,系统将会弹出ld2编码设置窗口,选择该词典的编码,对于一般英汉词典,估计是UTF-8格式,如果接下来导出的是乱码,那么说明编码格式不对,需要重新选择,重新导一次,还是不对的话就再换一种编码。
单击“确定”按钮,然后选择目标词库为“QQ拼音英文”。然后点击“高级设置”的“词条过滤设置”选项,在设置窗口中去掉“过滤包含英文的词”,如果想导出词组的话,那么还要取消“过滤包含空格的词”,然后单击确定。
然后单击“转换”按钮即可将灵格斯词库转换为QQ拼音的英文词库格式,保存到硬盘上。
然后到QQ拼音输入法的词库设置界面,单击英文用户词库下的“导入”按钮,选择我们转换而来的词库文件,即可将灵格斯词库导入到QQ拼音中。
四、增加了简繁体转换功能。
这个功能主要是为使用繁体中文输入法的用户(台湾、香港等)而准备的。比如在Rime输入法中,默认是繁体中文的词库,如果导入的词库是简体中文,那么Rime会认为这是2条不同的词条。所以在导入时需要将简体转换为繁体。另外还有就是仓颉、五笔等字型输入法,繁体和简体是完全不同的编码,不能等同。
以Rime为例,要导入一个繁体版的仓颉编码。那么选中源词库和目标词库,然后在高级设置的“简繁体转换设置”选项中,选择“转为繁体”。转换组件分为系统默认组件和Office组件。
设置后单击确定按钮,回到主界面,单击“转换”按钮,即可将源词库转换为繁体中文的仓颉码。
而如果没有设置转换为繁体,系统将会以源词库的字生成仓颉码,可以看到,简体和繁体仓颉码是不同的:
虽然深蓝词库转换能够支持简繁体转换,但是这不是其强项,而且也只是调用外部接口而已,所以术业有专攻,如果需要更精确的简繁体转换,可以使用
TextPro OpenCC
这些工具进行专业的转换。
五、增加了对雅虎奇摩输入法的支持。
雅虎奇摩输入法是一款繁体中文输入中比较常用的输入法软件。雅虎开发,现在已经开源。网站:http://tw.media.yahoo.com/keykey/
这款输入法支持多种输入编码,比如:注音、仓颉、简易等。但是其词库管理中,只支持注音词库的导入导出。深蓝词库转换可以将各种输入法词库转换为雅虎输入法的格式,导入到其中。
以搜狗细胞词库导入雅虎奇摩输入法为例,下载一个搜狗细胞词库scel文件,在深蓝词库转换中选择该scel文件作为源,目标词库设置为雅虎奇摩。单击转换按钮,将词库转换为注音格式的词库,并保存到硬盘上。
打开雅虎奇摩输入法的偏好设置窗口,在词汇选项卡中单击“导入自订词数据库”按钮即可将我们的词库导入其中。我们也可以单击“启动词汇编辑程式”按钮,进入词汇编辑工具,再单击文件菜单的数据库导入选项,导入我们保存的词库文件。
导入成功后,便可在雅虎奇摩输入法中输入我们导入的词汇。
六、增加了对仓颉平台输入法的支持。
仓颉平台输入法是一款基于小小输入法进行开发的输入法。在仓颉之友可以下载,也提供详细的帮助。深蓝词库转换支持仓颉五的编码。使用其他词库可以转换为仓颉平台的词库。对于仓颉平台的词库设置方法与小小输入法非常类似,首先需要将词库转换为仓颉平台的词库保存到硬盘。
接下来将转换的词库文件复制到C:\cjsys\yong\mb,然后在仓颉输入法的设置窗口中,切换到五仓世纪选项卡,为分词库添加我们的分词库文件路径。
添加后即可在仓颉平台中输入我们导入的词汇。
七、增强了对各五笔和郑码输入法的支持。
在之前的版本中,虽然名义上支持五笔输入法和郑码输入法,但是实际上是只取其中的汉字,直接忽略编码,所以各种拼音输入法不支持导出为带编码的五笔或郑码词库。在新版的深蓝词库转换中,可以为每个词生成五笔编码,郑码编码。
所以在2.0版本中,可以选择:极点五笔、极点郑码、小鸭五笔等作为目标数据库,将各种源词库导入其中。
八、增强自定义规则的功能。
自定义规则功能允许用户指定外部的编码文件,指定词语的编码生成规则,词语、编码、词频的排序、分隔符等。
比如我们有一个自定义的编码表,该表中给出了每个汉字的编码,一字一码,Tab分割。然后想对一堆词语进行编码,于是操作如下:
在深蓝词库转换中选择源词库和其输入法。在目标词库中选择“自定义”,系统将弹出自定义词库编码窗口,再单击右上角匹配规则设置按钮,设置匹配规则如下:
是说我们导出的词库文件,编码不是拼音编码,不包含词频,先显示编码,后显示汉字,之间用空格隔开。对于2字词,3字词和4字及以上的词,编码规则为各个字取一部分。下面的文本框中给出了预览效果。
然后回到自定义词库编码窗口,选择一个编码文件,这里我们选中行列30输入法的Mapping表作为编码文件。单击测试编码按钮可以看到在行列30输入法下的编码样子。
单击确定回到主窗口,单击转换按钮便可实现将指定的源词库转换为自定义词库。
九、词库列表增加百度拼音PC版
百度拼音PC版本身支持搜狗、谷歌等输入法的词库格式,所以一直没有将其添加到深蓝词库转换的输入法列表中。这样会让用户觉得是不是不支持百度PC输入法,所以为了避免用户误会,在输入法词库列表中增加了“百度拼音”。
十、重构代码,增强基本功能与命令行功能。
在源词库列表中,去掉了触宝输入法的选项,因为触宝修改了备份文件的格式,而且不支持文本文件词库的导入导出,所有现在暂时没办法支持触宝输入法。期待着触宝对词库导入导出功能的增强。
本来主窗口有2个按钮,一个负责“转换”,转换完成后询问用户是否保存转换结果。另一个“导出”按钮其实就是将下面文本框的内容保存到硬盘。由于支持的词库格式更多,各种格式不一,在文本框中进行编辑再保存就没有那么必要了。所以取消了这个按钮。使用一个更大的“转换”按钮代替,使得操作更简单。
从一个只支持拼音词库的工具到能够支持多种输入编码,多种格式解析的工具,其内部代码也必须进行了大量的调整,使得整个工具能够更易扩展,更强大。由于要支持仓颉、五笔、郑码、二笔等等输入编码的生成,所有必须在内部维护每个汉字与编码的Mapping表,所有也就使得该软件体积变大了不少。
另外,增加的输入法也需要更多的设置窗口,更强大的自定义功能,使得其内部变得复杂了很多,最近几天在写自定义编码的实现时,感觉脑子都要被搅糊了。所以必须要花更多的时间来维护代码的结构,不断重构代码,保持代码的清晰易读。
软件标签: 深蓝词库转换 搜狗细胞词库 百度手机输入法 QQ手机拼音
该小工具基于C#开发,所以电脑上必须安装.Net Framework 2.0才能正常运行,如果双击“深蓝词库转换.exe”后弹出错误窗口,请下载安装.Net Framework 2.0再试。
该软件需要在 .Net 环镜下才能运行,请安装 .NET Framework V2.0 可再发行组件包: http://www.cr173.com/soft/2572.html
软件截图