|
我用的输入法是王林快码,输入法软件是rime,在windows,linux,和ios上都是。这是个我非常喜欢的输入方案,音形码,易学易记,科学规律,重码低选字少,我抛弃了以前用的双拼,小鹤音形。
我完善过这个输入法,从原始码表合并了一个键适合微软27键键盘,简单替换下就行,又纠正了多400多音字。多音字需要一个个甄别,工作量不算大。
现在能完善的就是扩充词库了,原来有七万多二字组也够了,但搜狗词库二字组有十四万多,我可以用excel排序再diff和grep的方式把搜狗独有的二字组分离出来,但怎样把这些词库用王林快码正确地替换必须会编个脚本处理不可,熟悉python或shell的应该有思路,这就是难倒我的地方。
比如王林快码中爱是avie 情是qnac 爱情二字组就取前两个是avqn ,有王林快码单字的码表有6000多个字,需要把搜狗词库中的二组匹配快码码表中的单字前两位组合成二词组码。
也许扩充会导致重码率上升,现有的码表已包含了高频核心二词组,但也要等分析词库的重码率后才能确定。现在有四码理论上有27的四次方空间,才有七万多被利用,还有不少富余的空间。当然扩充很难自动匹配多音字,但已经迈开了一大步
希望有程序大神指导一二。 |
|