|
|
我后面关于组合与避免重码的关系叙述正确吗?
----------
许多人对于输入法词条编码花费了大量精力,北大中文论坛的输入法板块几乎一直都是最热的.
但愿有严谨的数学理论供大家参考.
极致4码
"英雄所见略同",若有雷同,纯属巧合.
-------------
仅谈单字编码,因为这是基础.
双拼+首笔,次笔组合码+次末笔,末笔组合码.据此,则仅1笔的字的编码的笔画部分为 首+首)+(首+首);2笔的 首+次)+(首+次);3笔的 首+次)+(次+末)
为便于大家diy,附件[ataorj.ys168.com]提供的是全拼,笔划也没有组合成(25个)单码
笔划:横竖撇捺[含点]折:[h]{s}[p][n][z](注:s使用中括号,则论坛上显示删除线)
===========================
大唐6688的词库分析及提取.exe的报告:
---------
重码有 1 个的编码共 4790 个,对应词条总数为: 4790 占词库总量的 77.84%
重码有 2 个的编码共 494 个,对应词条总数为: 988 占词库总量的 16.05%
重码有 3 个的编码共 95 个,对应词条总数为: 285 占词库总量的 4.63%
重码有 4 个的编码共 16 个,对应词条总数为: 64 占词库总量的 1.04%
重码有 5 个的编码共 4 个,对应词条总数为: 20 占词库总量的 .32%
重码有 6 个的编码共 1 个,对应词条总数为: 6 占词库总量的 .09%
词库词条总量为 6153 条,加权平均重码数为: 1.3
统计分析完毕,本次处理共耗时1秒
其中排序时间为1秒
================================
我的分析:
GB80-2312共415/?种音,yi同音字最多:158.两码双拼可至此.
25*25=625,这说明,再加两码在理论上可区分出158同音字.
当然,严格说,25*25*25=15625,总共3码'应该'足可区分出全部GB80-2312汉字6763个及其同音字.[注:附件是不限于GB80-2312且比它实用的水平测试字表5500字及其多音字+我添加的10来字]
大家不妨从研究yi同音字的区分方案开始
3码:1双拼音+1形音
首笔次笔连续不好,比如它们在偏旁禾上时,而有禾旁的字很多,可首笔末笔组合成25码
3码不足以区分时,可考虑增加1形音:次笔次末笔再组合成25码
但是这时,连续笔画已不可避免[因为这样的四码才合理],就没有必要非要首笔末笔组合成25码,次笔次末笔再组合成25码了.因为,规则统一,一字码顺变,另一字也变,对同码没有改变作用.只是,若是非重码时,首笔末笔组合成25码更容易比较早排除掉不合要求的字,早点避免了干扰而已.
注:偏旁形不容易操作,重码还多.而首末笔顺容易形成统一共识,这说明其是很规则容易的.
|
|