Monday 15 November 2010

繁简转换

繁简转换并没有尽善尽美的解决方案,按单字转换有98%的准确率,剩下那2%,需要分词了。分词本身就没有100%正确的算法了。

基于iconv可以这么做:iconv -f BIG5 -t GB2312。注意这是按单字转的。如果要从UTF-8过来,还更麻烦些:iconv -f UTF-8 -t BIG5 | iconv -f BIG5 -t GB2312 | iconv -f GB2312 -t UTF-8。这也不支持GBK的。

更好些的是cconv:cconv -f BIG5 -t GBK。处理UTF也方便些:cconv -f UTF8-CN -t UTF8-TW。支持更大些字符集。据说也支持分词但我没试出来。还提供php的库支持。那用JNI集成到Java里也不难,至少在Linux下是这样。

No comments: