epwing转text主要有3种方法:
- 1.用ebdump(用ebdump提取epwing词典的文本图片等),不过这样提取出来格式不好分离出来,词条不好定位。
- 2.PDIC,可以将epwing格式的词典转换为pdic格式,再从pdict格式中获取文本,转换过程中外字也可以替换掉,不过用PDIC提取,会有部分内容没有提取出来。方法见:link
- 3.DDWIN 2.30 ,这里要介绍的方法,参考自:http://diamondsky.org/other/japanese/pdic.php
工具:
- DDWIN 2.30
- 外字文件
- 文本编辑器:EmEditor
主要步骤:
- 1.用DDWIN获取文本,得到的文本格式每个词条以空行分开。
- 2.将外字.map文件转换为.tsv格式
1 | on [hA121] @@u2019 |
间隔为tab,
@@
本来为\
,不过批量替换时会被EmEditor过滤掉,所以用@@
代替,最后再替换为\
- 3.用EmEditor导入.tsv文件,批量将外字替换为通用字符(\u123)格式。
- 4.将通用字符替换为Unicode。
效果:
大部分的外字都可以替换掉,剩下少部分的是外字.map里没有收入的,可以手动替换掉。