EPWING2TEXT

epwing转text主要有3种方法:

  • 1.用ebdump(用ebdump提取epwing词典的文本图片等),不过这样提取出来格式不好分离出来,词条不好定位。
  • 2.PDIC,可以将epwing格式的词典转换为pdic格式,再从pdict格式中获取文本,转换过程中外字也可以替换掉,不过用PDIC提取,会有部分内容没有提取出来。方法见:link
  • 3.DDWIN 2.30 ,这里要介绍的方法,参考自:http://diamondsky.org/other/japanese/pdic.php

工具:

主要步骤:

  • 1.用DDWIN获取文本,得到的文本格式每个词条以空行分开。
  • 2.将外字.map文件转换为.tsv格式
1
2
3
4
on	[hA121]	@@u2019
on [hA122] @@u0192
on [hA123] @@u201E
on [hA124] @@u2020

间隔为tab,@@本来为\,不过批量替换时会被EmEditor过滤掉,所以用@@代替,最后再替换为\

  • 3.用EmEditor导入.tsv文件,批量将外字替换为通用字符(\u123)格式。
  • 4.将通用字符替换为Unicode。

效果:

大部分的外字都可以替换掉,剩下少部分的是外字.map里没有收入的,可以手动替换掉。

详细转换过程见视频:

http://pan.baidu.com/s/1i3GjjRv