はじめまして臼田です 一太郎(Ver.7〜Ver.10)用のフィルタと 一太郎(Ver.5,Ver.6)用のフィルタを作成してみました。 最近、バイナリエディタを使う機会があったのでふと思いついて 一太郎のファイルを眺めていたところ、テキスト部分がUTF-16やSJIS でそのまま入っているようでした。 そこで、既存のもの、Kenji さんが書いているドキュメント等を参考 にフィルタを作ってみました。 表組みや図挿入時の特殊コードは完全には除去していないので 余分な文字がまざりますが、検索用途であればなんとか使えそうな 気がしています、皆さんの評価をいただければと思います。 できれば文書フォーマットを詳しく調べて修正してくださる方がい ればありがたいと思っております。 動作確認は FreeBSD 3.2-RELEASE Namazu2.0.12 perl5.005_03 built for i386-freebsd で行っております。(古い環境ですみません) 添付している一太郎7〜10のフィルタには UTF-16をEUCに変換するプログラムとして下記のサイトのunicode.pl を使わせて頂いているため、こちらも必要になります。 http://www.onicos.com/staff/iz/release/ 臼田幸生
Attachment:
taro56.pl
Description: Binary data
Attachment:
taro7_10.pl
Description: Binary data