Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: cannot apply to Word documents by namazu 2.0.5 on FreeBSD 4.3



竹迫です。

"Shigehiro Miyashita" <mya@xxxxxxxxxx> wrote:
> > これでも Word 形式のファイルがうまく取り扱えない場合は、
> > Namazu for Win32 版の OLEフィルタを利用する方法が確実だと思います。
> > 
> こちらなんですが、どうも今回対象とした英語の Word のファイルでは、うまく
> インデックスが作れない状態です。
>
> # この件は改めて win32-users-ja に投げるつもりではおりますが。

なるほど。

私のところでは、Namazu 2.0.7pre1 / WindowsNT4.0SP6 / Office 2000
の環境で、英語の Word 文書ファイルを数百個程度取り扱っていますが、
今のところそのような問題は起こっていないようです。

この現象の詳細が確認でき次第、Namazu 2.0.7 for Win32 正式リリース
までに、フィルタ側で対応できる問題であれば改善したいと思いますので、
できましたら詳しい状況を教えていただけると有難いです。

# namazu-win32-users-ja@xxxxxxxxxx でお待ちしております。(^^)

> Windows 2000 Professional に Office 97 一式をインストールした状態で
> Namazu 2.0.6 for Win32 を導入してみたのですが、あきらかに本文中に含まれ
> ているキーワードがうまく抜き出せていないように見えてます。同じ環境で、日本語を含んだ
> Word/PowerPoint/Excel のファイルについてはうまくキーワードが抜き出せてい
> るように見えたので、参考比較に UNIX 版に挑戦した次第です。

インデックスの作成されたディレクトリ中の NMZ.w というファイルの中に、
文書から抽出された単語の一覧が記載されています。

EUC-JP の扱えるテキストエディタで NMZ.w ファイルを開くことによって、
どのような単語が抽出されているかを確認することができますので、
興味がありましたら、こちらもお試しください。

--
  広島市立大学 情報科学部 情報機械システム工学科 知能ロボット講座
     竹迫 良範 <takesako@xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx>