Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 日本語を抽出するプログラム



小舞です。

Hiroshi ADACHI さんは書きました。
>ちょっと理解できなかった点があります。
>2点ほど使い方の質問をさせてください。
>
>
>1. Window用とのことですが、Windows上のWeb serverにてnamazuのように動作させて
>   indexを作成することは現時点で可能なのでしょうか。もしくは将来可能になるの
>   でしょうか。
現時点では、
http://www.kilab.tama.or.jp/%7ekomai/ninjn/media/index.html
で書いたように、自分では動かしています。
ただ、この使い方は、「なまず」本来備わっている、更新されたら差分のファイルだけIndex化する
等の「なまず」本来の持つ様々な利点を損なう使い方ではあります。
(というかCD-Rのように、ファイルが更新されない、固定されたファイル群を
対象にしています)

というわけで、いわゆるWWWサーバー上でCronを使って、「なまずを飼う」という
使い方に合致してるとはとても言えません。

(毎回、すべてのファイルに対してIndex化するように、上記URLのような使い方を変えれば
当然できますし、このにんじんは安定第一ですので、テキスト抽出のところでこける
ことは原理上有り得ないため、時間がかかっても構わないのであれば、上記URLのような
使い方は現時点でもできます。)

ただし、これは、あくまで、テキスト抽出をWindows上では1つのプログラムで
やってしまえ!という観点から作りましたので、ご意向に沿うかどうか不明です。


>2. 1.が可能な場合、*.docは従来のフィルターで、(たとえばVISIOの)*.vsdはこの
>   にんじんで、という自動切換はできるのでしょうか。
自動切り替えは、ありません。というか拡張子は、そもそも全然見てもいません(^^;)
とにかくどんなファイルでも、「にんじん」の想定文字データ格納モデルに
合致していれば、どんどん抽出します。(ゴミも大量にでますが。)

或いは、「なまず」のフィルターに、「にんじん」を登録してしまえばできるとは
思いますが、その辺りになると、自分も現在検討中です。


>暫く前のスレッドでも書きましたが、Visioのindexを作りたいニーズがあるのです。
>このにんじんでそれが出来れば嬉しいのです...。
>
>
>もうすこしよく読めばわかるのかもしれませんが 質問してしまいました。
>よく読めとおっしゃらず、教えてやってください。
>よろしくお願いします。
こんな感じで宜しいでしょうか?

追伸
MSの製品ならば、内部コードはUnicodeでしょう。(最近のアプリなら)
ですからVisioもそうなっている可能性は高いと思いますので、ゴミはでますが、
ある程度日本語は全部抽出できるのではないか?と思いますが。。
すみません、テストして下さるか、
例題のファイルをGFH05144@xxxxxxxxxxxまで
送ってきて下されば幸いです。こちらでも確認してみても良いです。
その際、答えは言わないで下さいね!
(あと、できるだけ小さいファイルでお願いします。。)

ところでVisioって何ですか?