namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Non wakatigaki



黒田です。Namazuとは関係のない話になりますが

> □■ Satoru Takabayashiさんから 11月26日(Thu)14時35分頃に頂いたメイル、
> ■□『 [namazu:01661] wakatigaki with perl (Re: HTML detection) 』より。
> >できれば kakasidict にある『北陸先端科学技術大学院大学』のような長
> >い複合語 (?) を細かく分解したり、あるいは大きなわかち書きと細かい
> >わかち書きを併記するオプションがあると嬉しいです。
> 
> そもそも「意味のある単語でのわかち書きをやめて、最少単位まで切って
> その繋がりに意味を持たせる」という方向性はどうでしょう? 例えば、
> 「北」→「陸」→「先」→「端」のようなイメージです。「陸先」では
> ひっかかるけど、陸北先端ではひっかからない、という感じ。

> 結構、こういうタイプの検索エンジンって増えてきてますよね(?)。いや、
> 実装がどうなっているのかまでは知りませんが、感覚的に(^^;。
> まさかgrepとも思えないですし(^^;;;。

実際どのくらいの検索エンジンがこうなっているかは知りませんが、
学術系の検索エンジンで僕の知っている範囲では 
http://verno.ueda.info.waseda.ac.jp/
くらいしかないですね。商用系の検索エンジンってどうなっているのでしょうね?

はらださんから聞いた例では
「東京都」を調べると「京都」がでてきてしまう。
「東京大学」を調べると「京大」がでてきてしまう。
だから形態素解析方式の方がきもちがいい。
ぼくもそう思って、形態素解析方式にしています。

---------------------------------------------------------
Yosuke Kuroda  yosuke@xxxxxxxx 
Manager of search engine Ringring http://www.kuro.net/.
検索エンジンRingring http://www.kuro.net/ 運用管理者