Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: --html-split (namazu-bug#10)



Hisashi Hoshino <panda@xxxxxxxxxxxx> wrote:

>>直しました。 namazu-bug#11 も直しました。
>># 直したつもりですがテストはほとんどしていません。今からしば
>># らく席をはずします。戻ってきたらテストプログラムを書きます。
>
>こちらではうまくインデックス作成とupdateがうまく行くようにな
>りました。

テストプログラムを作っているうちに、あれこれと問題が発覚しま
した。強引に --html-split を導入したのは無理があったようです。
気づいた点については一通り修正しておきました。

考えていること:

  * ファイル? 文書?
    - 現在はこれらの概念がごっちゃになっている
    - 文書という概念に統一したい 
    - ファイルでないものを平等に扱いたい

  * --html-split について
    - 汎用性のないオプション名である
    - 他の形式の文書も分割したくなるだろう
    - --doc-split にすればよかった
    - 動的に分割するのが厄介である。処理が複雑すぎる
    - インデックス処理に入る前に事前に分割した方がいい
    - 例によって安易な実装で後から苦労することに
      + 教訓が生かされていない…

  * 対象文書の選択について
    - 現在は mknmz が対象文書を選択している
    - 別のプログラムにした方がすっきりするのだが…
      + select-target-documents | mknmz

  * KAKASIの改造 (他力本願)
    - 短くわかち書き、長くわかち書き、両方を出力を切り替えたい
      - 例: 短く: 奈良 先端 科学 技術 大学院 大学
            長く: 奈良先端科学技術大学院大学
            両方: 奈良 先端 科学 技術 大学院 大学 奈良先端科学技術大学院大学

これらの問題を解決するには思いきった書き直しが必要です。いつ
になったらやる気が起きるかな…。

-- Satoru Takabayashi

おまけクイズ:
レイモンド・スマリヤン著、長尾確訳『無限のパラドックス』より

封筒のパラドックス

  2つの封印された封筒が机の上にある。きみたちは、一方に他方の2
  倍のお金が入っていると聞かされる。そして、1つを取り、中にい
  くら入っているかを見たとする。それを100ドルとしよう。そのと
  き、きみたちはそのお金を取るか、もう一方の封筒と交換するかと
  いう選択のチャンスがもらえるとする。さて、もう一方の封筒には、
  100ドルの倍の200ドルか、半分の50ドルが同じ確率で入っているこ
  とになる。つまり、きみたちがもう一方の封筒を取ったとき、200
  ドルもらえる確率と50ドルもらえる確率は等しいのだから、得をす
  る確率も損をする確率も同じだということだ。だから、交換した方
  が得なオッズになっているだろう