Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: xlHtml



Ryuji Abe <raeva@xxxxxxxxxxxx> wrote:

>> テスト用のファイルを test/data/ja に入れてもらえます? 僕も試
>> したいので。:)
>
>Excel 8 (Excel 97)形式のファイルをcvs addだけしておきました。

確認しました。 xlHtml と lv を通すときちんと日本語のファイル
が扱えますね。メイル末尾に実行例を添付しておきます。

ちなみに、xlHtml の README に次の記述がありました。:)

  The text only browser, w3m, could be used as follows for Japanese:

    xlHtml file.xls | lv -Iu8 -Oej | w3m -T text/html

   (Thanks to Hironori Sakamoto for this suggestion.)


>日本語Excel 6/7は多分ダメだと思います。

msword.pl では wvVersion を用いて古い版のファイルを除外して
います。xlHtml でも Excelファイルの版を調べられるといいんだ
けど。

# どなたか作者に要望を出してもらえませんか?


そういえばまだ File-MMagic が Excel のファイルを正しく認識で
きないようですね。

[namazu-dev 1805]
|   先程、ad-hoc ぎみながらとりあえず動作するよう修正したのですが、まだ
| ちょっと問題があります。具体的には、subtest entry に複数マッチしてしま
| うとそれら全てを返してしまうのです。
| 
| # file コマンドもそういった挙動をするはず。
| 
|   このため、広瀬さんにいただいたテスト用データの excel だと
| 
| application/excelapplication/powerpoint
| 
|   といった感じの出力がされてしまいます。

application/excel をばしっと返してもらえると嬉しいです。

  application/x-office; x-subtype=excel
  application/x-office; x-subtype=powerpoint
  application/x-office; x-subtype=word

のような出力はできれば避けたいです。


>> あと、 Word97 のテスト用のファイルも欲しいです。どなたか作れ
>> ませんか?  本メイルに添付した Word98 の文書と同じ内容で作っ
>> てもらえると助かります。
>
>ファイル形式はどちらもWord 8で同じはずですが。

それを確かめたいのです。

-- Satoru Takabayashi

% xlHtml excel97.xls |lv  -Iu8 -Oej |w3m -dump -T text/html  
 
                                   Sheet1                                   
 
 
┌─────────────────────────────────────┐
│Namazuは手軽に使えることを第一に目指した日本語全文検索システムです。この  │
│ファイルはテスト用です。                                                  │
├─────────────────────────────────────┤
│                                                                          │
├─────────────────────────────────────┤
│test@xxxxxxxxxx                                                           │
└─────────────────────────────────────┘

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 
Spreadsheet's Author: TA
Last Updated using Excel 97
 

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 
Created with xlHtml 0.2.6