全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 901- 最新50
- 全文検索エンジンEstraier
-
1名無しさん@お腹いっぱい。04/11/12 10:08:19
-
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。
http://estraier.sourceforge.net/
-
2名無しさん@お腹いっぱい。04/11/12 10:49:39
-
,,-‐''""''ー--е >1把握した
.|"" . .|| >3(´・ω・`)知らんがな
. ;;| VIP連合 .|| >4おっぱい!おっぱい!
:: .;;| ...|| >5ピザでも食ってろデブw
.:::::;:;| ,ノ""""|| >6僕は、神山満月ちゃん!
.:::::;;:| ,/""" 人 ;n|| >7夢がひろがりんぐwwwwwww
"" (__)./ ) >8だから個人宛てって言ってんじゃよ
(____./ /|| 人 >9そんなことロスでは日常茶飯事だぜ(´・ω・`)y─┛‾‾‾‾
V・I・P>∩(・∀/ / (__) >10-1000それが、VIPクオリティ
\ ( と) (__) >1001イヤッッホォォォオオォオウ!
〈 〈 ヽ )\(´∀` ) n
(_)(ノ, \ ( E)
| VIP /ヽ ヽ_//
-
3名無しさん@お腹いっぱい。sage04/11/12 11:20:47
-
おいオマエら、MewからEstraierを使う方法を教えてください。
>>4
4様禁止
-
4名無しさん@お腹いっぱい。sage04/11/12 11:35:14
- 5様
-
5名無しさん@お腹いっぱい。sage04/11/12 11:48:40
- 4様
-
6名無しさん@お腹いっぱい。sage04/11/12 11:52:37
- 3様
-
7名無しさん@お腹いっぱい。sage04/11/12 12:10:47
- Q様
-
8名無しさん@お腹いっぱい。sage04/11/12 12:28:26
- 1様乙
で Namazu と比べてどこがどうなの? 使ってる人教えてプリーズ。
-
9名無しさん@お腹いっぱい。sage04/11/12 12:35:09
- 道を歩いてたら発砲されたよ
-
10名無しさん@お腹いっぱい。sage04/11/12 12:49:46
- Namazuにくらべて、検索語の周辺文を要約として出してくれるのがいい。UIはGoogleにソックリ。
性能や検索精度はいっしょぐらいかな。あと、関連検索がちょっと面白い。
-
11名無しさん@お腹いっぱい。sage04/11/12 12:55:37
-
>>10
Namazuは単語の出現位置をインデックスに記録しないからね。
ランキングはよくわからん。ちなみにNamazuにはPageRankハックが
あったけど、特許申請されているという理由(その後特許になっている)
で採用は見送られている。
-
12名無しさん@お腹いっぱい。04/11/12 12:58:59
- 自分が使ってみた感じでは、精度はEstraierの方が上なような。
-
13名無しさん@お腹いっぱい。sage04/11/12 20:15:44
- namazu スレの766です。Estraier試してみますた。namazuに
くらべて複合語検索にずいぶん強いすね、「拡散接合」とか
「絶縁限界」とか。indexingもだいぶ早いような希ガスます。
かなーり良さげなんで、しばらく使ってみることにします。
-
14名無しさん@お腹いっぱい。sage04/11/12 20:29:10
- メタ検索機能って使ってる香具師いる?
-
15名無しさん@お腹いっぱい。sage04/11/12 21:17:04
-
>>12-13
ほほう、さすが評判になってるだけによさげっすね〜。
自分も乗り換えてみたいけど、gnus-namazu と Namazu の自作フィルタがある
からかなり気合いがいるなあ…(´・ω・`)
-
16名無しさん@お腹いっぱい。sage04/11/12 21:28:33
- namazu用のフィルタってestに使えないのかな。
改造するとしたらどれくらい手間かかりますかねぇ。
-
17名無しさん@お腹いっぱい。sage04/11/12 22:46:00
- インデックス作るのは相当遅い。
検索速度は同じぐらいかな。
まぁ単純には比較できないか。
namazuは自作フィルタで重み付けをやっているので
その部分を何とかできればなぁ。
みんな乗り換えたの?
-
18名無しさん@お腹いっぱい。sage04/11/12 23:17:46
- そうか? インデクシングはestraierの方がずいぶん速い気がするんだが。
-
19名無しさん@お腹いっぱい。sage04/11/12 23:20:14
- インデックスはEstraierはQDBMベースだからhashとB+Treeか。
一方、Namazuは二分木だっけ。
-
20名無しさん@お腹いっぱい。sage04/11/12 23:48:16
- 二分探索であって二分木ではないと思われる。
-
21名無しさん@お腹いっぱい。sage04/11/13 00:54:38
-
>>16
Namazuのフィルタ部分だけを使えるみたいだから
なんとかできるのでないかな。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-September/000111.html
-
22名無しさん@お腹いっぱい。sage04/11/13 01:18:03
-
>>21
サンクスコ。なんかいけそうな予感。
-
23名無しさん@お腹いっぱい。sage04/11/13 02:03:09
- ってゆーか、初めて知った。デモを使ってみたらスゲーいいじゃん。
Namazuから乗り換えよっと。
-
24名無しさん@お腹いっぱい。sage04/11/13 03:46:15
- Estraier て読み方わからん。これ何語よ。
あと sourforge の ML アーカイブもなんか
文字コードおかしくね?
-
25名無しさん@お腹いっぱい。sage04/11/13 03:49:47
- 超昂天使だろ
-
26名無しさん@お腹いっぱい。sage04/11/13 04:57:49
-
>>24
> あと sourforge の ML アーカイブもなんか
> 文字コードおかしくね?
それは周知の事実。わざわざMailmanの改悪版を作っておきながら
直す気もないので、SF.netで日本語のMLを立てるべからず。
-
27名無しさん@お腹いっぱい。04/11/13 06:46:50
-
>>24
> Estraier て読み方わからん。これ何語よ。
Q. : 「Estraier」はどう発音するのか。
A. : 「estraier」は昔のフランス語で「さまよう」もしくは「はぐれる」という意
味の言葉だそうだが、作者はそれをどう発音すべきか未だに知らない。
-
28名無しさん@お腹いっぱい。sage04/11/13 07:20:34
- えとれあ、とかなんとかじゃねの。
これ見た初め、2バイトコードなんか全然知らない
フランス野郎がつくったソフトかと思たーぜぃ。
-
29名無しさん@お腹いっぱい。sage04/11/13 08:39:39
-
>>28
フランス野郎が作ったのはこっち。
http://www.gnu.org/software/mifluz/
-
30名無し象は鼻がウナギだよもん!sage04/11/13 08:41:09
- えすとれーるでないのと言ってみるテスト。
e(離れて) + traire(引く) → estraire(v) → extraire
→ estraier(adj) → etrange, etranger
-
31名無しさん@お腹いっぱい。04/11/13 09:02:52
- % estindex register test
としてみると
:
estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0
estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667
estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667
estindex: INFO: test: registration completed successfully
となるのは、これはどこか変なんだよな?
-
32名無しさん@お腹いっぱい。04/11/13 09:54:11
- はてなダイアリーには「えすとれいあー」と振り仮名があったな。
ちゃんと全文検索エンジンで。
漏れも時間できたらNamazuから乗り換えてみよう。
-
33名無しさん@お腹いっぱい。sage04/11/13 09:58:01
-
>>31
registration completed successfullyって言うてるやん。
-
34名無しさん@お腹いっぱい。sage04/11/13 11:35:01
-
>>31
wnum=0 ってなってるから、単語が抽出できてないんでないの?
ファイルが空か、パーミッションがないとか。
だったらsuccessfullyってのも変だが。
-
35名無しさん@お腹いっぱい。sage04/11/14 00:33:45
- 「エスレール」とかちゃう?
-
36名無しさん@お腹いっぱい。sage04/11/14 01:35:29
- 古仏語でsは脱落してもtは脱落しないのココロ
-
37名無しさん@お腹いっぱい。04/11/14 12:45:55
- 1.2.25リリースage
-
38名無しさん@お腹いっぱい。sage04/11/14 16:17:30
- 文書分類機能がなかなか面白いね。
俺も乗り換えてみるか。
-
39名無しさん@お腹いっぱい。sage04/11/14 16:45:42
- 古仏語の発音は、時代によって変わるから難しいな
今のフランス語と違って、ほぼローマ字読みだったはずだけど
「エ(ス)トライエル」ぐらいか(ラ行は巻き舌音)
-
40名無しさん@お腹いっぱい。04/11/14 16:49:29
- "est*"でいいやん。
-
41名無しさん@お腹いっぱい。sage04/11/14 17:00:17
- 現代フランス語としての発音はどうなの?
-
42名無しさん@お腹いっぱい。sage04/11/14 17:05:12
- 仏語は母音衝突を嫌う。三重母音が存在したとは考えにくい。
語尾がerになった時には既にaiは単母音化していただろう。
-
43名無しさん@お腹いっぱい。sage04/11/14 17:12:44
-
>>41
aier は現代仏語としてはありえん綴りだが
無理に読めばエストレー(ル)かのお。
末尾のrを発音するかどうかはまちまちだろう。
が、仏人は当然学校で古仏語を習ってるので
よほどのdqnでない限りは古仏語読みを試みると思われ
32の英語読みが爽やかだ
-
44名無しさん@お腹いっぱい。sage04/11/14 17:16:25
- 口では「えすとなんとか」と呼んでいます。
-
45名無しさん@お腹いっぱい。sage04/11/14 17:19:10
- 現代仏語しかやったことないけど、エストレー(ル)は近いと思う。
-
46名無しさん@お腹いっぱい。sage04/11/14 17:20:24
- めんどいからなまぜに改名しようぜ
-
47名無しさん@お腹いっぱい。sage04/11/14 17:26:02
- そういやluceneの読み方も物議を醸してたな。
-
48名無しさん@お腹いっぱい。sage04/11/14 17:48:28
- Namazu後継で「なまこ」
-
49名無しさん@お腹いっぱい。sage04/11/14 17:49:24
- あー、estraierはvuidierと韻を踏むのか。
じゃあエストライエルかエストレイェルだな。
-
50名無しさん@お腹いっぱい。sage04/11/14 20:09:51
- ここは検索対象としない(インデックス作成を除外)の指定
Namazuの EXCLUDE_PATHに相当するオプションってあるのでしょうか?
-
51名無しさん@お腹いっぱい。sage04/11/14 22:13:25
- エストライアーとかエストレイルかな。
-
52名無しさん@お腹いっぱい。sage04/11/14 22:28:20
-
>>50 EXC_DIR オプションスイッチ、
今のところ無いように見える。
indexingさす dir を明示して
とりあえずしのげ、つうことでわ。
-
53名無しさん@お腹いっぱい。sage04/11/14 22:31:09
-
>>50 多分 -ipre オプションでできる。
-
5450sage04/11/14 23:25:42
-
>>52,53
-ipreは、無視するファイル名を書くようですね?。このディレクトリー以下全部除外。ってのは無理?
やはり、一個一個ディレクトリー指定していくほか無いようですね。
いやほら 403で見れなくしてても、namazuもそうだけど、お構いなしに database作って
大漏洩になっちゃうから・・
-
55名無しさん@お腹いっぱい。04/11/14 23:31:15
- 希望の仕様をまとめてお願いしてみろよ。
-
56名無しさん@お腹いっぱい。sage04/11/14 23:37:43
-
>>54
prefixのpreだと思われる。だから、前方一致でヒットすれば無視されるはず。
-
57名無しさん@お腹いっぱい。sage04/11/14 23:49:06
- まだインスコもしてないから判んないんだけど Namazu の --target-list み
たいに find でファイルリスト作っといてそれを食わせるとかできないの?
-
58名無しさん@お腹いっぱい。sage04/11/15 00:03:02
-
>>57 それはできる。
-
5957sage04/11/15 00:22:37
-
>>58
thx。それが出来ればどうとでもなるよね。find の方が融通が効くからいろい
ろ指定したいときは Namazu でも find 使ってるな、俺。
-
60名無しさん@お腹いっぱい。sage04/11/15 01:28:33
-
いっそのこと、デフォルトで標準入力からファイルのリストを取るようにすればいいのにね。
そうすりゃ変なミスはしなくなる。ついでに全部URLで指定することにして、
file:///home/hoge/public_html/abc.html
file:///home/hoge/public_html/def.html
とか
みたいに指定できれば、ローカルとリモートを区別しないで登録できてよくない?
-
61名無しさん@お腹いっぱい。sage04/11/15 15:04:13
- 断固として日本人が普通に読める名前への改名を要求する。
-
62名無しさん@お腹いっぱい。04/11/15 16:40:59
- df ってなんて読むんですか。
-
63名無しさん@お腹いっぱい。sage04/11/15 17:26:14
-
UNIXに関する言葉のひらがな読みスレッド
http://pc5.2ch.net/test/read.cgi/unix//
-
64名無しさん@お腹いっぱい。sage04/11/15 18:30:24
- >断固として日本人が普通に読める名前への改名を要求する。
儂の妄想:〜いろんな名称・呼び方で紛糾。最終的に「Nanashi」で定着〜
-
65名無しさん@お腹いっぱい。sage04/11/15 18:45:39
- コート脱いだらハワイの Estraier 萌え
-
66名無しさん@お腹いっぱい。sage04/11/15 20:14:59
- えすたん
-
67名無しさん@お腹いっぱい。04/11/16 13:07:25
- 試しに入れてみたけど、estraierめちゃくちゃいいじゃん。
-
68名無しさん@お腹いっぱい。04/11/16 14:23:45
- estindex: QDBM does not feature iconv
と言い出して動かなくなってしまった。
-
696804/11/16 14:42:48
- ふむ
以前、
>% estindex register test
>
>としてみると
>
>:
>estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0
>estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667
>estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667
>estindex: INFO: test: registration completed successfully
>
>となるのは、これはどこか変なんだよな?
とポストした者だが、その後1.2.15にバージョンアップしたところ
>estindex: QDBM does not feature iconv
>と言い出して動かなくなってしまった。
ということのようだ。同様の人はいませんか?
どこが壊れてるんだろう??
-
70名無しさん@お腹いっぱい。sage04/11/16 15:44:29
-
>>68
メッセージ通りだと思われ。
configure のオプションはどうしてる?
qdbm は estraier 付属のもの使ってる? 別途入れてる?
うちは FreeBSD の ports で入れたら同じこと言われたんで、
確認したら別途インスコされた qdbm に --enable-iconv が
入ってなかったんで直したよ。
-
71名無しさん@お腹いっぱい。sage04/11/16 16:54:53
- じゃあ、改名しなくてもいいから作者は読み方を決めろ。
-
72名無しさん@お腹いっぱい。sage04/11/16 16:59:25
- Senと書いてChihiroと読むように
Estraierと書いてSnatcherと読む。
-
73名無しさん@お腹いっぱい。04/11/16 18:59:03
-
>>72
良いね、スナッチャー。響きも良いし、軽快に動くイメージとも相性よさげ。
「えすとれいや〜」はナンだか変形メカみたいなイメージが…。
ガシ、ガシ、シャキーン!ってカンジ<次世代検索メカ・エストレイヤー
-
746804/11/16 19:12:19
-
>>70
情報ありがとう。
est*もqdbmも消してest*から依存性で両方インストールしなおしたり
してもだめだから、libiconvまわりを疑っていた。
あれこれやってみて、
# portupgrade -f -m 'CONFIGURE_ARGS+=--enable-iconv CONFIGURE_ARGS+=--enable-zlib databases/qdbm
したらあっさり動いたなり。
要するに、FreeBSDのportsのestraierは、動く状態になっていないと
いうことで最終解答?
-
75名無しさん@お腹いっぱい。sage04/11/16 20:00:17
- JavaScriptなしでアンカーにtarget指定できないもんでしょうか?
decanc: target="_blank"
みたいな。
-
76名無しさん@お腹いっぱい。sage04/11/16 22:17:32
-
>>75 ソースいじるしかないと思う。
-
77名無しさん@お腹いっぱい。sage04/11/16 22:21:57
- SnatcherってEstraierの昔の名前だよね?
コナミっぽくてアレだけど。
-
78名無しさん@お腹いっぱい。sage04/11/17 02:22:36
- OSXに入れてみた。+kakasi, +mecab ともに問題なく動いた。(最初、mecabの
辞書をUTF8にしてしまってはまったのは内緒だ。)序でに、 darwinportsの
Portfileも書いた。茶筅は昔、試したときにコンパイル出きんかったんで手を
つけてない。
-
79名無しさん@お腹いっぱい。sage04/11/17 03:40:05
- これからは慧須都霊留とよんでください。
-
80名無しさん@お腹いっぱい。04/11/17 12:33:15
-
>>78
乙カレー。
漏れもPBに入れてみるかのぉ。
-
81名無しさん@お腹いっぱい。sage04/11/18 00:40:59
- OpenOfficeのファイルを検索対象にするにはどうすればいいですか?
-
82名無しさん@お腹いっぱい。sage04/11/18 11:23:53
-
>>81
unzipとperl5.8以上かlvあたりありゃ出来るんじゃない?
-
83名無しさん@お腹いっぱい。sage04/11/18 12:23:33
-
>>82
81じゃないけど、感動した。
gzipじゃないので、zcatができないのが辛いけど。
-
84名無しさん@お腹いっぱい。04/11/20 15:23:52
- > 要するに、FreeBSDのportsのestraierは、動く状態になっていないと
> いうことで最終解答?
どうもそうらしい。QDBMのportsの作りなおし希望!
-
85名無しさん@お腹いっぱい。sage04/11/20 22:57:02
- windowsに入れてみたかったけれどよくわからなかったので、
Google DeskTop Searchにしてしまいました。
# UNIX系のツールは敷居が高くて難しいよ。
-
86名無しさん@お腹いっぱい。sage04/11/21 05:39:59
- Google Desktop Search が Unixで動いても
よいんだがそうじゃないわけで。
-
87名無しさん@お腹いっぱい。04/11/23 02:52:45
- メールボックス(Sylpheed)の検索に使っているのですが、新しくメールが届いた
時に、新着の分だけインデックスに登録することってできますか?
今のところcronでやってるのですが、やっぱりすぐ反映された方が便利なわけで、、、
-
88名無しさん@お腹いっぱい。sage04/11/23 13:17:27
- ポーリングすりゃいいじゃん。
-
89名無しさん@お腹いっぱい。04/11/23 13:20:21
-
>>88はロートル
-
90名無しさん@お腹いっぱい。sage04/11/23 13:39:17
- 受信箱直下にある状態でインデックスしても、すぐ移動されてしまうので意味がない。
どうせなら、フォルダに振り分けたのをトリガーにしてestindexが発動してほしいな。
-
91名無しさん@お腹いっぱい。sage04/11/23 23:25:20
- fetchmailで取りこむときにインデクサ動かせばいいんじゃなーい?
-
92名無しさん@お腹いっぱい。sage04/11/23 23:40:22
- そんなんでインデクサ?
-
93名無しさん@お腹いっぱい。sage04/11/24 00:15:09
- ライブラリベースでメーラーに組み込めるようになっていたらいいのになあ。
Matzさんが作ってるメールオーガナイザーはQDBMを直接使っているんだっけ。
-
94名無しさん@お腹いっぱい。sage04/11/24 03:33:00
- メールオーガナイザーはなんで公開されないんだ?
-
95名無しさん@お腹いっぱい。sage04/11/30 21:03:01
-
>>94
GPLじゃないから
-
96名無しさん@お腹いっぱい。04/11/30 21:22:27
- estはGPLじゃなかったっけ?
-
97名無しさん@お腹いっぱい。sage04/11/30 21:37:11
-
>>96
>>94
-
98名無しさん@お腹いっぱい。sage04/11/30 21:59:46
- というかGPL=何でも公開という誤った認識はさっさと捨てろ。
バイナリを頒布しない限りはソースの入手可能性を保証する義務は生じないぞ。
そうでないとプライバシーの権利を損ねることになるからだ。
-
99名無しさん@お腹いっぱい。sage04/11/30 22:07:59
- 一見さんお断りのお店みたいなもんだな。
馴染み客に紹介してもらえば出入りできるようになる。
ただ一見さんお断りの場合は紹介者の信用が担保となるので
でたらめな新しい客は入ってこないんだが、
GPLのバイナリ頒布は再配布にリスクが伴わないのが問題だな。
-
100名無しさん@お腹いっぱい。sage04/12/01 09:35:57
- binary頒布しても、ハンドアセンブルして 16進ダンプを
打ち込んだと主張すれば source開示しなくていいですか?
-
101名無しさん@お腹いっぱい。sage04/12/01 10:08:50
- Namazuじゃなくてこれを使う意味ってなにかあるの?
-
102名無しさん@お腹いっぱい。sage04/12/01 10:11:18
-
>>100
ライセンスあれこれ
http://pc5.2ch.net/test/read.cgi/unix//
-
103名無しさん@お腹いっぱい。sage04/12/01 12:27:29
-
>>101
多分こっちの方がよくできている。
Namazuのアドバンテージはフィルタが豊富なことぐらいかな。
-
104名無しさん@お腹いっぱい。sage04/12/01 16:35:02
- googleのPageRankみたいな機能は特許でいれられないの?
-
105名無しさん@お腹いっぱい。sage04/12/01 17:40:11
-
>>104
ttp://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=/netahtml/srchnum.htm&r=1&f=G&l=50&s1=6285999.WKU.&OS=PN/6285999&RS=PN/6285999
-
106名無しさん@お腹いっぱい。sage04/12/01 17:42:05
-
>>105
orz
貼るなら
ttp://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6285999
にしとけばよかった。
-
107名無しさん@お腹いっぱい。sage04/12/01 21:25:40
-
>>101 つーかもはやNamazuを使う理由がないよな。
-
108名無しさん@お腹いっぱい。sage04/12/01 21:32:37
-
>>101
開発力が消えていない。
-
109名無しさん@お腹いっぱい。sage04/12/01 23:03:47
- 以前両方入れてみたけど、結局namazuを使ってるな...
-
110名無しさん@お腹いっぱい。sage04/12/01 23:24:42
- 多少の性能差よりも枯れ慣れノウハウ蓄積の方が
価値を持つ傾向のある世界だからね。
-
111名無しさん@お腹いっぱい。sage04/12/02 00:46:23
- あの憶えにくい独自の命名に、作者のわがまま……っていうのは
言いすぎか……ええと、まわりを見ずにわが道を行きそうという
不安感を憶えるので、躊躇してしまうんだよな。
-
112名無しさん@お腹いっぱい。sage04/12/02 01:17:20
- 我が道を行った方がいいんじゃねえの?
他と同じだったら存在価値ないし。
-
113名無しさん@お腹いっぱい。sage04/12/02 12:45:11
-
>>111
Namazuのことかestraierのことかどっち?
-
114名無しさん@お腹いっぱい。sage04/12/02 13:48:09
- 作者が我が道を見失ったらお終いだろ
-
115名無しさん@お腹いっぱい。sage04/12/02 14:39:25
- アイデンティティを失ったらおしまい。
周りが見えなくなったら地下に埋もれる。
-
116名無しさん@お腹いっぱい。04/12/02 17:54:39
-
>>111
一時期のリリース速度がはんぱじゃなかったから、安定してない気はしてしまうよな。
最近は落ち着いてきたみたいだけど。
あと、仕様書にある
>Estraierのバージョンが上がる際には、古いバージョンで作成した転置インデッ
>クスの互換性は保証されない。
ってあたりも、つっ走り感を漂わせてるかも。
-
117名無しさん@お腹いっぱい。04/12/02 18:14:19
- 作者の気まぐれでオタオタするのはもうごめんだしなあ。
-
118名無しさん@お腹いっぱい。sage04/12/02 18:35:38
- 作者がBAKAなんだっけ
-
119名無しさん@お腹いっぱい。sage 04/12/02 18:58:06
- 作者って、問題がある人なの?
-
120名無しさん@お腹いっぱい。sage04/12/02 19:14:47
- 人はだれでも問題を抱えているものさ。
-
121名無しさん@お腹いっぱい。sage04/12/02 19:16:25
-
>>119
日本人は日本人をけなすのが大好き。それだけだろ。
-
122名無しさん@お腹いっぱい。sage04/12/02 19:30:57
-
>>111-121
工作員乙
-
123名無しさん@お腹いっぱい。sage04/12/02 21:20:15
- mew-nmz で使えまつか?
-
124名無しさん@お腹いっぱい。sage04/12/06 17:48:46
-
>>123
使える。
-
125名無しさん@お腹いっぱい。sage04/12/06 17:49:20
- ちなみに、BSDライセンスだから公開する気はない。
-
126名無しさん@お腹いっぱい。sage04/12/06 17:51:21
-
>>125
何の話?
-
127名無しさん@お腹いっぱい。sage04/12/06 17:57:23
-
>>126
mew-nmz ぱっち
-
128名無しさん@お腹いっぱい。sage04/12/06 18:04:40
-
>>119
バッドノウハウ等の頭の悪い文書を書いた人
-
129名無しさん@お腹いっぱい。sage04/12/06 19:08:54
- 嫉み、乙
-
130名無しさん@お腹いっぱい。sage04/12/07 22:28:41
-
>>125
くれよ。ケチすんなよ。
-
131名無しさん@お腹いっぱい。sage04/12/07 22:45:21
- GPLでも自分だけで使ってるぶんには公開する必要ないよ。
-
132名無しさん@お腹いっぱい。sage04/12/07 23:57:56
- 同じ指摘が繰り返されてる罠
-
133名無しさん@お腹いっぱい。sage04/12/08 11:46:12
- 商品にするわけでもないだろうから、公開したって損はないだろうに。
-
134名無しさん@お腹いっぱい。sage04/12/08 12:14:43
- 存在しないものは公開できないよな。
-
135名無しさん@お腹いっぱい。04/12/08 14:29:08
- FreeBSDのportsの今日のアップデートで、
qdbmにiconvサポートが入り、
そしてest*のmecabサポートがFreeBSD5.*以上で
のみ指定可能なオプションに格下げ。
注意されたし。
-
136名無しさん@お腹いっぱい。04/12/08 15:49:59
- デフォルトの属性として title や author はあるのですが
オリジナルの属性の定義って出来ますか?
-
137名無しさん@お腹いっぱい。sage04/12/11 05:34:40
- authorにCSVかなんか適当に突っ込んで、表示する時に切り分ければ?
-
138名無しさん@お腹いっぱい。05/01/02 22:52:28
- CygwinでないWin版は出ねーの?
-
139名無しさん@お腹いっぱい。sage05/01/02 22:55:31
-
>>138
誰かがパッチ書けばね。QDBMの方はNative Win32に対応してるべ。
-
140名無しさん@お腹いっぱい。05/01/03 01:32:24
-
未踏採択キタ━━━━━━━━(゚∀゚)━━━━━━━━!!
ttp://www.ipa.go.jp/jinzai/esp/2004mito2/koubokekka.html
> 1 平林 幹雄 共同体的P2P全文検索システムの開発
-
141名無しさん@お腹いっぱい。05/02/07 11:51:07
- 1.2.26リリースage
-
142名無しさん@お腹いっぱい。sage05/02/07 15:06:12
- namazu に比べてはやっていない気がするけど、なんでだろう?
-
143名無しさん@お腹いっぱい。sage05/02/07 15:20:36
- Namazuの方が何年も前に出ているし、当時は他に強力な競合ソフトがほとんど
なかったから。
-
144名無しさん@お腹いっぱい。05/02/09 16:29:28
- 作者のblogによると、
時期バージョンはN-gram式になるらしい。
-
145名無しさん@お腹いっぱい。sage05/02/16 20:53:06
- 動詞っぽいからエストレエ(-er動詞のrは発音しない)だと思っていた。
-
146名無しさん@お腹いっぱい。05/03/13 19:40:53
-
第2回検索エンジンアンケート実施中!
http://hp6.0zero.jp/anq/anq.php?uid=1696&dir=84
-
147名無しさん@お腹いっぱい。sage05/03/13 20:41:17
- s/E// するとセントレアみたい。
-
148名無しさん@お腹いっぱい。2005/03/29(火) 19:58:11 ID:
- なんか変な風に煮詰まってないか? 作者氏。
-
149名無しさん@お腹いっぱい。sageUNIX時間(+0900)35/04/02(土) 10:12:19
- 将来的にはどうか知らんけど、
とりあえずソフトはちゃんと
動くんだから良しとする。
Namazu にも頑張ってもらいたい。
選択肢が複数あるいうのは大切。
-
150名無しさん@お腹いっぱい。2005/04/07(木) 13:46:13
-
HyperEstraierのデモキター
http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA23988&focus=1
-
151名無しさん@お腹いっぱい。sage2005/04/07(木) 22:49:32
- 凄く良い!
namazuのindexをコンバートできないかな・・・
それと、googleみたいなページ切り替えにしたいな
前へ 123・・・ 戻る
こんな感じで。。
-
152名無しさん@お腹いっぱい。sage2005/04/08(金) 00:14:34
- ライブラリだし、スクリプト言語のバインディングも提供されるようだから
そのへんは好きにできるだろう。
インデックスのコンバートはどうか知らないが、多分難しいとおもう。
namazuは出現位置の情報はもってないんじゃなかったっけ。あと隣接チェックとかも。
-
153名無しさん@お腹いっぱい。sage2005/04/08(金) 00:17:17
- 欲を出すとgoogleキャッシュみたいにヒットしたキーワードを
反転させて表示するリンクも欲しい。
-
154名無しさん@お腹いっぱい。sage2005/04/08(金) 03:34:30
- namazuの様にINDEXをパラメータで変更出来ないのですか?
マニュアル見た感じCGIではパラメータがないようです。
Serverはindexname(だったかな)パラメータ持ってました。
-
155名無しさん@お腹いっぱい。sage2005/04/08(金) 08:43:39
-
>>154
estmerge.cgi 使えばイイんでない?
-
156名無しさん@お腹いっぱい。sage2005/04/08(金) 08:54:20
-
>>155
名前がマージなんで結合してしまうので。。
serverを動かすしかないのか。
ソースに手を入れるか・・・
-
157名無しさん@お腹いっぱい。2005/04/08(金) 14:20:16
-
>>155
メタ検索の対象となるestsearch.cgiをチェックボックスで
選択できるから、それは個々のestsearch.cgiが担っているインデックスを
選択しているのと同じことだろう、ってことでしょ?
-
158名無しさん@お腹いっぱい。sage2005/04/08(金) 14:39:54
-
>>157
ありがとうございます。
マニュアルに書いてます??
相当読んだんですが気付かなかったです。
結論
estmerge.cgi
を使う。
-
1591572005/04/08(金) 15:43:07
- あまり詳しくは書いてないみたいですね。
試しに動かしてみたら意外に便利だったという感じ。
-
160名無しさん@お腹いっぱい。2005/04/08(金) 16:34:16
- recipientやauthorで検索ってどうすればいいんだろう?
-
161名無しさん@お腹いっぱい。sage2005/04/09(土) 05:29:41
- どのエンジンも一長一短でやはりエンジンを一つ決めて自作するしかないな。
-
162名無しさん@お腹いっぱい。sage2005/04/09(土) 06:04:38
- エンジンは鯰よりも早くて良いな。
IF(単純なHTML)の自由度がないのが惜しい。
-
163名無しさん@お腹いっぱい。2005/04/09(土) 16:35:42
-
>>160
estindex register -tattr recipient -tattr author ...
とかやればいんじゃね?
-
164名無しさん@お腹いっぱい。2005/04/10(日) 19:20:31
- subversionのレポジトリの中身を、ワーキングコピーに取り出さずに
うまいことsvn cat とかsvn lsとかだけ使ってestindexに食わせるこ
とはできるでしょうか。
-
165名無しさん@お腹いっぱい。sage2005/04/10(日) 21:15:47
-
>>164
gonzui
-
166名無しさん@お腹いっぱい。2005/04/13(水) 19:24:58
- 短い識別子でないとダメって今時珍しい人だな。
-
167名無しさん@お腹いっぱい。sage2005/04/16(土) 14:28:33
- Hyper estraier がリリースされたね。
さて、APIをながめてみるか。
-
168名無しさん@お腹いっぱい。sage2005/04/16(土) 15:22:52
-
>>167
リンクはどこ?
-
169名無しさん@お腹いっぱい。sage2005/04/16(土) 15:52:31
-
ttp://hyperestraier.sourceforge.net/
APIはヘッダファイルを見た限りでは取っつきやすそう。
-
170168sage2005/04/16(土) 16:06:38
-
>>169 thx。
んで、estraierとhyper-eでのindexは全く別モノ?
共存さすのは無問題?
-
171名無しさん@お腹いっぱい。sage2005/04/16(土) 17:48:55
- インデックスは別物だろう。
共存は別にできるんでないの。
-
172名無しさん@お腹いっぱい。sage2005/04/16(土) 19:05:10
- デふぉだとindexは同じcasketつう名前の
フォルダの中にできるわけだが。
-
173名無しさん@お腹いっぱい。sage2005/04/17(日) 18:53:45
- デフォっつーか、インデックス名は引数で指定してるだけじゃん。
違う名前にすればOK。
-
174名無しさん@お腹いっぱい。2005/04/17(日) 20:06:05
- hyper-eいいね。対応フォーマットを増やしてくれるともっといい。
-
175名無しさん@お腹いっぱい。sage2005/04/17(日) 20:23:18
- フィルタは簡単に書けるんじゃない?
rastと違ってDB作成時に属性を決める必要がないみたいで便利そう。
-
176名無しさん@お腹いっぱい。sage2005/04/17(日) 20:47:15
- フィルタ増やすというよりLuceneみたいにいろんなアプリに組み込めると面白そう。
-
177名無しさん@お腹いっぱい。sage2005/04/17(日) 21:28:31
-
>>176
libestraier.so は飾りじゃありませんよ。
APIドキュメントが早く欲しいところ。
-
178名無しさん@お腹いっぱい。sage2005/04/17(日) 23:40:28
- つ【doxygen,gtk-doc】
-
179名無しさん@お腹いっぱい。sage2005/04/18(月) 00:07:36
- え、引数の意味を自分で調べてその上でわざわざDoxygenタグを自分で書けと?
ドキュメントを待つか、ヘッダファイルだけでぶっつけ本番でやった方が
いいとおもうけど。
-
180名無しさん@お腹いっぱい。sage2005/04/18(月) 00:15:56
- ドキュメントはAPI freezeしてからでいいかも。
しかしautomakeもlibtoolも使ってないのか。
-
181名無しさん@お腹いっぱい。sage2005/04/18(月) 03:56:06
- そいつぁいいや
-
182名無しさん@お腹いっぱい。sage2005/04/18(月) 06:23:55
- autoconfすら使ってないzlibみたいなのもあるんだし、別にいいんじゃない?
-
183名無しさん@お腹いっぱい。sage2005/04/18(月) 07:52:57
- コンパイルするときは便利だと思うが自分で書こうとすると
嫌になる。
バッドノウハウのかたまりだもんな。>autoconf一味
-
184名無しさん@お腹いっぱい。sage2005/04/18(月) 11:22:50
- コンパイルするときも邪魔だと思うが、
バッドノウハウとかいう人はもっとウザい。
-
185名無しさん@お腹いっぱい。2005/04/19(火) 10:08:12
- APIドキュメントも出たね。rastより簡単そうかな。
-
186名無しさん@お腹いっぱい。sage2005/04/19(火) 11:19:35
- そう? rastよりもずいぶんと低レベルで複雑じゃない?とおもったら意図的にやってたのか、、バインディングを書いてもいいと思ってたけど、ノードAPIが出るまで待つか、、
-
187名無しさん@お腹いっぱい。sage2005/04/19(火) 21:27:33
- 全文検索のようにスケールに敏感な機能の場合、ある程度低水準の方が使いやすいことない?
内部で勝手にMutex使われていると性能が出なかったりして、API自体をいじらないといけなくなる。
本家にパッチ送って反映待ちになるのも面倒いから、自分で好きにいじれる方が、、、
-
188名無しさん@お腹いっぱい。sage2005/04/20(水) 15:06:10
- rastとsennaの話題はここですか?
-
189名無しさん@お腹いっぱい。sage2005/04/20(水) 17:02:10
-
>>188
つ【http://pc8.2ch.net/test/read.cgi/linux//】
-
190名無しさん@お腹いっぱい。sage2005/04/20(水) 17:44:09
-
>>187
スケーラビリティの点から見るとたしかに日記に書いてあるような
サーバークライアント方式の導入は正しいように思えるね。
mnogosearch見たいな感じになるのかしらん。
やっぱノードAPI待ちかな。それともTigerが出たらSpotlightとSearchKitに
浮気しようかな。正直迷うな
-
191名無しさん@お腹いっぱい。sage2005/04/20(水) 18:15:04
- すげー、Windows版が出とる。
-
192名無しさん@お腹いっぱい。sage2005/04/24(日) 02:24:32
-
>>190
サーバ方式にしてもスケーラビリティは上がらないんじゃない?
検索速度は上がるかもしれないけど、ネットワークの負荷を考えると微妙。
-
193名無しさん@お腹いっぱい。sage2005/04/25(月) 04:38:56
- ネットワーク遅延はデータベース検索においてそれほど大きな問題じゃない
と思うよ。そもそもデータベースのスケールによらず一定だし。
コアAPIの守備範囲であるローカルホストならなおさらじゃない?
-
194名無しさん@お腹いっぱい。sage2005/04/25(月) 10:24:35
- 確かにそうかも。
それと、DBとは別のマシンでアプリケーションを動かせだろうから、フィルタと登録を
パイプライン的にやれば効率いいかもね。
秒速104文書登録ってのをどこまで維持できるかが見もの。
-
195名無しさん@お腹いっぱい。2005/05/02(月) 10:13:17
- rast 0.1.0キター
-
196名無しさん@お腹いっぱい。sage2005/05/02(月) 20:03:29
- Estraier と HyperestraierとCGIの検索スピード比べると、
大体Hyper...のほうが倍くらい早いかなて感じだ(当社比)。
-
197名無しさん@お腹いっぱい。2005/05/02(月) 20:23:55
- 唐突に出てきた「CGI」という謎の実体について。
-
198名無しさん@お腹いっぱい。sage2005/05/02(月) 20:54:06
- HyperestraierをCGIとして使った場合の速度>Estraier をCGIとして使った場合の速度
ってことでわ?
-
199名無しさん@お腹いっぱい。sage2005/05/03(火) 11:59:48
- 検索インターフェイスってwebしかないの?
コンソールとXで動くやつもあると嬉しいんだが。
-
200名無しさん@お腹いっぱい。sage2005/05/03(火) 12:35:57
- ライブラリ使ってなんとかしろ。
-
201名無しさん@お腹いっぱい。2005/05/03(火) 12:37:35
- インクリメンタルな全文検索インターフェースを頼む。
-
202名無しさん@お腹いっぱい。sage2005/05/03(火) 13:09:05
- Hyperestraierでestcmd gatherするとき、
sym link をdereferenceしないようにお願い
したいんだが、どうすれば良い?
-
203名無しさん@お腹いっぱい。sage2005/05/04(水) 16:46:01
- 中の人に言えば?
-
204202sage2005/05/04(水) 20:12:26
-
static const char *pathtourl() のなかで
realpath()を呼んでるからだ、つうとこまでは分かった
んだが、絶対パスに展開するのやめさすと各方面に
色々面倒が起きそうな希ガス。
>>203の言うとおり、作者に頼むしかないかな。
-
205名無しさん@お腹いっぱい。sage2005/05/04(水) 21:30:07
- APIの呼び方さえ変えなければ特に問題ないと思うけど。
MLに投げれば対応してくれるかも。
-
206名無しさん@お腹いっぱい。2005/05/08(日) 11:02:50
- mboxファイル用のフィルタはないですか?
-
207名無しさん@お腹いっぱい。sage2005/05/08(日) 18:34:26
-
>>201
高林さんとかの JavaScript を参考に組めば出来ると思うけど、
たぶんめっちゃおもくなるとおもわれ。
-
208名無しさん@お腹いっぱい。sage2005/05/08(日) 20:54:44
-
>>207
>>201 は Ajax なインターフェースのことを言ってると思われ。
-
209名無しさん@お腹いっぱい。2005/05/08(日) 20:59:06
-
>>208
> >>201 は Ajax なインターフェースのことを言ってると思われ。
ちがう。
-
210名無しさん@お腹いっぱい。2005/05/08(日) 21:01:23
-
>>207
> 高林さんとかの JavaScript を参考に組めば出来ると思うけど、
> たぶんめっちゃおもくなるとおもわれ。
migemoのアイデアって、1990年ころに、プライベートな
研究会で見たことがあるよ。いや、べつにそっちの方が
先だとか言いたいわけではない。みんな同じことを考え
ていたんだということ。で、「たぶんめっちゃおもくな
るとおもわれ」とコメントされ、それで終わっていた。
-
211名無しさん@お腹いっぱい。sage2005/05/08(日) 21:46:12
-
>>209
ありゃ、違うのか。 >>208 で合ってたのかな。
-
212名無しさん@お腹いっぱい。2005/05/08(日) 22:30:05
- Ajax風に難しいことをやるのでなければ、
onChangeイベントでsubmitするだけでしょ?
たぶんめっちゃおもくなるとおもわれるけど。
-
213名無しさん@お腹いっぱい。sage2005/05/08(日) 22:34:28
- 前に Ajax でリクエストをばんばん飛ばすスクリプト書いたけど、結構レスポンス良かったよ。
ただ、インクリメンタルにする意義が感じられなくて結局使ってないけど。
-
214名無しさん@お腹いっぱい。2005/05/08(日) 22:42:49
- インクリメンタル検索って、オモチャとしては面白いけど、実用的ではないよね。
エディタで使うみたいに、一個のファイルの中をインクリメンタル検索するのは便利
なんだけど、不特定多数の文書をファイルを対象にた場合は意味がない。
インクリメンタルである利点は、前後関係が確定している場合にのみ享受できる。
-
215名無しさん@お腹いっぱい。sage2005/05/08(日) 23:39:23
- エディタでも実用的じゃないし
-
216名無しさん@お腹いっぱい。sage2005/05/08(日) 23:41:20
- インクリメンタルなんてほしがるのは素人だけ。
あれは単なるけばけばしい包装、はなばなしいだけの
ファンファーレ。
そんなものをほしがるやつには、UNIXを使う資格はない。
-
217名無しさん@お腹いっぱい。sage2005/05/08(日) 23:50:04
- プログラマなら、エディタのインクリメンタル検索は使いまくる
と思うんだけど、みんなは違うの?
-
218名無しさん@お腹いっぱい。sage2005/05/08(日) 23:58:20
- 目と頭が付いていけないから使ってない
俺の言う事を最後まで聞け(ゴルァ と思う事多し
動的なインターフェイスは使用者に掛かる負荷が大きいんだよね
何も考えずにインクリメンタルサーチ使える人は正直感心する
-
219名無しさん@お腹いっぱい。sage2005/05/09(月) 00:14:29
- んなこと言ってたら自動車の運転もできないじゃん。
-
220名無しさん@お腹いっぱい。2005/05/09(月) 01:27:21
- これは複数サーバ(or ディスク)を使って分散処理を行う事は出来るの?
チュートリアルにそれに関した記述が見当たらなかったんだけどやっぱり無いのかな。
-
221名無しさん@お腹いっぱい。sage2005/05/09(月) 01:55:12
- estの方はできるでしょ。hyperの方は知らない。
-
222名無しさん@お腹いっぱい。2005/05/10(火) 11:37:13
- 自分でインデックスを更新するのでなく、新しく保存したファイルを自動検知
してその分だけ更新するようにできないかな。
-
223名無しさん@お腹いっぱい。2005/05/10(火) 12:03:00
-
>>222
もちろんできるでしょ。
-
224名無しさん@お腹いっぱい。sage2005/05/10(火) 12:38:46
- 新しいかどうかを検査する負荷もバカにならないから現実的じゃ無い気も。
-
225名無しさん@お腹いっぱい。sage2005/05/10(火) 13:04:17
-
>>224
そう思うなら、口を閉じて引っ込んでろ。
-
226名無しさん@お腹いっぱい。2005/05/10(火) 13:34:10
-
FAMとかgaminとか使うといいかも。
FAM:http://techpubs.sgi.com/library/tpl/cgi-bin/getdoc.cgi?coll=0650&db=bks&fname=/SGI_Developer/books/IIDsktp_IG/sgi_html/ch08.html
gamin:http://www.gnome.org/‾veillard/gamin/
いずれにせよOS依存なので、自分の環境にかなり精通していないと難しいだろう。
Google Desktop Searchはどうやってるのか知ってる?
-
227名無しさん@お腹いっぱい。sage2005/05/10(火) 13:51:17
-
>>225
なにそんなカリカリしてるの?
-
2282222005/05/10(火) 14:26:13
-
>>226
どうもです。でもプログラミングしないといけないのは辛いですね。
過去1時間に更新された更新ファイルのパスのリストがどっかのファイル
に記録されているような仕様だったら嬉しいのですが。
あ、ちなみに225は私じゃないですよ。
-
229名無しさん@お腹いっぱい。sage2005/05/10(火) 14:41:52
-
>>223
それどうやるの?
-
230名無しさん@お腹いっぱい。sage2005/05/10(火) 15:02:09
-
>>226
Beagleは使える環境の場合はInotifyを使うみたい。
-
231名無しさん@お腹いっぱい。sage2005/05/10(火) 16:15:10
- dnotifyだと指定したディレクトリ直下しか見れなかったけど、
inotifyでもそこんとこは変わってないよね?
監視対象を再帰的に広げるよりは、定期的にfindした方が負荷が小さいような。
-
232名無しさん@お腹いっぱい。sage2005/05/10(火) 16:32:35
-
>>231
そう思うなら、口を閉じて引っ込んでろ。
-
233名無しさん@お腹いっぱい。2005/05/10(火) 16:40:20
-
>>231
軽量高速な更新検出手段の探求/実現が必要ですねッ!!
-
234名無しさん@お腹いっぱい。sage2005/05/10(火) 16:47:45
-
>>233
ガンバレー!!
-
235名無しさん@お腹いっぱい。sage2005/05/10(火) 17:44:25
- 高速じゃなくてもいいなら、適当にsleepして軽量にすることは可能だろう。
明示的に更新を通知する手段と、更新頻度が高い場所は巡回頻度も高めると
いった工夫を併用すればかなり使いやすくなるんじゃない?
-
236名無しさん@お腹いっぱい。sage2005/05/10(火) 17:54:10
-
>>232
そうカリカリすんなよ。歯痛にでもなったか?
-
237名無しさん@お腹いっぱい。sage2005/05/10(火) 23:44:55
- あとOracleのFull-Text Searchは専用のデーモンを立ち上げて監視させる
仕組みになってたと思う。
-
238名無しさん@お腹いっぱい。sage2005/05/11(水) 18:00:03
- ファイルシステムから作ればいいんだっ!!
-
239名無しさん@お腹いっぱい。sage2005/05/11(水) 18:20:12
-
>>238
わかった。全部お前にまかすわ。あとはよろしくな。
-
240名無しさん@お腹いっぱい。2005/05/11(水) 18:24:58
- あと重要なのは、特定の格納形式/更新形式を持つファイル群を
ハンドリングするプラグインを扱う枠組みだな。
-
241名無しさん@お腹いっぱい。sage2005/05/11(水) 18:29:16
-
>>240
わかった。そっちはお前にまかすわ。あとはよろしくな。
-
242名無しさん@お腹いっぱい。sage2005/05/11(水) 18:53:11
- APIがあるからアプリケーション主導で開発できるわけで、
プラグイン機構は不要だと思われる。
それよりPerlかRubyのバインディングを早く出してほしい。
-
243名無しさん@お腹いっぱい。2005/05/11(水) 19:57:37
-
>>242
いや、じゃなくて、新しい文書扱いシステムを作った側が、
検索エンジンがそれを効率良く扱えるように
一連の設定やプログラミングを行なう枠組みが
いるのではないかという話だ。
-
244242sage2005/05/11(水) 22:48:38
- なるほど。
更新処理をトリガとして関数が呼ばれる仕組みが大抵のDBには備わっているけど、
一般的な文書扱いシステムではどうなんだろう。
-
245名無しさん@お腹いっぱい。sage2005/05/12(木) 11:45:47
- 監視対象のディレクトリがわかっているなら、そのディレクトリに対して
select() かけることで対応できないかなあ。
-
246名無しさん@お腹いっぱい。sage2005/05/12(木) 12:18:15
- それだとcreatとunlinkは検出できるけど、writeが検出できなくない?
-
247名無しさん@お腹いっぱい。sage2005/05/14(土) 02:55:39
-
日本製全文検索が開発中のもよう
Rast: A full-text search system
ttp://www.netlab.jp/rast/
●検索対象となる文書の分野や言語を選ばない
テキストデータを n 個の文字の並びである N-gram に分割して検索を行うため,「検索漏れが生じない」,「辞書の整備が必要ない」という特徴がある N-gram 方式を選べます.
これにより,検索対象となる文書の分野や言語を選ばずに広く利用することができます.
●多様なファイル形式への対応
HTML や Microsoft Word といった多様なファイル形式の文書からテキストデータやタイトルや作成日などの属性情報を抽出し,検索対象にできます.
●全文検索ライブラリの提供
C 言語と Ruby で利用可能な全文検索ライブラリを提供することにより,本ソフトウェアを利用した全文検索を行うアプリケーションを開発することができます.
さらに,ライブラリの利用例として,過去のメールを全文検索できる電子メールソフトを開発します.
●インクリメンタルな文書の追加登録
作成したデータベースに対して,インクリメンタルに文書の追加登録ができます.このため,一度作成したデータベースを作成し直す必要がありません.
誰か試して
-
248名無しさん@お腹いっぱい。sage2005/05/14(土) 03:58:31
- 精度とかはまだまだ。euc-jpだとutf-8にくらべてバグが多い気がする。
C APIを提供してるわりにクライアントライブラリまでGPLなのはちょっと痛い。
せめてXMLRPCの仕様を公開してほしいが、だったらEstraierのノードAPIを
待った方が幸せになれそう。
Matzのお膝元のnetlabで開発してるので、Rubyを使ったアプリケーションが
いろいろ出回ってきたら面白くなるのかもしれない。
-
249名無しさん@お腹いっぱい。sage2005/05/14(土) 17:02:09
-
Rubyがどうしたとかテストにはtcl使ってね
とか言われた時点でもう、センスつうか趣味
つうか合わないを思いますわ、パスですわ
>>247
-
250名無しさん@お腹いっぱい。2005/05/14(土) 17:18:49
-
>>249 Perlだったらいいわけか?
-
251名無しさん@お腹いっぱい。sage2005/05/14(土) 19:50:07
- Javaだったらよかったのにね。
-
252名無しさん@お腹いっぱい。2005/05/14(土) 20:45:23
-
>>251 lucene
-
253名無しさん@お腹いっぱい。sage2005/05/14(土) 22:58:21
- hyperestraier 0.3.8 コンパイルしないな。
ML archive も落ちてる。
-
254名無しさん@お腹いっぱい。sage2005/05/14(土) 23:58:14
- 「QDBMのバージョンが古い」に一票 >> 253
-
255253sage2005/05/15(日) 07:59:47
-
その通りだった。トンクス >>254
-
256254sage2005/05/17(火) 00:09:15
- 俺もはまったからさ。
-
257名無しさん@お腹いっぱい。age2005/05/25(水) 10:37:35
-
0.3.10あげ
http://hyperestraier.sourceforge.net/
-
258名無しさん@お腹いっぱい。sage2005/05/25(水) 16:35:21
- インクリメンタル検索がサポートされたね
-
259名無しさん@お腹いっぱい。sage2005/05/25(水) 22:28:14
-
>>258
SUGEEEEEEEEEEE!!!!!!!
-
260名無しさん@お腹いっぱい。sage2005/05/27(金) 18:44:35
- rastをCygwinで構築出来た人いる?
-
261名無しさん@お腹いっぱい。2005/05/31(火) 23:04:02
- OpenSearch対応してくんないかな
-
262名無しさん@お腹いっぱい。sage2005/06/01(水) 11:26:51
- 今日から金曜まで東京ビッグサイトで開催中の LinuxConference では、
6/2 13:00〜 「全文検索システム Rast の設計と実装」
6/3 10:00〜 「全文検索 BOF」
などという企画をやってる。
-
263名無しさん@お腹いっぱい。sage2005/06/04(土) 22:50:24
- げ、昨日か… (;´Д`)ハァ
-
264名無しさん@お腹いっぱい。2005/06/04(土) 23:10:40
- Googleの文字が全部四角になってしまいました。
(□←ばかり)どうしてか教えてください。
-
265名無しさん@お腹いっぱい。sage2005/06/05(日) 00:05:25
- 坊やだからさ。
-
266名無しさん@お腹いっぱい。sage2005/06/05(日) 00:20:49
- どうすれば大人になれますか?
-
267名無しさん@お腹いっぱい。sage2005/06/05(日) 00:54:33
-
>>266
「電車男」という映画を見に行くとなにかヒントが得られるかもしれません。
-
268名無しさん@お腹いっぱい。sage2005/06/05(日) 18:28:53
- 噂通り、インデックス作成がやたら速いね。
並列化できればGoogleとかに匹敵するんじゃないか?
-
269名無しさん@お腹いっぱい。sage2005/06/06(月) 10:22:14
-
>262
全文検索BOFでは、NAMAZU開発者とRast開発者とHyper Estraierの開発者が
一堂に会して、開発思想とかを語ってくれた。
ただ、2時間もあった割には突っ込んだ話ができず、薄かった感じがする。
-
270名無しさん@お腹いっぱい。2005/06/10(金) 22:35:21
-
Python&Perl&Rubyバインディングキターーーー
http://tokuhirom.dnsalias.org/‾tokuhirom/tokulog/1193.html
-
271名無しさん@お腹いっぱい。sage2005/06/10(金) 23:07:46
- コアAPIのバインディングかぁ...
Rastと違ってAPIがリモートとローカルで違うらしいから、
やっぱノードAPIを待った方がいいんじゃないかと思う。
-
272名無しさん@お腹いっぱい。sage2005/06/10(金) 23:27:57
- パフォーマンスを考えるとコアAPI使って自分でサーバ書いた方がよかないか。
RubyとかだとHTTPサーバのツールキットもあるわけだし。
-
273名無しさん@お腹いっぱい。sage2005/06/11(土) 10:40:11
- HTTPd を自前で実装する、というときにパフォーマンスを考えるならスクリプト言語の
バインディングをわざわざ選ぶかなぁ?
むしろスクリプトで書いたプログラムにいちいちサーバ立てるのやってらんないという
面倒くさがり向きなんじゃないの。
-
274名無しさん@お腹いっぱい。sage2005/06/11(土) 16:42:53
- いや、HTTPdを実装すること自体にスクリプト言語が向いていると思う。
Cでなんてやってられない。
-
275名無しさん@お腹いっぱい。sage2005/06/12(日) 03:31:38
- そうかなぁ... libapr とか使ってみれば?
ちょうどいいから rast のソースでも読んでみなよ。
といいながらも ruby が楽しくなりつつある今日この頃です。
-
276名無しさん@お腹いっぱい。sage2005/06/12(日) 09:49:52
- APRはやばいでしょ。
WEBrick+HyperEstraierとかWEBrick+Rastってのが強力かつ簡単でよさげ。
-
277名無しさん@お腹いっぱい。sage2005/06/12(日) 15:35:53
-
>>276
ライセンス問題?
-
278名無しさん@お腹いっぱい。sage2005/06/12(日) 23:07:12
- これってCygwinでも動きますか?
-
279名無しさん@お腹いっぱい。2005/06/24(金) 07:37:52
-
デスクトップサーチっぽいのが出たね。
まだ作りこみが甘い感じだけど、今後に期待age。
http://www.mitsuki.no-ip.com/‾seagull/software-archives/hyperestraier/gdestraier.html
-
280名無しさん@お腹いっぱい。sage2005/06/24(金) 09:56:05
- もうでさぽ
-
281名無しさん@お腹いっぱい。sage2005/07/04(月) 01:40:52
- >.279
open/closeシステムコールをを監視してスポットライト風にインクリメンタルアップデートが
できると面白そう。ガンガレ。
まずは更新があったファイルを指定するとその情報のみをアップデートする機能が
必要だな。既存のものだと全部を指定してアップデートする方法しか用意されてないからな。
-
282名無しさん@お腹いっぱい。sage2005/07/04(月) 18:08:11
- >> 281
いちお、estcmdに-sd -cm 付けてるです。
だから全更新してもタイムスタンプの新しいやつ以外はスキップされるですよ。
-
283名無しさん@お腹いっぱい。sage2005/07/06(水) 00:48:17
-
>>281
namazuにしろなんにしろ従来のは全更新しかなかったと思うんだよね。
だから、逆に一部更新はできるのかと。
編集した利用者ならどこを編集したかわかっているわけだから全更新して
全部のディレクトリをなめる時間待たされるよりも更新した箇所を指定して
updateできたほうがよくない?
んで、その上でシステムコールを監視してスポットライト風アップデートですよ。
-
284名無しさん@お腹いっぱい。sage2005/07/06(水) 03:03:16
- システムコールの監視はカーネルに手を入れるかアプリをVM上で動かすか
しないと難しいんじゃない? いずれにしても、オーバーヘッドがでかくなってしまう。
移植性の問題もあるし。
よく更新されるディレクトリの監視頻度を上げるのと、ユーザが明示的に更新を指示
をするのを併用すれば実用上は十分だと思うけど。メールボックスとかだったら、アプ
リケーションのプラグインかなんかで更新ロジックを組み込めるといいね。
-
285名無しさん@お腹いっぱい。sage2005/07/06(水) 10:40:58
- カーネルまで触らなくても、ファイルシステムに細工をすればできるんじゃないか。
Windowsじゃ無理だけど、UNIX系ならそのへん独立してるし。
WinFSには全文検索っぽい機能が組み込まれているというウワサも聞いたけど、
どうなんでしょ。
-
286名無しさん@お腹いっぱい。sage2005/07/06(水) 10:49:45
-
>>283
Hyper Estraierは、ディレクトリでなくファイルそのものを指定して
インデックスに登録できるよ。
>>284
famを使い、特に指定されたディレクトリだけ監視。
移植性と監視コストの問題はfamに丸投げして、各プラットフォームに最適
なアルゴリズムで監視できる事を期待。
更新された時に即座に更新だと確かにオーバヘッドが大きすぎなんで、
遅延してある程度のまとめ更新するデーモンをniceしておけば実用的な
範囲に収まるっぽくね?
いくらなんでも、数分前に更新した文書くらい探さなくても判るだろ。
それより問題は、インデックスをユーザ毎に持つと重複が多すぎるって
事だな。サイズもそうだけど、オーバーヘッドも整数倍になる。
業務の書類とかmanページを探したい時なんか完全に重複だね。
インデックス中の文書データに対するパーミッションをなんとかして、
システムグローバルなインデックス&検索機能のデーモン化をしないと
現実的でないような気がしてきた。
-
287名無しさん@お腹いっぱい。sage2005/07/06(水) 11:04:33
-
>>285
ファイルシステムオーバーライドするのは面白そうなんで、
LUFS使って簡単に実装しようと思ったけど、
/usr をすげかえる気にならないし、対象ディレクトリが増えた時に
fstabの構成変えるのも馬鹿らしいので廃棄処分にしますた。
-
288名無しさん@お腹いっぱい。sage2005/07/06(水) 15:04:04
- 数分前に更新した文書っていうけど、自分が更新したとは限らないのが問題。
事実、どっかからダウンロードしてきた文書をすぐに全文検索したくなる
ことは多い。それを考えると、やっぱり手動更新指示の機能もほしいよね?
Hyper Estraierの更新処理は異常に速いから、検索窓の横に「更新」ボタンを
つけておいて、結構気軽に更新をかけさせても実用になると思う。
ラジカセのメタファを使って、「再生(右向きの三角)」で検索をして、
「録音(丸)」で更新をして、「停止(四角)」で検索や更新の停止をして、
負荷状態を音圧っぽく表現するというのも面白いかもね。
-
289名無しさん@お腹いっぱい。sage2005/07/06(水) 16:25:21
-
>>288
...目的のファイルが判ってるなら、grepした方が早いような気がする...
でもまぁ、同時ログインしてる別ユーザもいるから、確かに遅延はかなり小さく
しないと厳しい状況がありうるだろうね。
更新ボタンを置くのはいい考えなので、Quick build機能付けるよ。
-
290名無しさん@お腹いっぱい。sage2005/07/06(水) 19:04:30
-
>>286
デスクトップ検索アプリを目指すなら、マルチユーザのインデックスの共有はそれほど考え
なくてもいいんじゃね?
自分のホームディレクトリを対象にしたインデックスさえ作れればほとんどのユーザは満足
でしょ。デーモン走らせないと使えないのは初心者向けでないような気がするよ。
副次的な機能として、他人のインデックスをリードオンリーで開けるようにして、チェック
ボックスをオンにすればそこの結果もマージして表示できるといいかも。
つまり他人のインデックスを更新できる必要はないってこと。
manとかの共有物のインデックスはrootで最初に作っておいて、/var 以下においておけば
いいんじゃない? その更新もわざわざデーモンにしないで、cron実行で十分でしょ。
-
291名無しさん@お腹いっぱい。2005/07/06(水) 20:47:50
-
>>290
基本的にはそうなんだけどさ。
manなら問題ないけど。rootで作ると、本来ユーザに読み込み権限の無いファイルも検索
できて、要約も見えちゃうわけじゃん。
かといって、権限単位にインデックス作るというのも現実的でないし。
業務用の、たとえ共有ディレクトリに入っている技術経歴書とか、仕様書とかを対象と考えた時、
細かい制限ができないと問題だと思ったわけ。
つーわけで、ホームユーザには間違いなく十分だけど、職場で活用となると問題があるわけよ。
試してないけど、
> 副次的な機能として、他人のインデックスをリードオンリーで開けるようにして、チェック
> ボックスをオンにすればそこの結果もマージして表示できるといいかも。
これは現段階でできるような気がする。
今現在、検索用にはDBをリードオンリーで開いてるし、マージもデフォルトだし。
Hyper Estraierはリードオンリーで複数プロセスがオープンしても平気だし。
ってか、みんなのところでちゃんとビルドできてる?、、、って、だれも試してませんか、そうですか。
-
292名無しさん@お腹いっぱい。sage2005/07/07(木) 00:53:57
- 見せたくないファイルはインデックスに入れないようにするしかないんじゃないか?
一般ユーザの読み込み権限(S_IROTH)がついているファイルだけ読み込むように
すれば大抵は大丈夫だと思うけど。
-
293名無しさん@お腹いっぱい。sage2005/07/07(木) 13:16:11
-
>>286
> Hyper Estraierは、ディレクトリでなくファイルそのものを指定して
>インデックスに登録できるよ。
・・・できないんですけど?
>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリストを読み込みます。
って書いてあるし・・・
-
294名無しさん@お腹いっぱい。sage2005/07/07(木) 13:43:20
- >> 293
そのリストにファイル名書くんだよ。
find . -name '*.txt' | estcmd gather オプション インデックス -
-
295名無しさん@お腹いっぱい。2005/07/12(火) 00:26:37
- howmはこっちをサポートしてくれるといいんだけどね。
Cygwinを使えるし。
-
296名無しさん@お腹いっぱい。sage2005/07/12(火) 16:15:12
- Hyperの方ってCygwinじゃなくてネイティブのWin32じゃなかったっけ?
Cygwinでも動くのかなぁ。
-
297名無しさん@お腹いっぱい。sage2005/07/16(土) 23:16:11
- > Hyper Estraierの最終目的はP2P型の分散処理に支えられた高速で高精度な検索システムを構築することですが、
そうだったのカー (AA略
-
298名無しさん@お腹いっぱい。2005/07/17(日) 03:20:26
- ノードAPIキターーーー(゚∀゚)ーーーー!
-
299名無しさん@お腹いっぱい。2005/07/17(日) 20:23:17
- namazuの改良したいんですが、キーワード毎に重み付けするような
プログラムってどうすればいいかわかりますか??
調べてもわかんないです。本でもなんでも教えてほしいです。。。
-
300名無しさん@お腹いっぱい。sage2005/07/17(日) 21:44:47
-
>>299 http://pc8.2ch.net/test/read.cgi/unix//
-
301299sage2005/07/17(日) 21:48:42
-
>>300
サンクス
-
302名無しさん@お腹いっぱい。sage2005/07/19(火) 13:36:11
- うーん、estmasterが動かないなぁ。 libsocketって何だろう?
-
303名無しさん@お腹いっぱい。sage2005/07/19(火) 21:32:11
- ソケットのライブラリだろ。LD_LIBRARY_PATHがおかしいんじゃない?
-
304名無しさん@お腹いっぱい。sage2005/07/20(水) 10:11:12
-
>>303
アドバイスどうも。libsocketはソケットの抽象化ライブラリみたいだね。
ふつーのglibcソケットだけでも大丈夫みたいだけど。
起動はするが、ポートを叩いてもうんともすんとも言わないという状況だから、
ダイナミックロード関係じゃなさそう。ちなみにOSX(panther)の話ね。
Debianならあっさり動いたからDebianホストでestmasterを動かす事にするよ。
-
305名無しさん@お腹いっぱい。2005/07/22(金) 22:32:56
-
gdestraier-0.1.6 リリースしたよ。
ttp://www.mitsuki.no-ip.com/‾seagull/software-archives/hyperestraier/gdestraier.html
誰も気にもかけて無いらしいけど。
-
306名無しさん@お腹いっぱい。sage2005/07/23(土) 11:27:34
- こんなとこにアナウンスしてもしょーがないでしょ。
FreshMeatとかSourceForgeに登録したら?
-
307名無しさん@お腹いっぱい。sage2005/07/24(日) 01:19:46
- sargeで使ってみようとしたら必要としてるライブラリのバージョンが
新しすぎで無理だった。>gdestraier
-
308名無しさん@お腹いっぱい。2005/07/25(月) 20:23:32
- java版APIも出たねぇ。
デスクトップ検索もJavaで作った方がいいんじゃねの?
クライアントは多少重くても問題ない。その上でさらにアプレット
みたいなプラグインを動作させられるようにすれば、Spotlightに対抗でき
るかもよ。
-
309名無しさん@お腹いっぱい。2005/07/25(月) 20:29:10
-
>>308
> java版APIも出たねぇ。
> デスクトップ検索もJavaで作った方がいいんじゃねの?
そんな事したら、死に体になってしまう。
-
310名無しさん@お腹いっぱい。2005/07/25(月) 21:18:43
-
ライブラリのバージョンは、とりあえず手元のsidに入ってるやつ参照しただけなんで、
下げても大丈夫だと思う。
とりあえず、sarge準備して試してみますわ。
>>308
重いにも限度があると思う。
起動がトロかったり、フットプリントが許容できても、サクサク間がでないと。
もっとも、いま現在は単一スレッドで要約まで出してるから、サクサクとは言いがたいけど。
目標は、nautilusでディレクトリたどるより手軽に絞りこみ検索できる事。
-
311名無しさん@お腹いっぱい。sage2005/07/26(火) 11:37:21
- きょうびのPCのパワーならJavaでもサクサク動くと思うが。
つーか移植性が確保できる(LinuxでもWindowsでもMacでも動く)のが重要だろ。
sargeやら何やらのレベルで非互換がでてるようじゃ流行らないと思われ。
-
312名無しさん@お腹いっぱい。sage2005/07/26(火) 20:29:41
-
>>311
実際に試せばわかると思うが「サクサク動かない」よ。
-
313名無しさん@お腹いっぱい。sage2005/07/26(火) 21:40:39
-
>>311
意味不明。Javaって、必要なランタイムライブラリがインストールされてなかったり、
バージョンが適合しなくても問題無いって?
-
314名無しさん@お腹いっぱい。sage2005/07/27(水) 03:19:30
- 起動はサクサクしないだろうけど、そんなに遅いわけでもないだろう。
実装テクニックの問題だったりしないか?
-
315名無しさん@お腹いっぱい。sage2005/07/27(水) 07:41:42
- テクニック云々以前にJVMの起動が遅いんでしょ。
もしかして最近は違うの?(><)
-
316315sage2005/07/27(水) 07:42:59
- すまん。寝惚けてた orz
-
317名無しさん@お腹いっぱい。sage2005/07/27(水) 09:18:23
- Write once, Debug anywhere.
-
318名無しさん@お腹いっぱい。sage2005/07/27(水) 09:47:33
- JRE入れるのは.NET Frameworkを入れるのと同じようなもんで、大抵のユーザは
抵抗なくやってくれるでしょ。J2SEのコアライブラリ以外に必要なランタイムが
あったとしても、それも同梱してしまえばいい。
別にJavaマンセーと言うつもりはないけど、GNOMEやGTK+のバージョンの違いに
悩まされるのは普通のユーザには耐え難いことだよ。依存関係が連鎖している
から、作業途中で嫌になってやめてしまう人が多いと思う。かくいう俺もそれで
gdestraierの利用を断念した。
もしもDegianやVineなどのディストリビューションに標準採用されたとしたら、
そういう苦労はほとんどなくなるかもしれないが。
-
319名無しさん@お腹いっぱい。sage2005/07/27(水) 10:20:17
- gnome よりは java のほうがまだましだけど,とりあえずコマンドラインで使
えるようにしてくれないと不便だにゃぁ.cgi から叩きたい時もあるし.
-
320名無しさん@お腹いっぱい。sage2005/07/27(水) 10:25:32
- コマンドラインのツールならHyper Estraier自身に含まれてるじゃん。
-
321名無しさん@お腹いっぱい。sage2005/07/27(水) 10:35:27
- Java って Debian だと non-free 扱いじゃなかったっけ?
-
322名無しさん@お腹いっぱい。sage2005/07/27(水) 11:11:02
- kaffeとかgcjとかで動くならmainにいけるよ。
-
323名無しさん@お腹いっぱい。sage2005/07/27(水) 16:43:19
-
>>318
作者がコミュニティを小さく保ちたいとは考えていないとか、
windows進出でgoogledesktopなどと張り合う事を考えている
という前提はそもそも正しいの?
ところで、>>304 の問題は0.5.1で解決した。
いまはest_free_net_env()してからest_init_net_env()するとSEGVるので
悩んでいる。
-
324318sage2005/07/27(水) 22:39:59
-
>>323
張り合うっつーか、公開するぐらいだから、ユーザは多い方が嬉しい
かなと思って書いただけ。本当のところは作者氏の弁を待つしか。
-
325あうたんsage2005/07/28(木) 18:09:01
-
みなさまはじめまして
最近「Estraier」なるものの存在に気づき社内のデータの検索エンジンをWindows
ベースで構築できないかと考えているものでございます。
ここ最近Windowsバイナリが公開されまして早速つかってみました。検索スピード
に驚くばかりでこれはかなりイケてるなと思ったのですが、やはりn-gram検索の
スコアでは検索時にTOPに出てほしいものがでてきてくれません。
そこでインデックスを何とかして指定したもののスコアをあげたいのですが、やはり
そういうことは難しいのでしょうか?スコアをいじること自体がn-gramの検索の精神
に反していることは理解しているのですが、なんとかしてスコアを補正して特定の
ものを検索の最初にヒットさせたいのです。
これは「Estraier」の問題ではないと思いますが 特定のファイルをスコアの重みを
調整する術はないものでしょうか?(たとえばたくさんのアクセスがあったファイル
は最初の方に表示したいというものです)
皆様のお知恵をお貸しいただければ幸いです
WindowsXP+Apache1系+estraier-1.2.28-win32
-
326名無しさん@お腹いっぱい。sage2005/07/28(木) 18:57:55
- 全てをEstraierにやらせる必要もないだろう。
文章にキーワードを設定しておいて、それと一致するものは
Estraierによる検索結果「よりも先に」表示させるとか。
-
327名無しさん@お腹いっぱい。sage2005/07/28(木) 19:23:57
-
>>325
スピードが遅くなってもいいのなら、実際いろんな方法があると思うけど。
内部に手を入れてスコア計算をいじくるのもいいし、hyperのAPIで出力結果をバッファして
なんらかのヒューリスティックなソートを掛けるのもいいと思う。
特定のキーワードにだけ高く反応してほしいなら、hiddenテキストに
そのキーワードをたくさん書いておけばtf/idfスコアは当然高くなるよね.
ああ、estraierに隠しテキストはあったっけ?
-
328名無しさん@お腹いっぱい。sage2005/07/28(木) 20:03:18
- たくさんアクセスがあるものを上にするという場合、アクセスログを取る仕組みは
既にあるか、自前で作るんだよね。
ならば、アクセス数をDBでカウントして、10アクセスとか100アクセス毎にその文
書の更新をかけて、その際にアクセス数を属性としてつければいい。検索する際に
は、アクセス数をソート条件にすればいい。
-
329あうたんsage2005/07/29(金) 17:17:49
-
>>328
皆様ご回答ありがとうございます。
アクセスログを取る仕組みに関してはログからなんとかいけそうな気配なんですが
理解力がなくアクセス数を属性としてつける部分がよくわかっていないのです。
ドキュメントには
estcmd gatherで特定ディレクトリのインデックスをつくるところまでは理解できたの
ですが、そこから特定なファイルにのみ属性情報をつける方法が分からないのです。
前身のEstraierではestindex registerでできるようなことが見受けられるのですが、
今回のHyperEstraierでは特定ファイルに対する属性情報(アクセスの頻度による
表示の重み)はどうやってつければいいのでしょうか?
例えば重みを数値(一番先に表示したいものは1000とかその次は999とか)で表現
できると表示順を制御しやすいのですが
またその際にソートは「属性情報(表示の重み)」・「n-gramによるスコア」という順序
でソートがかかるのでしょうか?
教えて君で申し訳ありませんが皆様のお知恵をお貸しいただければ幸いです。
-
330名無しさん@お腹いっぱい。sage2005/07/29(金) 18:16:55
- estcmd putでできるのではないでしょうか。
-
331名無しさん@お腹いっぱい。sage2005/08/01(月) 05:30:52
-
>>329
0.5.3のestcmdならいちいちドラフト形式にしたりせずにできるんじゃないの。
あとn-gramはスコアの計算方法じゃないよ。
スコア計算はtf/idfで、namazuなんかと基本的にいっしょ。
-
332あうたんsage2005/08/01(月) 10:22:43
-
>>331
> 0.5.3のestcmdならいちいちドラフト形式にしたりせずにできるんじゃないの。
使用しているのは0.5.1のWindowsバイナリ版でした。
そのドキュメントには
estcmd put [-cl] db [file]
となっていて属性を指定するようなオプションがないようなのです。(T_T
0.5.3では330さんがおっしゃるようにできるのでしょうか・・・
> あとn-gramはスコアの計算方法じゃないよ。
よく読むとそうでした。よく理解しないで用語をつかっていました。(^^;
-
333名無しさん@お腹いっぱい。sage2005/08/01(月) 12:40:01
- estcmd putを使う場合はドラフト形式を作らなきゃだめだよ。
対象のファイルに対して、拡張子に応じてestcmd draftとかestxfilt.batで
テキストを抽出するとともに、先頭に「title=あいうえお」というような属性定義
をするその一部として、「myscore=10000」みたいにスコアを属性としてつければ
いいと思う。検索する時には順序の指定で「myscore NUMD」にすればmyscoreの大き
い順番で並べられると思うよ。
331の言うように、0.5.3からは、estcmd gather(-pxオプション?)を使えばドラ
フト形式を使わなくても属性の指定ができるようになったような希ガス。
-
334あうたんsage2005/08/01(月) 14:37:43
-
>>333
とんちんかんな質問をしているのに、詳しくご教授いただきありがとうございます。m(_ _)m
なんとなくですがわかったような気がします。(^^;
一括登録では属性を「myscore=0」などにしておいてestcmd gather -px で一括登録
し、その後、上位に表示させたい特定ファイルのみオリジナルファイルを「@myscore=1000」
などをつけたドラフト形式に変換しestcmd putで1件づつ登録という流れになるということですね。
まだ、いまいちドラフト形式にするところがよく分かっていないのですが、ドキュメントに指定され
ているようなドラフト形式
@uri=http://www.hogehoge.jp/hogehoge.html
@title=hogetest
@cdate=2005-08-01T00:00:00+09:00
@mdate=2005-08-01T00:00:00+09:00
@myscore=1000
上記のような形式をファイルのどの部分に記載すればいいのでしょうか?
文字コードはUTF8で、ファイルの末尾にアペンドするということでいいのでしょうか?
そもそもドラフト文書への変換用としてestcmd draftがあるみたいに記載があるのですが、
WEBから取得してきたHTMLファイルなどをこのコマンドで変換した場合は、単に文字コードを
自動で判別してUTF8に変換して出力するだけ?の機能なのでしょうか
コマンドの引数では属性を指定したりはできないのでいまいち使い方がわかりません(^^;
estcmd putで属性登録に関する部分もサポートしてもらえるといいかんじになりそうなんですが・・・
いま最新のバイナリみたらWindows版も0.5.3があがってました。最近、勢力的に開発を
されているようで今後に期待です。調べてみたらおっしゃるような(-px)オプションが
追加されていました。
-
335名無しさん@お腹いっぱい。sage2005/08/01(月) 15:11:09
-
メールの書式と同じような感じで、属性定義の下に空行をあけてから、普通のテキストを
書くみたいです。
@uri=http://www.hogehoge.jp/hogehoge.html
@title=hogetest
@myscore=1000
近所のラーメン屋さんを探してみませんか?
Google ローカルでお試しください
estcmd draftはHTMLのタグを外してから、タイトルなどの属性も抽出したドラフトを作って
くれます。文字コードもUTF-8にしてくれるみたいです。
estcmd putを使わなくても、estcmd gatherにファイルのリストを読み込ませれば登録できる
と思いますよ。estcmd gather abc list.txt を実行すると list.txt からファイル名と属性
のリストを読み込んでくれるはずです。
私はメーリングリストの過去記事の検索システムをHyper Estraierで作って使っているのです
が、属性をいくつかつけたいので、全部の記事の文書ドラフトをいったん作ってから読み込ま
せています。-pxオプションがあればその苦労をしないで済むようになりそうです。
-
336あうたんsage2005/08/01(月) 15:49:31
-
>>335
> estcmd putを使わなくても、estcmd gatherにファイルのリストを読み込ませれば登録できる
> と思いますよ。estcmd gather abc list.txt を実行すると list.txt からファイル名と属性
> のリストを読み込んでくれるはずです。
迅速なレスありがとうございます。なるほどです。1件の登録であってもリストをつくって登録すれば
estcmd putに機能をもたせなくてもいいということですね。(^^;
ちなみにそのリストファイルの書式ってどんな感じになりますでしょうか?
ドキュメントの読み方があまいかもしれませんが、このあたりの情報はどちらにありますでしょうか?
ほんと教えて君ですいません。m(_ _L
-
337名無しさん@お腹いっぱい。sage2005/08/01(月) 16:35:38
- リストの形式はタブ区切りです。最初の項目がURLで、次の項目以降が属性です。
C:¥data¥000001.txtを登録する際に、@uriがfile://C|/data/000001.txtで、
@titleがABCDEで、myscoreが1000なら、
C:¥data¥000001.txt file://C|/data/hogehoge ABCDE 1000
というリストになると思います。空白の部分はタブ1個であけてください。
これを list.txt として保存したなら、
estcmd gather -ft -px @uri -px @title -px myscore casket list.txt
を実行すれば登録できると思います。登録対象がテキストでなくWordなどの場合は -ft のかわりに
-fx でフィルタを指定することになると思います。
-
338あうたんsage2005/08/03(水) 08:23:43
-
>>337
ありがとうございます。さっそくやってみます。
この辺の情報も付属のドキュメントに記載があるのでしょうか?
ドキュメントの読みが浅くてみなさまにご迷惑をおかけしているようで(^^;
-
339名無しさん@お腹いっぱい。2005/08/03(水) 11:50:56
- > -pxはパスのリストから読み取る属性名を指定します。パスのリストはTSV形式
> にすることができ、第1フィールドは対象文書のパス名、第2フィールド以降は
> 属性値の定義として扱われます。-pxによって第2フィールド以降に対応する属
> 性名を定義します。このオプションは複数回指定できます。
って書いてあるよ。この説明から337の用法まで思い付くのは大変だと思うが。
Windows版のインストール方法も含めて詳しく説明した解説サイトがあればいい
のにね。
ついでに良スレage
-
340名無しさん@お腹いっぱい。sage2005/08/03(水) 13:05:41
-
>>339
> Windows版のインストール方法も含めて詳しく説明した解説サイトがあればいい
> のにね。
いいだしっぺの法則 ズサー
-
341あうたんsage2005/08/03(水) 15:05:53
-
>>339
ありがとうございました。このあたりを中心にもう一度熟読?(^^;
してみようと思います。
導入に関してWindows版のサイトや導入した際の備忘録ページなどががあると
訴求力が大きく違うかもしれませんね。
現在メーリングリストに入っていますがほかにもEstraierのことがやり取りされて
いるところってあるのでしょうか?
メーリングリスト
hyperestraier-users-ja mailing list
http://sourceforge.net/mailarchive/forum.php?forum=hyperestraier-users-ja
で過去のログがみたかったんですけど、私の環境では文字化けしてしまい
どうもうまくよめませんでした。(T_T
-
342名無しさん@お腹いっぱい。sage2005/08/03(水) 16:41:27
-
>>341
日本語MLの文字化けはsf.jpの仕様なので、こっちを見るといいよ。
ttp://hyperestraier.sourceforge.net/sfmltoj.cgi
まぁ、それでもUTF-8な人のヘッダは化けてる訳ですが...
-
343あうたんsage2005/08/05(金) 11:41:58
-
>>342
あんがとでした^−^ なんとか読めるとです。
-
344名無しさん@お腹いっぱい。2005/08/15(月) 02:07:13
- hyperestraier 0.5.4 age
-
345名無しさん@お腹いっぱい。sage2005/08/15(月) 10:55:46
-
346名無しさん@お腹いっぱい。sage2005/08/15(月) 12:12:44
- RPM作ってくれないかな。
-
347名無しさん@お腹いっぱい。sage2005/08/15(月) 12:32:16
- ports作ってくれないかな。
-
348名無しさん@お腹いっぱい。sage2005/08/15(月) 13:43:00
-
>>346,367
どっかに転がってるんぢゃね?
Gentoo Portageにはある。DarwinPortsには、鹿版がある。
-
349名無しさん@お腹いっぱい。sage2005/08/15(月) 16:24:57
- ChangeLog に載ってない変更はやめてくれぇ...orz
ESTCONDUSUってUSUALのことだったのかYo!
-
350名無しさん@お腹いっぱい。sage2005/09/22(木) 00:17:43
- 0.9リリースage
-
351名無しさん@お腹いっぱい。2005/09/22(木) 00:20:41
- あげ忘れた
-
352名無しさん@お腹いっぱい。sage2005/09/22(木) 09:10:49
- 一気にヴァージョン上がったね。
でも win32 バイナリ来てないよ、(´・ω・`)ショボーン
-
353名無しさん@お腹いっぱい。2005/09/26(月) 02:51:57
- 今は、関係ないかもね
-
354名無しさん@お腹いっぱい。sage2005/09/26(月) 04:21:11
- Hyper Estraier Win32なんで板違いっぽいけど
検索するディレクトリ書いたファイル読み込ませて
index作成ってのがどうしてもできないのヨ。
どなたか、オレはこれでできとるがな、という
コマンドラインの書式をイッパツ晒してくれませんでしょうか。
-
355名無しさん@お腹いっぱい。sage2005/09/26(月) 07:11:36
-
>>354
うちは出来てるヨ(オプションはてけとー)
> estcmd.exe gather -cl -ft -ic euc-jp -il ja -sd -cm casket filelist.lst
「検索するディレクトリ書いた」というより「検索するファイルリスト自体」じゃないとダメなのかも
-
356名無しさん@お腹いっぱい。sage2005/09/27(火) 11:10:16
- 検索結果に
htmlファイルのを表示したいのですが
どのようにしたら良いでしょうか。
-
357名無しさん@お腹いっぱい。sage2005/09/27(火) 11:29:59
-
>>355
さんくすこ。おいらもできたよ。
-
358名無しさん@お腹いっぱい。sage2005/09/27(火) 16:48:16
- こっちもWindowsのHyper Estraierなんですが
estcmd out ってちゃんと使えてますか?
dbの部分でどうしてもエラーが出ます。
C:¥cygwin¥home¥ore>estcmd out casket file:///C:/cygwin/home/ore/html/2004.5.3.html
estcmd: INFO: status: name=casket dnum=74 wnum=31721 fsiz=4617468 crnum=0 csiz=0
dknum=0
estcmd: ERROR: casket: no such item
estcmd: INFO: closing: name=casket dnum=74 wnum=31721 fsiz=4617468 crnum=0 csiz=
0 dknum=0
casketが作成したindexのディレクトリ。同じ場所で
estcmd search ごにょごにょ casket "検索文字"ならちゃんと動くし
エラーメッセージ一行目では認識しときながら二行目では
no such itemになってるのがよくわからないんですが。
-
359名無しさん@お腹いっぱい。sage2005/09/27(火) 17:12:43
-
>>358
out はあまりテストしてみたくないので、
> estcmd list casket
で ID 取ってみて URI の代わりに ID でやってみては?
purge とかはふつーにうごいてるけどなあ。
-
360358sage2005/09/28(水) 11:29:19
- どうも。
file:///C:/cygwin/home/ore/html/..
ではだめで
"file:///C|/cygwin/home/ore/html.."
の方式でやればいいだけだったorz。
まさに板違い質問にて大変失礼。IDでもイケましたよ。
-
361名無しさん@お腹いっぱい。sage2005/09/28(水) 16:50:25
-
>>356
標準で表示されるような気がするんだけど。
-
362名無しさん@お腹いっぱい。2005/09/29(木) 14:13:06
- OpenSearch対応したみたいだな。ちょっといじってみるか。
-
363名無しさん@お腹いっぱい。sage2005/09/29(木) 14:39:21
- win32 バイナリも出てるね。
週末は遊べそう…
-
364名無しさん@お腹いっぱい。sage2005/10/02(日) 07:05:41
- なんか0.9.1に上げたらこれまでのindexが使えなくなってるんだけど
そういうもの?Win32のバイナリっす
-
365名無しさん@お腹いっぱい。sage2005/10/02(日) 14:59:43
-
>>364
ホントやね。うちも泣く泣く作り直した。
以前も 0.3.x から 0.5.x に変わった時に更新したらおかしくなったなあ。
-
366名無しさん@お腹いっぱい。sage2005/10/02(日) 17:58:40
-
>>365
うう、うちだけじゃないのか…。
こればっかりはなんとかならんかねー
-
367名無しさん@お腹いっぱい。sage2005/10/02(日) 19:48:04
- 正式版が出るまでは続くと思うよ。
0.9.0っていうことはベータ的位置づけということなのだと思うけど...
リリース計画がはっきりしてないから予想できないけどね。
-
368名無しさん@お腹いっぱい。sage2005/10/02(日) 19:58:29
- ドキュメントにベータ版とはっきり書いてあるよ。
作者のブログではそろそろ1.0を出すって書いてあるけど、いつになるやら。
-
369名無しさん@お腹いっぱい。sage2005/10/02(日) 20:21:56
- なんだかAtomに対応してみたり、次はWebのクローラとか作りたいみたいだから
まだ新機能追加はありそう。なんだかんだで正式版はまだ先になりそうだね...
いや、分割パッケージでだすのかなぁ?
開発日記よんでると長期計画なさそうだから本人も知らなさそうだ(w
-
370名無しさん@お腹いっぱい。sage2005/10/02(日) 22:25:40
- 長期計画があるOSSなんてなかなかあるもんじゃないけどね。
一般的なOSSの場合、開発完了はプロジェクトが生きているうちはないんじゃない?
-
371名無しさん@お腹いっぱい。sage2005/10/02(日) 23:13:25
- それはその通りだけど、次のリリースに付け加えるべき機能と直すべきバグのリスト
くらいは公開してくれるとありがたいな。本人にも役に立つだろうし、貢献もしやすい。
-
372名無しさん@お腹いっぱい。sage2005/10/02(日) 23:21:51
- 早いところGUIをつけてくれるとありがたい。
-
373名無しさん@お腹いっぱい。sage2005/10/03(月) 02:27:44
- 目指すは打倒Beagleでつか?
-
374名無しさん@お腹いっぱい。sage2005/10/03(月) 10:31:37
-
>>372
なんの GUI?
-
375名無しさん@お腹いっぱい。sage2005/10/03(月) 13:43:29
-
>>374
estcmdのGUI
-
376名無しさん@お腹いっぱい。sage2005/10/03(月) 16:25:45
-
いまさらなのかもしれないけど質問。
http://hyperestraier.sourceforge.net/intro-ja.html#deployment
「更新作業の自動化」の
/usr/local/bin/estcmd gather -cl -il ja -sd -cm /home/www/casket
/usr/local/bin/estcmd purge -cl /home/www/casket
これって、最後にインデックス対象のディレクトリ入れないとダメだよな。
findで一気に登録してる人ってまたfindしなおして更新してるの?
-
377名無しさん@お腹いっぱい。sage2005/10/03(月) 16:59:17
- >これって、最後にインデックス対象のディレクトリ入れないとダメだよな。
本当だね。指摘しとこう。
>findで一気に登録してる人ってまたfindしなおして更新してるの?
漏れはディレクトリ毎に更新頻度が全然違うから、よく更新するとこだけ1日1回のcron
にして、他は手動でやってる。
-
378名無しさん@お腹いっぱい。sage2005/10/07(金) 03:38:16
- WebDAVなんて使っている香具師いるのかな
-
379名無しさん@お腹いっぱい。sage2005/10/07(金) 09:38:03
- 使ってはいないけれど、WinもMacも素のOSレベルで共有ディスクとして見えるから、
そこに何でも放り込んどきゃオッケーみたいな使い方は手軽で便利かもしれない。
んで、ノードAPI経由でローカルなデスクトップ検索なんかとP2Pでシームレスに検索
できますよ、ということじゃないのかな。
自信ないけどWinもWebDAVを共有ディスクとして見えたよねぇ?
-
380名無しさん@お腹いっぱい。sage2005/10/07(金) 09:51:11
-
>>379
> 自信ないけどWinもWebDAVを共有ディスクとして見えたよねぇ?
うむ、マイ ネットワークから "ネットワークプレイスの追加" で。
んでも、WebDAV のファイルサーバー利用って、samba でやるより
運用が面倒なのよね。
(ファイル名文字コード云々の話とか)
ACL も掛けにくいし、パフォーマンスが悪い。
-
381名無しさん@お腹いっぱい。2005/10/11(火) 20:30:07
- 0.9.2リリースage
もうすぐ1.0.0出そうだね。
-
382名無しさん@お腹いっぱい。2005/10/12(水) 09:21:10
-
面白そうなことやってるね
> Hyper Estraierによる共有プロクシ検索の公開実験中です。
>
> あなたのWebブラウザのプロクシに「athlon64.fsij.org」の「8080」番を設定してください。
> そうすると、一度見たページを検索できるようになります。
>
> 検索するには、「http://athlon64.fsij.org:1978/node/test/search_ui」にアクセスしてください。
-
383およよsage2005/10/15(土) 14:58:48
- Estraierに登録する文書にリンクタグを属性としてつけて検索の結果に
(detail画面ではなく検索結果画面で)そのリンクタグを表示することって
できないでしょうか?
つまりその文書にURIとは別に関連するURIを設定できるか?ってこと
なんすけど(^^; リンクタグ自体を属性としてつけたいわけではないの
ですが似たことを実現できると幅がひろがりそうなんですけど・・・
およよ
-
384名無しさん@お腹いっぱい。sage2005/10/15(土) 16:41:15
- 関連するURIは適当な属性として登録しておいて、estseek.confのextattrのところに
その属性名を書いておけば表示されるよね。
リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
をいじればできそう。
-
385名無しさん@お腹いっぱい。2005/10/17(月) 00:17:40
- Hyper Estraier ver1.0.0 記念 age
-
386名無しさん@お腹いっぱい。sage2005/10/17(月) 01:32:32
- 出たか。おめ
-
387名無しさん@お腹いっぱい。sage2005/10/17(月) 02:29:35
- 正式版、安定版である旨書かれた場所がないんだが
もう移行して大丈夫なんだろうか。
indexが使えなくなるのはもうやーよ。
-
388名無しさん@お腹いっぱい。sage2005/10/17(月) 03:48:23
- 「ベータです」という文言が削除されてるから安定版ってことでいいんじゃね?
-
389名無しさん@お腹いっぱい。sage2005/10/17(月) 04:00:23
- 「ベジータです」
-
390名無しさん@お腹いっぱい。sage2005/10/17(月) 09:45:45
-
/.jp のストーリーになってるね。
http://slashdot.jp/developers/article.pl?sid=05/10/16/2244215
-
391名無しさん@お腹いっぱい。sage2005/10/17(月) 13:43:59
-
>>390
開いてみたら相変わらず「まあ/.-Jだしな」な内容だったな。
-
392名無しさん@お腹いっぱい。sage2005/10/17(月) 15:50:23
- p2p検索ってなにかうまい使い道あるのかねぇ。よーわからん。
-
393名無しさん@お腹いっぱい。sage2005/10/17(月) 16:04:18
- クラサバよりも設置と管理が簡単
-
394名無しさん@お腹いっぱい。sage2005/10/17(月) 22:41:15
- P2Pファイル共有ソフトに検索機能をつける事例はたまに見かけるが。
-
395名無しさん@お腹いっぱい。sage2005/10/18(火) 00:19:12
- gentoo/amd64 あたりで簡単に動かんかの?
-
396名無しさん@お腹いっぱい。sage2005/10/18(火) 00:24:13
- portageに入ってないっけ?64対応は知らんけど
-
397名無しさん@お腹いっぱい。sage2005/10/18(火) 01:52:07
- デモサイトがAthlon64だから動くだろ
-
398名無しさん@お腹いっぱい。2005/10/19(水) 00:57:46
- 私には関係ない
-
399およよsage2005/10/19(水) 11:23:39
-
>>384
> 関連するURIは適当な属性として登録しておいて、estseek.confのextattrのところに
> その属性名を書いておけば表示されるよね。
> リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
> をいじればできそう。
ありがとうございました。属性名の表示はできました。
だめもとでリンクを属性情報としてリンクタグを含んだ形で登録したのですがやっぱしだ
めでした。
> リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
> をいじればできそう。
ってのがどうも (^^:;;
具体的にはどんなことをすればいんでしょうか?
なんかぜんぜん分かってなくてすいません。m(_ _)m
-
400名無しさん@お腹いっぱい。sage2005/10/19(水) 11:33:04
- win32版だがPremature end of script headers: estseek.cgiが出て
どうしても動かない。linux上では動かせたのに〜orz
estseek.confが間違っていそうなんだが...
インデックスはD:¥indexに作成。対象ファイルはD:¥testとすると、
indexname: D:/index
lprefix: file:///D|/test
でアカンのか?
-
401名無しさん@お腹いっぱい。sage2005/10/19(水) 11:59:34
-
>>399
そこらへんのカスタマイズって、
namazu よりもまだとっつきにくいと言うか難しいよね。
>>400
conf のなかみのミスだと、index not found だとかなんかなはず。
だから、たぶん dll がらみ。.
cgi と同じディレクトリに .dll を全部コピーしてみて。
-
402名無しさん@お腹いっぱい。sage2005/10/19(水) 12:40:09
-
>>401
レスサンクス。
まさにおっしゃる通りでした。
dllを%systemroot%system32に移動したら、問題なく動きました。
hyperestraierのバイナリの置いてあるディレクトリにはパスは
ちゃんと通してあったんですが、それではダメなようですね。
(付属のドキュメントにも、.exeや.dllのディレクトリにパス通せと
書いてあるだけですし。)
-
403名無しさん@お腹いっぱい。sage2005/10/19(水) 12:49:07
-
>>402
Apacheの実行ユーザとPathを設定したユーザが違うから、
パスが通ってなかったんじゃないの?
-
404名無しさん@お腹いっぱい。2005/10/19(水) 12:49:56
-
>>399
-
405名無しさん@お腹いっぱい。2005/10/19(水) 12:51:07
-
estseek.confを上のように書き換えると、「http://」で始まる属性値がリンクになるよ。
(その場合、属性値に「」は不要)
-
406およよsage2005/10/19(水) 13:35:55
-
>>405
さっそくのレスありがとうございます。 estseek.tmplのほうでいんですよね(^^;
属性名「Link」で設定してインデックスを作り直してestseek.tmplに追加後検索結果ソースをみてみると
- Link: http://www.hogehoge.jp/
という部分が出力されていました。ご掲載いただいたソースはclassが「doc_val」で「http://」で始まる部分
をみつけたらそのテキスト部分を書き換えるってことだと思うんですがどうもうまくいかないんです。
本当は
- Link: http://www.hogehoge.jp/">http://www.hogehoge.jp/
と出力されるということでよろしいでしょうか?
-
407およよsage2005/10/19(水) 13:48:00
-
>>406
すいません。追記ですが