C31:アルタビスタ革命(サーチエンジン)
- [講師] Paul Flaherty(DEC)
- [日時] 8月26日(金) 14:15-15:45
- AltaVistaとは
WWWに乗っている情報をDB化し、全文検索により検索するシステム。
URLは、
http://www.altavista.digital.com/。
- 製作の動機
- Alhpa Server 8400のDBの能力を試したい
- DECがInternetに深くかかわっていることを示したい
- 7ヵ月で製作
- 構造
- Scooter: 各WWWページのscanを行う
- AltaVista WWW Server: Alphaマシン2台で稼働
- NI-2 DB Server: メモリ6GB、HDD 210GB(RAID使用)
- queryとhit数
- 多い検索パターン: 人名、場所、企業名
- 20万ページがここにlinkを張っている(referで調べたようだ)
- その他の特徴的機能
- スペルチェック
- 著作権問題に配慮
- ページの人気を評価
- 1日におけるqueryは、8:00-12:00(PST)が多い
- 応答0.7秒以内、負荷1以下
- フロントエンドのデザイン上の注意: 入力Formはスクロールしない
- 市場調査
- Usenetの記事から頻度を調査
- YahooとAltavistaが1番人気
- Yahooとは方針が違うので共存できる
- 今後の展開
- 新しいマシンやCPUが出たら導入する
- サーチエンジンについても改良中
- DBは木構造になっているため、データの増加は対数的である(小さい)。
indexは50GB程度
- 日本語化についても検討中
- +URL:.jpを指定することで、jpを強くすることができる
- 新しいWWWサイトが出るたびに登録している(Usenetなどで調べる)
Interop日記