hamada
bungu****@leo*****
2004年 7月 9日 (金) 11:03:00 JST
こんにちわ。 On Wed, 07 Jul 2004 09:58:23 +0900 TAMURA Toshihiko <tamur****@bitsc*****> wrote: > YSTについては、データが少ないためにいろんなレベルの情報が流れていますが、 > 事実を把握する必要があるので、情報を共有できればいいと思います。 ということですので、 ・自分の知ってる事しか解らない ・大したことは知らない(素人) 当方ですが、とりあえず「現時点でこうじゃないかと思ってる」ことを書き出し てみます。 > YSTでは現時点でインデックス化されているページが > 非常に少ないということは事実だと思います。 当方の認識> 1. YST/Inktomiクローラーの襲来頻度はけして低くない 2. YST/Inktomiは同じページを繰り返し読む傾向が強い 3. YST/InktomiはセッションIDリンクを 2004/07/09,04:37:56,66.196.90.198,"lj1182.inktomisearch.com","-",GET,"/catalog/default.php/cPath/187_62","osCsid=d9129b47f25419f5d1e61fc7033c3bca","osCsid=d9129b47f25419f5d1e61fc7033c3bca",200,40001,"-","Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" のように追うことができるが、こうしたパラメータ付リクエストの割合は低い。 MSNの「パラメータ付リクエストが9割以上」という数値に比べ「リンクを追う 能力が低い」と推測される 4. YSTのインデックス化はあまり早くない 5. YSTのインデックスにはとんでもなく古いデータが混じっている > (Googleでもその制限はあると聞きますが、それよりも制限がきついのかも) Googleはガイドラインにて「リンク100個くらい」と言ってますが、当方が独 自に実験したところ、 「実際にリンクを追うのは500〜1000の間くらい」 という「印象」です。 これは当方の1実験結果でありなんら根拠のある数字ではありませんし、クロー ラーの種類、たとえばcrawlとcrawlerの違い(フレッシュクロールかそうでない か)等も把握できてません。 対するYST/Inktomiは、 「もしかして認識するリンクの数自体はGoogleより多いんじゃないか?」 と思ってます。こっちも「印象」ですけど。 ただ、YST/Inktomiの場合、上記のとおり 「パラメーター付リンクも追うけどその頻度が低い」 のと、クロールして収拾してもインデックス化されない(←ように見えるが、実 際には「なかなかSERPsに出せない」だけの場合もあることを確認済)ことがあ るので、結果的に「見えない」のかなぁ?とか。 YST/Inktomiには、未だサイト登録のページがないのもイタイです。 全然リンクを追えないInfoseekのクローラーでも、サイト登録で全カテゴリ一覧 &全商品紹介ページのurlを手動登録(実際にはツールを使います:^^;)してや れば、一応インデックス化されるんですが。 > 一般のosCommerceのサイトで全商品をインデックス化するには、 > (a)→(b1)→(b2)→(c)のリンクをたどってもらう必要がありますが、 > YSTではホップ数の制限があるのかもしれません。 あ、それはアリかもしれませんね。従来そういう考えが無かったのですが、言わ れてみれば幾つか思い当たるフシが無いでもないです。 またちょっと調べてみます。 > 全体として、YSTのページのインデックス化については、 > 不可解というか、単にハードウェアなどのリソース不足なのかも > しれませんが、困ったもんですね。 「リソース不足」ってのは同感です。割とボロい検索エンジン→あんまり自分で 使う気にもなれないんですが、最大ポータルのYahooが使ってるからこっちも仕 方なく対応してるって感じです(^_^;) はまだ