Fóruns: 【移行しました】サポート (Thread #37875)

ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-12 07:14 by okachan #78325)

はじめまして。okachanと申します。

検索エンジンのサービスに興味があり先週の金曜日くらいから使い始めましたが、いろいろ使い方が
わからないので教えて下さい。

https://www.dropbox.com/s/5hiy2jead4uzjil/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202016-07-12%2007.05.22.png?dl=0

↑のような形式でクロールを設定して、

https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
↑のようなURLルールのものだけクロールしたいと考えていますが、

http://doctors-career.jp/search/?q=e-doctor+%E5%86%85%E7%A7%91%E5%8C%BB&num=20&sort=

実際やってみたところ、関係ないURLも検索結果にのってしまっています。
設定が間違っているようなのですが、どこを直せばよいか教えて頂けますでしょうか。

また一括で不要なデータを削除したい場合、CUIベースで削除とかできますでしょうか。

例えばいまやりたいことは
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
↑のフォーマット以外のURLは一括削除とかそういったことを考えております。
よろしくおねがいいたします。

Responder a #78325×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-14 16:29 by shinsuke #78342)

URL
https://www.e-doctor.ne.jp/

クロール対象とするURL
なし

クロール対象から除外するURL
https://www.e-doctor.ne.jp/j/search/.*
https://www.e-doctor.ne.jp$
https://www.e-doctor.ne.jp/$
https://www.e-doctor.ne.jp/.*¥?.*
https://www.e-doctor.ne.jp/c/.*
https://www.e-doctor.ne.jp/k/.*

検索対象とするURL
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*

検索対象から除外するURL
なし

のような感じではないでしょうか。

管理画面の検索で検索した条件で一括削除できます。
url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。
http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
Responder a #78325

Responder a #78342×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 08:17 by okachan #78350)

教えていただきありがとうございます。


> 管理画面の検索で検索した条件で一括削除できます。
> url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。
> http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html

こちら上記入力してみましたがうまくいきませんでした・・・
ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。

単純に「広島」「東京」などの文字列では検索できるようです。

https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b
Responder a #78342

Responder a #78350×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 08:27 by okachan #78351)

[メッセージ #78350 への返信]

> > 管理画面の検索で検索した条件で一括削除できます。
> > url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。
> > http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
>
> こちら上記入力してみましたがうまくいきませんでした・・・
> ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。
>
> 単純に「広島」「東京」などの文字列では検索できるようです。
>
> https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b

url:"https://.*"
で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。
Responder a #78350

Responder a #78351×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 16:29 by matsutani #78352)

[メッセージ #78351 への返信]
> [メッセージ #78350 への返信]
> url:"https://.*"
> で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。

url:"http://fess.codelibs.org/*"
「.*」ではなく「*」を指定することで絞り込みすることができます。
Responder a #78351

Responder a #78352×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login