[fess-user 52] Re: クロール対象(外)URL と 検索対象(外)URL の使い方

Back to archive index

Masayuki Shibata mshib****@shima*****
2009年 12月 21日 (月) 19:44:15 JST


柴田@亀岡市です。

ご説明ありがとうございます。

>簡単ではありますが、
>http://fess.sourceforge.jp/ja/1.2/admin/webCrawlingConfig-guide.html
>にまとめてみました。

ここを拝見しながらやっているのですが、最初に間違って思い込んでしま
うとうまく理解ができないのだろうと思います。

説明していただいてようやくわかりました。

「検索対象とするURL |
検索除外対象とする URL と指定されていても、ここでの指定が優先されます。 」

...にある意味は、例えば「*.doc ファイルだけ検索したいとき」は、検
索除外対象でいったん全部除外にしておいてから *.doc 分を検索対象 
URL に指定しなさい... という意味ですね?

...で

「検索対象から除外するURL |
指定された正規表現の URL をクロール対象としません。」

...とありますが、「検索対象としません。」の間違いではありませんか?

「クロール対象から除外するURL」に指定してしまうと *.doc だけ見よう
と穴をあけても、元がないので見られないということですね?

>菅谷です。
>
>ややこしくなって申し訳ありません。その機能を
>追加した動機は、クロールしていくけど、その中の
>一部は検索対象にしたくないようなことから来てます。
>たとえば、一覧と詳細ページがあったとして、一覧
>ページをクロールの開始地点にして、検索結果には
>詳細ページだけにしたいような場合です(一覧ページは
>結果に表示しない)。このような場合は、「検索対象から
>除外するURL」に一覧ページを指定します。
>
>簡単ではありますが、
>http://fess.sourceforge.jp/ja/1.2/admin/webCrawlingConfig-guide.html
>にまとめてみました。
>
>> クロール対象 URL とは...
>
>クロールする対象 URL になります。検索対象 URLで何も
>指定しなければ、今まで通り、検索対象としてSolr に投入
>されます。
>
>> 検索対象 URL とは...
>
>検索対象として Solr に投入される URL になります。
>クロール対象となった URL を Solr に投入するかどうか
>(検索結果に入れるか) を制御します。
>
>> ・クロール対象 URL に指定してあれば、検索するとヒットするように
>>  思いますが、それで正解でしょうか?
>
>検索対象 URL (除外も)で何も指定しなければ、Solr に投入
>され、検索にヒットします。検索対象 URL が指定されていれば
>それにマッチするかどうかで、検索にヒットするか決まります。
>
>> ・クロール対象 URL 内のドキュメントにクロール対象外へのリンクが
>>  ある場合、リンク先のドキュメントは検索対象になるでしょうか?
>
>クロール対象外であれば、検索にはヒットしません。
>
>> ・上記の場合、検索対象をクロール対象内に閉じ込めたいときは、検
>>  索対象 URL にクロール対象 URL と同じ正規文字列検索式を入れて
>>  おく必要がありますか?
>
>検索対象はクロール対象に含まれます。
>検索対象の URL はクロール対象の中での条件をしてすれば
>OK です。同じものを指定する必要はありません。
>
>たとえば、従来通り、クロール対象で指定して、ある部分の
>ドキュメントだけ検索結果に表示したくない場合に、「検索対象から
>除外するURL」にそれを指定するような使い方があると思います。
>
>よろしくお願いいたします。
>
># ドキュメントに例を書いた方がよさそうですね…(反省)
>
>shinsuke
>
>
>
>2009年12月21日15:48 Masayuki Shibata <mshib****@shima*****>:
>> 柴田@亀岡市です。
>>
>> 非常に基本的な質問で恐縮なのですが...
>>
>> クロール対象 URL とは...
>> 対象 URL のドキュメント中にリンクがないか探しに行く。
>>
>> 検索対象 URL とは...
>> 対象 URL のドキュメント中に検索文字がないか探しに行く。
>>
>> ...と思っているのですが、
>>
>> ・クロール対象 URL に指定してあれば、検索するとヒットするように
>>  思いますが、それで正解でしょうか?
>>
>> ・クロール対象 URL 内のドキュメントにクロール対象外へのリンクが
>>  ある場合、リンク先のドキュメントは検索対象になるでしょうか?
>>
>> ・上記の場合、検索対象をクロール対象内に閉じ込めたいときは、検
>>  索対象 URL にクロール対象 URL と同じ正規文字列検索式を入れて
>>  おく必要がありますか?
>>
>> ちょっと一番上の質問の部分で混乱しておりますので、とんちんかん
>> な質問をしてしまっているのかも知れませんが、ご教示いただけると
>> 助かります。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
>_______________________________________________
>Fess-user mailing list
>Fess-****@lists*****
>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index