[fess-user 98] Re: サイトマップへの対応?

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 1月 13日 (水) 23:50:03 JST


菅谷です。

> 「URL」ですね?

はい。
通常の起点となる URL と同様にサイトマップの
URL を指定します。

> そこに指定する URL ですが、サイトマップファイル名までは含めない
> のですか?

ファイル名まで含める必要があります。

>ファイル名パターンで自動的にヒットするのですか?

いいえ、パターンで自動にヒットしません。
サイトマップは普通の XML ファイルなどなので
クロール時にその URL が普通の XML ファイルなのか
サイトマップなのかが区別できません。ですので、

>>sitemap.*.xml、sitemap.*.gz、sitemap.*txt である

であればその URL から取得したものをサイトマップとして
処理します。

> サイトマップファイルには、サイトマップの URL の下ではない別のと
> ころの URL が書いてある理屈ですが、

サイトマップはサイトマップファイルが置いてある URL 以下の
場所しか指定できませんが、今のところ、Fess では特に制限せずに
サイトマップファイルに記述してある URL を子リンクとして
次のクロール対象とします。

> 「クロール対象とするURL」に
> はそちらの URL 正規表現を入れておくのでしょうか?

サイトマップファイルに書いてある URL は、通常の HTML 内に
書いてあるリンクと同じ扱いになります。ですので、サイトマップの
URL をクロールしたい場合はクロール対象 URL などで制御できます。

HTML ファイルをクロールするとリンクが次のクロール対象に
なりますが、サイトマップファイルをクロールするとその中の
URLが次のクロール対象になる感じです。

現在、いろいろとドキュメント整備を進めていますが、
不明な点がありましたら、お知らせください。
(いろいろとご指摘いただき助かっています)

shinsuke


2010年1月13日18:44 Masayuki Shibata <mshib****@shima*****>:
> 柴田@亀岡市です。
>
> イマイチ、設定がピンと来ないので教えてください。
>
>>URL にサイトマップを指定すると、そこからクロール先の
>>リンクを利用します。サイトマップのファイル名は
>>sitemap.*.xml、sitemap.*.gz、sitemap.*txt である
>>必要があります(webapps/fess/WEB-INF/classes/
>>s2robot_rule.dicon でカスタマイズは可能です)。
>
> 「URL」ですね?
> 「クロール対象とするURL」ではなくって...
>
> そこに指定する URL ですが、サイトマップファイル名までは含めない
> のですか?ファイル名パターンで自動的にヒットするのですか?
>
> サイトマップファイルには、サイトマップの URL の下ではない別のと
> ころの URL が書いてある理屈ですが、「クロール対象とするURL」に
> はそちらの URL 正規表現を入れておくのでしょうか?
>
> クロール対象とするURL にはサイトマップファイル内にないものも配
> 下にあるのですが、それもどうもヒットしてきているみたいで、上記
> 想定は少し外れているみたいで、ちょっとわからなくなってます。
>
> 試行錯誤して見つける努力はしますが、もしよろしければご教示いた
> だけると助かります。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index