[fess-user 1016] Re: サイトマップ sitemap.xmlをクロール対象とする設定

Back to archive index

Shinsuke Sugaya shins****@gmail*****
2017年 6月 1日 (木) 10:04:43 JST


sitemap.xmlが開始URLとして指定されているので、

> 2017-04-24 00:00:35,767 [Crawler-20170424000000-1-2] INFO  Crawling URL:
http://testwww2.ドメイン名/sitemap.xml

を参照して、クロール対象のURLを取得して

> 2017-04-24 00:00:38,286 [Crawler-20170424000000-1-1] INFO  Crawling URL:
http://testwww2.ドメイン名/calendar/

をクロールしていると思います。

> 自動的に「クロール対象とするURL: http://ドメイン/.*」で指定した

はクロール時のフィルタ的な設定になります。

> また、<loc><priority><changefreq>の順に記載している事が問題なのでしょうか。

特に問題ないと思います。

shinsuke



2017年4月24日 10:43 松宮 あすか <matsu****@idaj*****>:
> shinsuke様
>
> 返信をありがとうございます。
> fess-crawler.logを見ると以下の記載がありました。
> クロールするターゲットのURLがない(sitemap.xmlがない)ので、
> 自動的に「クロール対象とするURL: http://ドメイン/.*」で指定した
> HTMLファイルからリンクを辿って検索結果を出しているという認識でよろしいで
> しょうか。
>
> sitemap.xmlの書き方についてですが<lastmod>を記載していません。
> また、<loc><priority><changefreq>の順に記載している事が問題なのでしょうか。
>
> --------------
> 2017-04-24 00:00:34,824 [DataStoreCrawler] INFO  No crawling target urls.
> 2017-04-24 00:00:35,017 [WebFsCrawler] INFO  [Tattletale] modules [],
> plugins [], sites []
> 2017-04-24 00:00:35,218 [WebFsCrawler] INFO  Connected to localhost:0001
> 2017-04-24 00:00:35,516 [WebFsCrawler] INFO  Target URL:
> http://testwww2.ドメイン名/sitemap.xml
> 2017-04-24 00:00:35,767 [Crawler-20170424000000-1-2] INFO  Crawling URL:
> http://testwww2.ドメイン名/sitemap.xml
> 2017-04-24 00:00:36,042 [Crawler-20170424000000-1-2] INFO  Checking URL:
> http://testwww2.ドメイン名/robots.txt
> 2017-04-24 00:00:38,286 [Crawler-20170424000000-1-1] INFO  Crawling URL:
> http://testwww2.ドメイン名/calendar/
>>>> 2017-04-24 00:53:54,282 [IndexUpdater] INFO  Processing no docs
> (Doc:{access 3ms, cleanup 194ms}, Mem:{used 24MB, heap 46MB, max 505MB})
> 2017-04-24 00:53:54,282 [IndexUpdater] INFO  [EXEC TIME] index update
> time: 49847ms
> 2017-04-24 00:53:54,416 [main] INFO  Finished Crawler
> 2017-04-24 00:53:54,625 [main] INFO  [CRAWL INFO]
> DataCrawlEndTime=2017-04-24T00:00:34.842+0900,CrawlerEndTime=2017-04-24T00:53:54.417+0900,WebFsCrawlExecTime=3189904,CrawlerStatus=true,CrawlerStartTime=2017-04-24T00:00:34.612+0900,WebFsCrawlEndTime=2017-04-24T00:53:54.416+0900,WebFsIndexExecTime=49847,WebFsIndexSize=26,CrawlerExecTime=3199805,DataCrawlStartTime=2017-04-24T00:00:34.741+0900,WebFsCrawlStartTime=2017-04-24T00:00:34.733+0900
> 2017-04-24 00:53:54,879 [main] INFO  Disconnected to
> elasticsearch:localhost:0001
> 2017-04-24 00:54:02,961 [main] INFO  Destroyed LaContainer.
> --------------
>
> よろしくお願いいたします。
>
>
>
> ------------------- Replied Message -------------------
> Date: 2017/04/23 20:58:30
> From: Shinsuke Sugaya <shins****@gmail*****>
> To: fess-user <fess-****@lists*****>
> Cc:
> Subject: [fess-user 1009] Re:サイトマップ sitemap.xmlをクロール対象とす
> る設定
>
> https://www.sitemaps.org/ の形式を
> サポートしています。クロールしている内容は
> fess-crawler.logで確認することができます。
> 問題の再現方法をいただければ確認してみます。
>
> shinsuke
>
>
> 2017年4月17日 14:18 松宮 あすか <matsu****@idaj*****>:
>> はじめましてkoronaです。
>>
>> ウェブクロールの設定で最初はWebサイトの階層を指定して検索結果に出してい
>> たのですが、
>> sitemap.xmlの方がページの除外や検索順序に都合良いと思い、sitemap.xmlを指
>> 定したのですが
>> 検索結果に望むページが表示されません。
>>
>> 「ウェブを対象としたクロールに関する設定」の箇所で、以下のように入力すれば
>> sitemap.xmlで指定したリンクを検索対象になるという認識なのですが間違って
>> いるでしょうか。
>>
>> URL欄: http://ドメイン/sitemap.xml
>> クロール対象とするURL: http://ドメイン/.*
>>
>> よろしくお願いします。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.osdn.me/mailman/listinfo/fess-user
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.osdn.me/mailman/listinfo/fess-user
>
>
>
>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.osdn.me/mailman/listinfo/fess-user
>



Fess-user メーリングリストの案内
Back to archive index