Télécharger la liste

Description du projet

Ebot is a scalable and distribuited Web crawler. The URLs are saved to a NOSQL database (which supports map/reduce queries) that you can query via RESTful HTTP requests or using your preferred programming languages. The URLs that need to be analyzed are sent to AMQP queues. In this way, it is possible to run several crawlers in parallel and stop and start them without losing URLs.

Système requise

System requirement is not defined
Information regarding Project Releases and Project Resources. Note that the information here is a quote from Freecode.com page, and the downloads themselves may not be hosted on OSDN.

2010-12-30 13:03
0.9

Une meilleure architecture de plugin. Nouveaux plugins pour sauver l'image des URL et des titres de pages HTML.
A better plugin architecture. New plugins for saving image URLs and titles of HTML pages.

2010-12-18 18:59
0.8

Ce communiqué a été mis à jour pour les dernières versions de rabbitmq (2.2.0) et couchbeam. Certains bugs ont été corrigés.
This release was updated to the latest releases of rabbitmq (2.2.0) and couchbeam. Some bugs were fixed.

2010-09-18 07:05
0.7

Compatibilité avec Erlang R14A. Testé avec Debian Testing.
Compatibility with Erlang R14A. Tested with Debian Testing.

2010-08-27 07:24
0.6

Compatibilité avec le dernier (le développement) les rejets des bibliothèques et des logiciels requis (rabbitmq, couchdb, webmachine, Riak, etc)
Compatibility with the latest (development) releases of required libraries and software (rabbitmq, couchdb, webmachine, riak, etc.)

2010-06-20 23:18
0.5

Pour une meilleure évolutivité, les files d'attente AMQP nouveaux sont utilisés (ebot.new .* ebot.fetched .* .* ebot.completed ebot.refused .*) et le noyau historique de la chenille (ebot_web) est maintenant divisé en deux modules différents et parallèles / processus (ebot_html et ebot_web).
For better scalability, new amqp queues are used (ebot.new.* ebot.fetched.* ebot.completed.* ebot.refused.*) and the old core of the crawler (ebot_web) is now split in two different and parallel modules/processes (ebot_html and ebot_web).

Project Resources