Télécharger la liste

Description du projet

HarvestMan is a multithreaded off-line browser.It has many features for customizing offline browsing through URL filters, word filters, domain filters, URL priorities, depth-fetching, fetch levels, file limits, time limits, robot exclusion protocols, and many more. It is useful to download an entire Web site or certain files from a Web site to the hard disk for offline browsing later. It supports HTTP/HTTPS and FTP protocols and can work across proxies.

Système requise

System requirement is not defined
Information regarding Project Releases and Project Resources. Note that the information here is a quote from Freecode.com page, and the downloads themselves may not be hosted on OSDN.

2005-09-09 11:32
1.4.6

Les scripts d'installation ont été corrigés. Ils avaient des problèmes de fonctionnement avec Python 2.4.
Tags: Minor bugfixes
The install scripts were fixed. They had problems
working with Python 2.4.

2005-08-20 16:22
1.4.5

Cette version corrige un bogue dans l'expression régulière pour la localisation d'URL, d'un bug lié à la reprise d'un projet en relisant son dossier de projet, et les erreurs avec un peu d'options en ligne de commande qui ne fonctionnaient pas correctement. Elle ajoute un drapeau sous-domaine à la ligne de commande.
Tags: Minor bugfixes
This release fixes a bug in the regular expression for localizing
URLs, a bug related to resuming a project by reading back its project
file, and errors with a few commandline options that were not working
correctly. It adds a subdomain flag to the commandline.

2005-08-02 10:00
1.4.5 beta 1

Nouveau, facile à utiliser les options de ligne de commande, un nouveau drapeau nocrawl ligne de commande pour que les URL de téléchargement, similaire à wget, support for. Chm,. Cfm,. CFML,. Php4 et. Aspx extensions page Web, et un lien pour reproduire un bug l'impression d'arbres option URL. D'autres corrections mineures ont été apportées et readme.txt a été mis à jour.
Tags: Development, Minor feature enhancements
New, user friendly command line options, a new nocrawl command line flag for only downloading URLs, similar to wget, support for .chm, .cfm, .cfml, .php4, and .aspx Web page extensions, and a duplicate link bugfix for the URL tree printing option. Other minor bugfixes were made and readme.txt was updated.

2005-07-21 23:59
1.4.5 alpha 2

Ce communiqué remplace les listes à des endroits critiques avec la nouvelle structure collections.deque données. Cela améliore les performances lorsqu'il est exécuté avec Python 2.4. 2. Un bug avec la redirection HTTP qui nécessite la manipulation des cookies a été corrigée. De nombreux bugs qui ont créé URL invalide (HTTP 404) des erreurs ont été corrigées. Le htmlparser modules et cookiemgr ont été supprimées, car elles ne sont plus utilisés. Les paramètres régionaux par défaut a été changé en «C». Bugs in the logger.py, connector.py et des modules config.py ont été corrigés.
Tags: Development, Major bugfixes
This release replaces lists at critical places with the new collections.deque data structure. This improves performance when run with Python 2.4. 2. A bug with HTTP redirect handling that requires cookies has been fixed. Many bugs that created invalid URL (HTTP 404) errors have been fixed. The modules htmlparser and cookiemgr have been removed, since they are no longer used. The default locale has been changed to 'C'. Bugs in the logger.py, connector.py, and config.py modules have been fixed.

2005-05-27 22:43
1.4.5 a1

Le format de fichier de configuration a été modifiée à partir du texte au format XML. Il existe un nouveau parseur HTML basé sur le module SGMLParser. La dépendance sur HTML Tidy est supprimée. Une caractéristique nouvelle archive pour l'archivage des fichiers de projet pour tar.bz2/tar.gz archives. Changements dans la mise en cache projet: les données des pages Web sont compressées avant d'écrire au cache, il ya une option pour l'écriture du cache en format DBM, et en-têtes d'URL sont également écrites dans le cache. Un filtre de pourriels pour filtrer les bannières publicitaires et les URL semblable. Ce communiqué fonctionne avec Python 2.4.
Tags: Development, Major feature enhancements
The config file format has been changed from text to XML. There is a new HTML parser based on the SGMLParser module. The dependency on HTML tidy is removed. A new archive feature for archiving project files to tar.bz2/tar.gz archives. Changes in project caching: data of Web pages is compressed before writing to cache, there is an option for writing the cache in DBM format, and headers of URLs are also written to the cache. A junk filter for filtering out banner ads and similar URLs. This release works with Python 2.4.

Project Resources