yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 274 275 276 277 278 279 280 281 282 ··· 367 下一页

2015年8月11日 #

摘要: JAVA平台上的网络爬虫脚本语言 CrawlScript网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一 个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的... 阅读全文
posted @ 2015-08-11 02:43 xxxxxxxx1x2xxxxxxx 阅读(240) 评论(0) 推荐(0)

摘要: commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。comm... 阅读全文
posted @ 2015-08-11 02:43 xxxxxxxx1x2xxxxxxx 阅读(266) 评论(0) 推荐(0)

摘要: guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义c... 阅读全文
posted @ 2015-08-11 02:42 xxxxxxxx1x2xxxxxxx 阅读(199) 评论(0) 推荐(0)

摘要: Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spide... 阅读全文
posted @ 2015-08-11 02:41 xxxxxxxx1x2xxxxxxx 阅读(174) 评论(0) 推荐(0)

摘要: 丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从 网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站 架构说明 系统是基于 Swing+Spring-3.2.4+Mybatis-3.1.1+C3p0... 阅读全文
posted @ 2015-08-11 02:40 xxxxxxxx1x2xxxxxxx 阅读(264) 评论(0) 推荐(0)

摘要: WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。http://sourceforge.net/projects/weblech/files/WebLech/weblech-... 阅读全文
posted @ 2015-08-11 02:39 xxxxxxxx1x2xxxxxxx 阅读(358) 评论(0) 推荐(0)

摘要: spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。其中配置文件格式为:?123456789101112131415161718192021222324252627282930313233343536373839404142434445http:/... 阅读全文
posted @ 2015-08-11 02:38 xxxxxxxx1x2xxxxxxx 阅读(386) 评论(0) 推荐(0)

摘要: HttpComponents 也就是以前的httpclient项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包,并且它支持 HTTP 协议最新的版本和建议。不过现在的 HttpComponents 包含多个子项目,有:HttpComponents CoreH... 阅读全文
posted @ 2015-08-11 02:36 xxxxxxxx1x2xxxxxxx 阅读(178) 评论(0) 推荐(0)

摘要: Spiderman - 又一个Java网络蜘蛛/爬虫Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。主要特点* 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线... 阅读全文
posted @ 2015-08-11 02:32 xxxxxxxx1x2xxxxxxx 阅读(545) 评论(0) 推荐(0)

摘要: JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下:jspider [URL] [ConfigName]URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。JSpider 的行为是由配置文件具体配置的,比如采用什么... 阅读全文
posted @ 2015-08-11 02:31 xxxxxxxx1x2xxxxxxx 阅读(304) 评论(0) 推荐(0)

上一页 1 ··· 274 275 276 277 278 279 280 281 282 ··· 367 下一页