设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

webmagic 0.2.0 发布,Java垂直爬虫框架

2013-8-12 14:41| 发布者: 红黑魂| 查看: 2296| 评论: 0|来自: 开源中国

摘要: 此次更新的主题是"方便"(之前的主题是"灵活")。增加了webmagic-extension模块。增加了注解方式支持,可以通过POJO+注解的方式编写一个爬虫,更符合Java开发习惯。以下是抓取oschina博客的完整代码: ...

此次更新的主题是"方便"(之前的主题是"灵活")。

增加了webmagic-extension模块。

增加了注解方式支持,可以通过POJO+注解的方式编写一个爬虫,更符合Java开发习惯。以下是抓取oschina博客的完整代码:

 

01@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
02public class OschinaBlog {
03 
04    @ExtractBy("//title")
05    private String title;
06 
07    @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
08    private String content;
09 
10    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
11    private List<String> tags;
12 
13    public static void main(String[] args) {
14        OOSpider.create(Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"),
15        new ConsolePageModelPipeline(), OschinaBlog.class)
16        .scheduler(new RedisScheduler("127.0.0.1")).thread(5).run();
17    }
18 
19}

 

增加一个Spider.test(url)方法,用于开发爬虫时进行调试。

增加基于redis的分布式支持。

增加XPath2.0语法支持(webmagic-saxon模块)。

增加基于Selenium的浏览器渲染支持,用于抓取动态加载内容(webmagic-selenium模块)。

修复了不支持https的bug。

补充了文档:webmagic-0.2.0用户手册

webmagic

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。


酷毙
2

雷人

鲜花

鸡蛋

漂亮

刚表态过的朋友 (2 人)

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部