设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

webmagic 0.3.2 发布,Java爬虫框架

2013-9-24 11:56| 发布者: 红黑魂| 查看: 64| 评论: 0|来自: 开源中国

摘要: 此次更新主要添加了注解模式下的类型转换支持,并且允许自定义转换规则。1. 添加了注解模式下的类型转换支持,Model可以有更丰富的类型了,内置了基本类型以及日期的支持。01@TargetUrl("http://my.oschina.net/ ...

此次更新主要添加了注解模式下的类型转换支持,并且允许自定义转换规则。

1. 添加了注解模式下的类型转换支持,Model可以有更丰富的类型了,内置了基本类型以及日期的支持。

01@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
02public class OschinaBlog {
03 
04    @ExtractBy("//title/text()")
05    private String title;
06 
07    @ExtractBy(value = "div.BlogContent", type = ExtractBy.Type.Css)
08    private String content;
09 
10    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)
11    private List<String> tags;
12 
13    @Formatter("yyyy-MM-dd HH:mm")
14    @ExtractBy("//div[@class='BlogStat']/regex('\\d+-\\d+-\\d+\\s+\\d+:\\d+')")
15    private Date date;
16 
17    public static void main(String[] args) {
18        OOSpider.create(Site.me().addStartUrl("http://my.oschina.net/flashsword/blog")
19                new ConsolePageModelPipeline(), OschinaBlog.class).run();
20    }
21 
22}

2.支持自定义类型和转换,实现ObjectFormatter接口,并调用ObjectFormatters.put()注册这个转换器即可。

 3.修复了stop()方法导致线程池抛出异常的bug。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部