此次更新的主题是"方便"(之前的主题是"灵活")。 增加了webmagic-extension模块。 增加了注解方式支持,可以通过POJO+注解的方式编写一个爬虫,更符合Java开发习惯。以下是抓取oschina博客的完整代码:   01 | @TargetUrl("http://my.oschina.net/flashsword/blog/\\d+") |  
 02 | public class OschinaBlog { |  
 07 |     @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css) |  
 08 |     private String content; |  
 10 |     @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true) |  
 11 |     private List<String> tags; |  
 13 |     public static void main(String[] args) { |  
 14 |         OOSpider.create(Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"), |  
 15 |         new ConsolePageModelPipeline(), OschinaBlog.class) |  
 16 |         .scheduler(new RedisScheduler("127.0.0.1")).thread(5).run(); |  
   增加一个Spider.test(url)方法,用于开发爬虫时进行调试。 增加基于redis的分布式支持。 增加XPath2.0语法支持(webmagic-saxon模块)。 增加基于Selenium的浏览器渲染支持,用于抓取动态加载内容(webmagic-selenium模块)。 修复了不支持https的bug。 补充了文档:webmagic-0.2.0用户手册。 webmagic webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。  |