设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

HTML解析库:jsoup 1.4.1发布

2010-11-25 13:49| 发布者: walkerxk| 查看: 3053| 评论: 0|来自: xiexiejiao.cn

摘要:   jsoup 1.4.1下载地址发布了,关注jsoup这款优秀的html解析器的朋友可以去jsoup官方获取最新的jsoup 1.4.1下载地址下载试用。记得上次发布的jsoup是1.3.3结果一下子就直接跳到了jsoup 1.4.1,期间可见变化之大了 ...

  jsoup 1.4.1下载地址发布了,关注jsoup这款优秀的html解析器的朋友可以去jsoup官方获取最新的jsoup 1.4.1下载地址下载试用。记得上次发布的jsoup是1.3.3结果一下子就直接跳到了jsoup 1.4.1,期间可见变化之大了。不过从jsoup 1.3开始就已经开始增加了对html 5特性的支持。相信在jsoup 1.4.1中会更上一层楼的吧。

  jsoup是一款开源的HTML解析类库,jsoup采用纯Java编 写,jsoup提供了一组方便的API,可以通过类jQuery的方法来用于抽取、操作HTML数据。通常我们操作HTML元素的时候都是以DOM的方式 操作。可以直接获得DOM中的某个Element,然后分析该 Element包含有哪些属性。如果通过Java来访问,那无论是编码风格还是操作方式都有很大的变化。Java开发者面临的问题是必须通过特定的字符匹 配的方式获得对应的值,或者属性。这给开发人员带来了很大的困难,或者说不习惯吧。jsoup的优势就在于可以通过 Java语言以用户最习惯的DOM的方式来访问HTML元素。这大大提高了开发效率,也降低了用户收工解析HTML带来的麻烦和容易出错的问题。 jsoup被设计用来处理所有类型的HTML文件,包括无效的标签解析和验证,为了避免解析过程的混乱,jsoup采用了一种有效的语法树的方式来处理 HTML内容。

jsoup 1.4.1主要改进包括:

  1. jsoup 1.4.1增加从InputStream读取并解析html的能力(方便的流读取解析api)
  2. jsoup 1.4.1增加了not()选择器,用于在解析过程中处理“非”的操作
  3. jsoup 1.4.1增加了Elements.not(String query)方法,用于处理一些无法描述的结果(仍然是“非”的操作)
  4. jsoup 1.4.1实现了DataNode.setWholeData(String)方法,用于更新script和style部分的内容
  5. jsoup 1.4.1修正了解析H1~H6嵌套的问题
  6. jsoup 1.4.1修正了span解析的问题
  7. jsoup 1.4.1修正了通过http header中content-type抽取字符的bug
  8. jsoup 1.4.1修正了对https的支持问题
  9. jsoup 1.4.1重新实现了Node.outerHtml(),支持操作没有父节点的节点
  10. jsoup 1.4.1修正了html内容中包含数字的的时候解析出错的问题
  11. jsoup 1.4.1修正了解析绝对路径的问题

jsoup 1.4.1下载地址:

jsoup 1.4.1下载


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部