设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

javaHTML解析类库:jsoup 1.2.3发布

2010-8-5 16:35| 发布者: walkerxk| 查看: 7191| 评论: 0|来自: xiexiejiao.cn

摘要:   jsoup 1.2.3下载地址发布了,关注这款优秀的Java HTML解析类库的朋友可以去jsoup官方获取最新的jsoup 1.2.3下载地址下载试用。于之前发布的jsoup 1.2.2相比,虽然jsoup 1.2.3只是小版本号的改进,但本次的改进着 ...

  jsoup 1.2.3下载地址发布了,关注这款优秀的Java HTML解析类库的朋友可以去jsoup官方获取最新的jsoup 1.2.3下载地址下载试用。于之前发布的jsoup 1.2.2相比,虽然jsoup 1.2.3只是小版本号的改进,但本次的改进着实不小,其最大的改进是增加了对HTML5的支持,对于目前业界开展的如火如荼的HTML5运动,似乎HTML5大有呼之欲出的感觉。随着HTML5应用的逐步增加,jsoup 1.2.3已经开始加入HTML5的支持行列了。

  其实在jsoup 1.2.3之前的版本就已经拥有了对HTML5隐式的支持,而本次发布的jsoup 1.2.3则不同,直接增加了明确的HTML5标记支持,该功能在HTML页面中出现非HTML5规范标记或者标记不完整的时候可以通过用户构造的语法树 对特定的HTML页面解析。而HTML5 Datasets元素可以直接通过jsoup 1.2.3使用的Element.dataset()获取内容。

  另外一点值得一提的是jsoup 1.2.3对国际化的支持更加优秀,jsoup 1.2.3可以自动解析访问的HTML页面并获取其字符集,而jsoup 1.2.3中用户可以Document.outputSettings().charset(String)定义输出页面的字符集,jsoup 1.2.3可以自动保证转换字符集后的输出于原始内容保持一致。

  当然jsoup 1.2.3也修复了之前版本已知的大量bug因此建议使用jsoup的朋友去官方下载最新的jsoup 1.2.3升级使用。

  jsoup是一款开源的HTML解析类库,jsoup采用纯Java编写,jsoup提供了一组方便的API,可以通过类jQuery的方法来用于抽取、操作HTML数据。通常我们操作HTML元素的时候都是以DOM的方式操作。可以直接获得DOM中的某个Element,然后分析该 Element包含有哪些属性。如果通过Java来 访问,那无论是编码风格还是操作方式都有很大的变化。Java开发者面临的问题是必须通过特定的字符匹配的方式获得对应的值,或者属性。这给开发人员带来 了很大的困难,或者说不习惯吧。jsoup的优势就在于可以通过Java语言以用户最习惯的DOM的方式来访问HTML元素。这大大提高了开发效率,也降 低了用户收工解析HTML带来的麻烦和容易出错的问题。jsoup被设计用来处理所有类型的HTML文件,包括无效的标签解析和验证,为了避免解析过程的 混乱,jsoup采用了一种有效的语法树的方式来处理HTML内容。

jsoup 1.2.3下载地址:
jsoup 1.2.3下载

酷毙

雷人

鲜花

鸡蛋

漂亮

相关阅读

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部