设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 开源热点 查看内容

Hello,2016!LUPA开源社区恭祝您新年快乐,阖家幸福!

2016-1-1 21:19| 发布者: joejoe0332| 查看: 12174| 评论: 0|原作者: LUPA开源社区|来自: LUPA开源社区

摘要: Hello,2016!新年终于到来了。至此元旦佳节,LUPA开源社区恭祝所有的开源支持者、爱好者和关注者,以及所有关注开源发展的人们新年快乐,阖家幸福!在我们每周开源新闻综合报道的这个特别篇中,我们来回顾一下 2015 ...


  几个星期前我在考虑写点什么好,我想写一篇文章,有关自由软件基金会三十周年庆,以及它如何给计算机行业的局面带来深远影响。为了来点真材实料,我要采访John Sullivan,自由软件基金会的执行总监。本来我打算以我惯有的风格行文:饶有趣味的叙述性文字为主,穿插以采访片段作为补充。



  好吧,当我从John处拿到这份详尽而极富洞见的采访稿时,马上打消了这种念头。我决定把采访内容完整地呈现出来作为文章主体,然后再辅以 一些评论。这样的话文章会很长,但我觉得唯有这样,才能将这个组织的伟大和迷人之处淋漓尽致地展现出来。我建议你去拿杯美味的饮料,坐下来好好阅读。

  自由软件基金会成立于1985年。当时的计算机行业是这样一幅景象——Amiga 1000计算机刚刚发布,C++正在成为主流语言,Aldus PageMaker也刚刚发布(译者注:Aldus后与Adobe合并),互联网则刚刚开始发展。哦对了,那个年代,威猛乐队(Wham!)的名曲《无心快语(Careless Whisper)》正红极一时。

  三十年世事变迁。回到1985年,那时自由软件基金会主要专注于开发一些只有计算机怪咖才会用的软件,而时至今日,我们则需要通盘考虑软件、服务、社交网络以及其他很多东西。

  首先我想了解一下,John认为如今的软件自由面临的最大风险是什么。“当今计算机用户的自由所面临的最大威胁,我想大家都有广泛的共识,只是可能叫法不一而已。”更多内容请关注本次专辑的相关内容……

  在最近的交流中,Oracle公司Java Platform Group的首席架构师Mark Reinhold提出Java 9的正式版本发布将延迟6个月,以此来给Project Jigsaw的完成争取更多的时间。经过审议后,这次延迟被采纳,将Java 9的正式版本发布定于2017年3月。


  Mark Reinhold之前谈到过功能和时间安排之间的冲突,这表明他更加倾向于一个相对固定的时间点安排,即使这样做是以延迟某些功能到之后的版本来发布为代价的。然而,当考虑中的功能是新版本的核心功能的时候,他也支持这种情况可以另外处理。在Java 9这个例子中,核心功能是Project Jigsaw,因此,既然Project Jigsaw在初定的时间安排之下无法完成,而且考虑到最近几个月Project Jigsaw合理的进展,社区采纳了这次延迟发布。

  这次做的这个决定与Java 8采取的类似的决定相一致。当Project Lambda,这个当前Java 8版本的核心功能很显然不能于初定的时间安排下完成的时候,延迟也被提出并被接受。相比较起来,Project Jigsaw从Java 8推迟到了Java9。类似地,我们可以推测如果要给Project Valhalla的完成预留更多时间,那么Java 10的发布也会延迟。更多的,大家可以关注本次专辑……

  整个Web世界正在发生剧烈的转变,包含语义注解的Web页面让数据的提取和重用变得越来越容易,而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持,为此,Yahoo创建了Anthelion项目,一个旨在爬取语义数据的Nutch插件,最近,该项目已在GitHub上开源。


  Anthelion是为了更好地爬取嵌在HTML页面中的结构化数据而设计的,它采用了一种全新的方法来爬取含有丰富数据的页面上的内容:将线上学习和Bandit探索方法有效地结合起来,根据页面上下文以及从之前页面提取到的元数据反馈预测Web页面的数据丰富程度。 这种方法明显优于主题爬取(Focused Crawling)目前所采用的其他技术,极大地提升了爬取效率。

  整个数据爬取的流程如下:正如上面的流程图所展示的,为了执行主题爬取,该插件实现了三个扩展。AnthelionScoringFilter(实现了ScoringFilter接口):在线分类器,它对每一个外链打分,同时将新发现的外链分为相关的和不相关的两类。WdcParser(实现了Parser接口):解析Web页面内容并提取语义数据。该扩展基于any23类库实现,能够从HTML中提取Microdata、Microformats和RDFa注解。TripleExtractor(实现了IndexingFilter接口):将新域存储到索引中供之后的查询使用。本次专辑我们一起关注……


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部