LUPA开源社区 › 首页 ›业界资讯› 技术文摘 › 查看内容

我为开源做贡献，网页正文提取——Html2Article

2014-1-7 14:38| 发布者: 红黑魂| 查看: 34145| 评论: 5|原作者: StanZhai|来自: 博客园

摘要: 为什么要做正文提取一般做舆情分析，都会涉及到网页正文内容提取。对于分析而言，有价值的信息是正文部分，大多数情况下，为了便于分析，需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏，直接影响了分 ...

再来一个Excel的分析结果：

正文部分集中在279-282行之间，从图上看，也正是这么几行的文本密度特别高。

最后分析一篇搜狐的新闻

李克强天津调研考察的几个瞬间，http://news.sohu.com/20131229/n392604462.shtml

还是先看下过后标签后的正文：

再看下Excel的分析结果：

而搜狐的这篇文章正文部分主要集中在200-255行之间。其余的文本全部是杂乱的标签文本。

抱歉，漏了很重要的一点说明：为什么分析的时候要把html标签过滤掉呢？过滤html标签是为了降低干扰，因为我们关注的是正文内容，如果带着这样的标签var chart = new去分析，可想而知，对我们的正文分析会有多大的干扰了，也正因如此需要将html标签掉，只对文本做分析，降低干扰。

123 / 3 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

刚表态过的朋友 (1 人)

wised

收藏分享邀请

上一篇：Massimo Banzi: Arduino如何开启开源想象力下一篇：每个Linux用户都应该了解的命令行省时技巧

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

最新评论

一个起步晚，就说明根本没有面对现实的勇气。
google才几岁？

[url=http:///].ankor[/url] <a href="http:///">.ankor</a>

谈红色变，红是造假的代名词吧，红你妹啊。

: 看着牙疼！

System76还有自己的OS。现在可以递送到很多地区了。

英语太差了，回去补课吧。

腾讯，多年在中国占据软件第一的位置，可惜，除了QQ、微信外，什么都没有做出来。

中国人就是不干正事，搞什么少数民族语言，把libreoffice加上系列码，都是找骂的事，就是不干正事。

腾讯也搞芯片，太搞笑了吧？腾讯存在多少年了？过去这么多年腾讯干什么去了？
小米都造出自己的松果仁了，腾讯干什么了？

最后三个图的区别是这样的吗？不对的地方请指出
class B{void m(){t();}void m1(){s();}
class B{void m(){}void m1(){t();}void m2(){s();}
class B{void m(){t();s();}

hello

测试是不是真的

好个屌，就是一骗子

喜大普奔！这个.net core的广告我非常赞同！

PgSQL迟早会是第一。

Windows只是个OS，LINUX是整个完整的开发、应用、办公环境。有什么好比的呢？
把买Windows的钱捐给Linux基金更好吧。

你好，请问analysis中的属性标签是如何定义的？比如：“role”。另外，这里的timepark如何加入的？

其实主要就是没有好的office和email-client。

帐号		自动登录	找回密码
密码			注册