设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

Pholcus爬虫v0.8.0,支持HTML风格动态规则

2016-1-20 21:03| 发布者: joejoe0332| 查看: 1271| 评论: 0|原作者: oschina|来自: oschina

摘要: 近日,Pholcus 升级 v0.8.0 版本了,最大的亮点就是:终于突破规则需要静态编译的局制,增加支持HTML风格的动态规则。以后交流分享规则变得更加方便,随之而来将会是愈加完善的生态圈。 以下是具体更新内容: 一、初 ...

近日,Pholcus 升级 v0.8.0 版本了,最大的亮点就是:终于突破规则需要静态编译的局制,增加支持HTML风格的动态规则。以后交流分享规则变得更加方便,随之而来将会是愈加完善的生态圈。

以下是具体更新内容:

一、初步支持HTML风格的动态规则

二、添加配置文件,便于修改数据库配置等信息

三、重新规划软件依赖文件目录

├─pholcus 软件

├─pholcus 依赖文件目录
│  ├─pholcus.ini 配置文件
│  │
│  ├─proxy.lib 代理IP列表库
│  │
│  ├─spider.lib 动态规则目录
│  │  └─xxx.pholcus.html 动态规则文件
│  │
│  ├─phantomjs 程序文件
│  │
│  ├─logs 日志目录
│  │
│  ├─history 历史记录目录
│  │
└─└─cache 临时缓存目录


四、增强代理IP功能


五、增强状态控制功能


六、为Spider结构体添加定时器


七、增强Request结构体序列化与反序列化的可靠性


八、Web界面的外部资源文件全部打包进软件


九、更新下载器Surfer至0.9版本,性能更佳

酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部