动态爬虫[闲谈1]

开题介绍~

打算开一个“闲谈”专题,定期(不定期?)收录一些自己觉得有趣的题,记录解题过程~

本期题目

一共有十个时刻变化的页面,他们的更新频率不尽相同,需要给出这十个页面的频率排序

来源:千里码 → 传送门

正经

分析题目,大概就是需要做两件事情:比对页面是否相同、调整爬取频率

需要比对同一页面差别的话,那可以考虑计算整个页面的md5值,这样就可以直接看出差别。谈优化的话,我觉得可以去除所有对人眼识别不相关的元素之后进行md5,比如页面空格。

爬取频率调整,感觉可以考虑参考TCP拥塞控制那样,初期成倍增长,当页面变化时停止成倍增长,转而变成1.1倍的增和减。

十个页面的话,开十个进程嘛,妥妥的:p 然后就放着跑等结果吧,2333

闲谈

感觉爬虫的频率适配是个不错的想法,每个页面使用不同的频率爬取,节约资源。不过对于垂直爬虫这一类别,个人感觉还是不适用,还是根据网站量级制定频率比较稳妥= =

诶,这么想的话,垂直爬虫只要能够制定一个网站的判重规则不就行了么,嘿嘿= =哇,这能怎么做。。。。。。

本期代码链接 → 传送门


广告时间

Java学习网站: how2j

VPS: VPS

梦想世界上每个人都能给我一元钱,2333