开题介绍~
打算开一个“闲谈”专题,定期(不定期?)收录一些自己觉得有趣的题,记录解题过程~
本期题目
一共有十个时刻变化的页面,他们的更新频率不尽相同,需要给出这十个页面的频率排序
来源:千里码 → 传送门
正经
分析题目,大概就是需要做两件事情:比对页面是否相同、调整爬取频率
需要比对同一页面差别的话,那可以考虑计算整个页面的md5值,这样就可以直接看出差别。谈优化的话,我觉得可以去除所有对人眼识别不相关的元素之后进行md5,比如页面空格。
爬取频率调整,感觉可以考虑参考TCP拥塞控制那样,初期成倍增长,当页面变化时停止成倍增长,转而变成1.1倍的增和减。
十个页面的话,开十个进程嘛,妥妥的:p 然后就放着跑等结果吧,2333
闲谈
感觉爬虫的频率适配是个不错的想法,每个页面使用不同的频率爬取,节约资源。不过对于垂直爬虫这一类别,个人感觉还是不适用,还是根据网站量级制定频率比较稳妥= =
诶,这么想的话,垂直爬虫只要能够制定一个网站的判重规则不就行了么,嘿嘿= =哇,这能怎么做。。。。。。
本期代码链接 → 传送门
广告时间