Cefrsharp实现自动模拟采集网页数据爱奇艺优酷全站模拟采集源码
还记得第一份正式的开发工作的第一份任务(实际是为了测试编程基本能力),当时是做爬虫采集网络数据;
然而一般采集的数据就是那些平台赖以生存的东西,可想而知怎么会就这么放任着让人随意抓取,而且爬虫的访问效率确实太高,对服务器也是有压力的;
于是后面平台与爬虫的斗智斗勇就开始了:
爬虫:限制了访问频率 那我慢一点,搞定
平台:这个访问来源有问题 铁定是爬虫呀,给他加验证码;
爬虫:我擦 怎么有验证码了? 好吧 那想办法绕过吧
平台:我靠!验证码都不管用呀,把他IP给我封了
爬虫:尼玛? 我的车牌被限号了,那我换辆车
。。。。
各式爬虫和反爬虫策略层出不穷。。。。
好吧 跑题了
下面也是闲暇时间自己做的一个采集 爱奇艺 优酷的视频播放地址的一款工具 ,原本想做个分享视频的网站的 但是担心会被请喝茶 ,于是就搁置了
也是基于WPF . NET 4.0 使用的谷歌的CefSharp开发的 浏览器模拟采集程序,实现了模拟简单的用户行为(将滑动条拉到最下面)自动爬取网页链接并解析文字内容以及分享里的视频播放地址,当然不是那种盗版网站那种视频解析接口 只是抓取分析了所有页面数据而已 有其他想法的同学可能会让你失望了 爬虫新手可以看看