上节课我们了解了Ajax分析和抓取方式这其实也是JavaScriptpython爬取动态数据渲染页面的一种情形,
但是javaScriptpython爬取动态数据渲染布置Ajax一种 例如中国青年网(/gn/)分页部分由js生成
第一张图我是把txt文件中第一个网址拿出来然后保存图片成功,但是当我读取txt文件准备开始批量爬取的时候(图二),状态码为404单独爬取一个网站的时候没问题,一放在多个网站中就报错怎么办?
你读取的时候会在每个链接末尾添加换行符\n,所以请求url的时候就会因为末尾有换行苻导致失败
把换行符去掉就没问题了
调试看下地址拼接对不对抓包看下和浏览器有什么不同,是不是有反盗链(referer)和反爬机制(换ip、ua)
该资源内容由用户上传如若侵權请选择举报
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗
谢谢参与!您的真实评价是我们改进的动力~
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。