python爬取动态数据生成的网站或者无分页的网站怎么爬虫

上节课我们了解了Ajax分析和抓取方式这其实也是JavaScriptpython爬取动态数据渲染页面的一种情形,

但是javaScriptpython爬取动态数据渲染布置Ajax一种 例如中国青年网(/gn/)分页部分由js生成

}


第一张图我是把txt文件中第一个网址拿出来然后保存图片成功,但是当我读取txt文件准备开始批量爬取的时候(图二),状态码为404单独爬取一个网站的时候没问题,一放在多个网站中就报错怎么办?

  • 采纳 已采纳 专家已采纳

    你读取的时候会在每个链接末尾添加换行符\n,所以请求url的时候就会因为末尾有换行苻导致失败

    把换行符去掉就没问题了

  • 采纳 已采纳 专家已采纳

    调试看下地址拼接对不对抓包看下和浏览器有什么不同,是不是有反盗链(referer)和反爬机制(换ip、ua)

}

该资源内容由用户上传如若侵權请选择举报

一个资源只可评论一次,评论内容不能少于5个字

您会向同学/朋友/同事推荐我们的CSDN下载吗

谢谢参与!您的真实评价是我们改进的动力~

}

我要回帖

更多关于 python爬取动态数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信