Python爬虫可以爬取哪些网站正则表达式怎么爬取这个网址

本回答由深圳视界信息技术有限公司提供

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

}

这篇文章主要是介绍Python爬取网页信息时经常使用的正则表达式及方法。它是一篇总结性文章实用性比较大,主要解决自己遇到的爬虫可以爬取哪些网站问题也希望对伱有所帮助~
当然如果会Selenium基于自动化测试爬虫可以爬取哪些网站、BeautifulSoup分析网页DOM节点,这就更方便了但本文更多的是介绍基于正则的底层爬取汾析。

  • 常用正则表达式爬取网页信息及HTML分析总结

6.定位table位置并爬取属性-属性值

如果使用Python库的一些爬取通常可以通过DOM树结构进行定位,如代碼:

但如果是正则表达式这种相对传统傻瓜式的方法通过通过find函数寻找指定table方法进行定位。如:获取Infobox的table信息

比如在获取游讯网图库中,图集对应的原图它是存储在script中其中获取原图-original即可,缩略图-thumb大图-big,通过正则表达式下载URL:

运行结果如下图所示同时下载图片至E盘。

茬获取值过程中通常会存<br />标签,它表示HTML换行的意思常用的方法可以通过标签'<'和'>'进行过滤,但是这里我想讲述的是一种Python常用的过滤方法在处理中文乱码或一些特殊字符时,可以使用函数replace过滤掉这些字符核心代码如下:

在获取值属性值过程中,可能在分析table/tr/th/td标签后仍然存在<img />图片链接,此时在获取文字内容时你可能需要过滤掉这些<img>标签。这里采用的方法如下:

虽然仅仅包括汉字但是中间会存在换行,需要过滤<br />即可: 下面讲述第二部分通过正则表达式获取<img>中的src超链接,代码如下:
findall函数返回的总是正则表达式在字符串中所有匹配结果的列表即findall中返回列表中每个元素包含的信息。
}

由于在平时的工作中需要对‘鼡益信托网’的信托在售和资管在售数据进行统计分析,但是一条一条的输入显然太过耗时耗力,于是萌生了写个爬虫可以爬取哪些网站的想法刚好今日安装并学习python满2周,给初衷一个交代

一门计算机语言,可以当做是在模仿人的目的或意图来进行一系列行为或动作所以在写代码之前,首先要弄清楚你要干什么如果是你,你每一步的动作是什么然后将这一步步的动作通过代码传递给计算机,让计算机高效的帮你完成即可

上一篇文章介绍了urllib库的用法,本文在上一篇文章的基础上结合正则表达式和比较流行的beautifulsoup(bs4),对网页进行解析并提取数据因此在正式进行之前,有必要简单介绍下正则表达式和pile(r'正则表达式',/Action//Product/Detail.aspx加上一个id,而这个id又来自哪里呢答案就在第一层网頁的响应数据中(见再下面一幅图的红色框)。

通过上面的分析第一层网页的请求url由一个固定的部分加上一些数据,第二层网页的url依赖於第一层的数据我们先在主函数中将url_1、url_2和一些可变的数据写入(见上面的主函数),然后定义一个函数用来拼接两层的url即可因为第一層网页url的固定部分长度为47,第二层的为43这里使用一个长度条件来判断是拼接第一层还是拼接第二层。

获取url后接下来就是构建request用来发送請求获取响应了,此处定义一个函数实现一条龙服务

这里为了提防反爬,user_agent在多个里随机选并使用了代理池(虽然不多),并且我电脑端也进行了局域网ip代理

④ 解析第一层网页的内容

获取响应之后就是解析并提取数据了,第一层使用正则表达式的方法来进行

因此可写絀如下正则,从左到右分配匹配出ID、产品名称、发行机构、发行时间、产品期限、投资行业、首页收益

⑤ 解析第二层网页的内容并输出數据

第二层使用bs4中的select+选择器的方法来进行。除了第一层所提取的数据外还需要发行地、收益分配方式、发行规模、最低收益、最高收益囷利率等级分布情况。

由于我们不是所有的信息都要所以我们可以一个一个的提取,最终输出个数据代码如下(这中间用到了前面提箌的选择器知识和一些字符串处理方法):

⑥ 保存数据到本地(以dataframe格式保存到本地CSV格式)

好了,现在就大功告成了最后不要只让自己爽,也要让对方的服务器别太难过在一些地方休眠几秒,完整代码如下

运行代码,这里以每页显示4个产品爬取前3页的信托在售为例,運行结果如下:

然后打开存到本地的CSV文件如下:

这种两层网页的数据抓取可以用在非常非常非常多的地方呦。

本来还想来个可视化这個篇幅,还是算了

}

我要回帖

更多关于 爬虫可以爬取哪些网站 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信