这篇文章是给正准备学习或者想偠Python爬虫小白爬虫们看的 如果不想看文章的可以私信我回复【爬虫】有爬虫入门的视频教程根据使用场景,网络爬虫可分为通用爬虫(传統爬虫)和聚焦爬虫两种1.通用爬虫捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。可是大大都情况下网页里面90%的内容对用户来说是无用的。 2.聚焦爬虫需要根据一定的网页阐发算法过滤与主题无關的链接保存有用的链接并将其放入期待抓取的URL队列。然后它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述過程直到达到系统的某一条件时停止。 而我们现在要学的就是聚焦爬虫: http请求:浏览器的一个url向http办事器发送请求分为:get和post两种。 浏览器发送一个request请求去获取URL的html文件办事器把response文件对象发送回给浏览器。 浏览器解析response中的HTML其中的img文件,css文件js文件,浏览器会自动再次发送request請求获取图片css文件或js文件。 当所有的文件都下载成功后网页会根据HTML语法结构,完整地显示出来 HTTP请求主要分为Get和Post两种体例:
向指定资源提交数据进行措置请求(例如提交表单或者上传文件)数据被包含在请求体中。POST请求可能会致使新的资源的建立或已有资源的修改一般主要是表单提交,请求参数在请求体傍边消息长度没有限制并且以隐式的体例进行发送,通经常使用来向HTTP办事器提交量比较大的数据(好比请求中包含许多参数或者文件上传操作等)请求的参数包含在"Content-Type"消息头里,指明该消息體的媒体类型和编码 注意:避免使用Get体例提交表单,因为有可能会致使平安问题 好比说在登岸表单中用Get体例,用户输入的用户名和密碼将在地址栏中流露无遗 Python爬虫工作的流程图: 看懂了吗?不懂可以私信我回复【爬虫】有爬虫入门视频教程!希望对你学习有帮忙! <div class="pgc-img"> |
聚合全網技术文章根据你的阅读喜好进行个性推荐