《Python》从入门到入土—啥是Python

Python简介及应用领域

Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。

Python是一种解释型脚本语言,可以应用于以下领域:

  • Web 和 Internet开发
  • 科学计算和统计
  • 人工智能
  • 桌面界面开发
  • 软件开发
  • 后端开发
  • 网络爬虫

网络爬虫,简称爬虫,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。

爬虫做的事情其实和蜘蛛是类似的,所以网络爬虫也被称为网络蜘蛛(spider)。蜘蛛在蜘蛛网上爬来爬去,把触手伸到蜘蛛网获取食物,而网络爬虫则是在互联网上爬来爬去,爬取我们需要的数据。

搜索引擎本质上就是爬虫。在上面的过程中,搜索引擎将互联网上的网页都爬取并存储起来。当我们搜索的时候,搜索引擎就从自己存储的网页里找到我们需要的结果并展示出来。

随着机器学习、人工智能技术的发展,数据越来越重要,需要的数据量也越来越大。而我们可以通过爬虫获取海量的数据,所以爬虫是这一切的源头。

你可以自己动手写个爬虫,比如:分析福州各地区的升学率情况、自动帮你的爱豆微博评论点赞、自动抢演唱会门票等。

一般情况下,我们都是通过浏览器浏览网页,获得信息。

浏览器有很多种,主流的浏览器有 Chrome 浏览器、QQ 浏览器、IE 浏览器、搜狗浏览器等。下图是 2020 年4月国内各大浏览器市场份额,!

爬虫的工作原理

爬虫可以像浏览器一样向服务器发起请求,拿到服务器返回的数据后,可以根据我们设定的规则去提取需要的数据,数据处理完成后再将数据存储起来。

我们将上面的过程简化一下,可以将爬虫的工作总结为 3 步:

第一步:获取数据,爬虫会根据我们提供的网址,向服务器发起请求获取数据;

第二步:处理数据,对获取的数据进行处理,得到我们需要的部分;

第三步:存储数据,将处理后的数据保存起来,便于后续的使用和分析等。

以上便是爬虫的工作原理,后续的课程都是以上内容的深入,但本质上都是爬虫的工作原理。

© 版权声明
THE END
喜欢就支持以下吧
点赞4
分享
评论 抢沙发