1.2 爬虫可以做什么_Python爬虫开发：从入门到实战（微课版）-QQ阅读女频现言网

上QQ阅读APP看书，第一时间看更新

1.2 爬虫可以做什么

1.2.1 收集数据

爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序，程序的运行速度极快，而且不会因为做重复的事情就感觉到疲劳，因此使用爬虫来获取大量的数据，就变得极其简单和快捷了。

由于现在99%以上的网站都是基于模板开发的，使用模板可以快速生成相同版式、不同内容的大量页面。因此，只要针对一个页面开发出了爬虫，那么这个爬虫也能爬取基于同一个模板生成的不同页面。这种爬虫称为定向爬虫，也是本书所要讲到的爬虫类型。

请看图1-1和图1-2，这是起点中文网的“玄幻频道”和“奇幻频道”页面。

图1-1 起点中文网的“玄幻频道”页面

图1-2 起点中文网的“奇幻频道”页面

图1-1和图1-2所示的这两个版面除了内容不一样外，其他地方完全一样。只要爬虫能爬取“玄幻频道”，那么就能爬取“奇幻频道”。假设要把这两个页面的内容都获取下来，如果人工来操作，就需要对两个页面进行复制及粘贴，做很多重复的工作。而如果使用爬虫，那么只需要开发“玄幻频道”的爬虫就能实现既能爬取“玄幻频道”又能爬取“奇幻频道”的目标。

正是由于现在的网站大量使用了模板来生成页面，所以爬虫才能够有用武之地。

1.2.2 尽职调查

所谓的尽职调查，一般是指投资人在投资一个公司之前，需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作，是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去，尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后，要做尽职调查就方便很多了。

例如调查一个电商公司，想知道他们的商品销售情况。该公司自己声称每个月销售额几亿元。如果使用爬虫爬取了该公司网站所有商品的销量情况，那么就可以计算出该公司的实际总销售额。而且，如果爬取了所有的评论并进行分析，还可以发现该网站是否出现了刷单的行为。

数据不会说谎，特别是数据量极大的数据，人工伪造的总会和自然生成的存在区别。而在以前，对于数据量极大的数据进行搜集是一件非常困难的事情，但现在有了爬虫的帮助，很多欺骗行为都会赤裸裸地暴露在阳光下。

1.2.3 刷流量和秒杀

刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时，如果这个爬虫隐藏得很好，网站不能识别这一次访问来自于爬虫，那么就会把它当成正常访问。于是，爬虫就“不小心”地刷了网站的访问量。

除了刷流量外，爬虫也可以参与各种秒杀活动，包括但不限于在各种电商网站上抢商品，抢优惠券，抢机票和火车票。目前，网上有不少人专门使用爬虫来参加各种活动，并从中盈利。这种行为一般称为“薅羊毛”，这种人被称为“羊毛党”。不过使用爬虫来“薅羊毛”进行盈利的行为实际上游走在法律的灰色地带，希望读者不要轻易尝试。