1.2 爬虫可以做什么
1.2.1 收集数据
爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序,程序的运行速度极快,而且不会因为做重复的事情就感觉到疲劳,因此使用爬虫来获取大量的数据,就变得极其简单和快捷了。
由于现在99%以上的网站都是基于模板开发的,使用模板可以快速生成相同版式、不同内容的大量页面。因此,只要针对一个页面开发出了爬虫,那么这个爬虫也能爬取基于同一个模板生成的不同页面。这种爬虫称为定向爬虫,也是本书所要讲到的爬虫类型。
请看图1-1和图1-2,这是起点中文网的“玄幻频道”和“奇幻频道”页面。
图1-1 起点中文网的“玄幻频道”页面
图1-2 起点中文网的“奇幻频道”页面
图1-1和图1-2所示的这两个版面除了内容不一样外,其他地方完全一样。只要爬虫能爬取“玄幻频道”,那么就能爬取“奇幻频道”。假设要把这两个页面的内容都获取下来,如果人工来操作,就需要对两个页面进行复制及粘贴,做很多重复的工作。而如果使用爬虫,那么只需要开发“玄幻频道”的爬虫就能实现既能爬取“玄幻频道”又能爬取“奇幻频道”的目标。
正是由于现在的网站大量使用了模板来生成页面,所以爬虫才能够有用武之地。
1.2.2 尽职调查
所谓的尽职调查,一般是指投资人在投资一个公司之前,需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作,是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去,尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后,要做尽职调查就方便很多了。
例如调查一个电商公司,想知道他们的商品销售情况。该公司自己声称每个月销售额几亿元。如果使用爬虫爬取了该公司网站所有商品的销量情况,那么就可以计算出该公司的实际总销售额。而且,如果爬取了所有的评论并进行分析,还可以发现该网站是否出现了刷单的行为。
数据不会说谎,特别是数据量极大的数据,人工伪造的总会和自然生成的存在区别。而在以前,对于数据量极大的数据进行搜集是一件非常困难的事情,但现在有了爬虫的帮助,很多欺骗行为都会赤裸裸地暴露在阳光下。
1.2.3 刷流量和秒杀
刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时,如果这个爬虫隐藏得很好,网站不能识别这一次访问来自于爬虫,那么就会把它当成正常访问。于是,爬虫就“不小心”地刷了网站的访问量。
除了刷流量外,爬虫也可以参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,抢优惠券,抢机票和火车票。目前,网上有不少人专门使用爬虫来参加各种活动,并从中盈利。这种行为一般称为“薅羊毛”,这种人被称为“羊毛党”。不过使用爬虫来“薅羊毛”进行盈利的行为实际上游走在法律的灰色地带,希望读者不要轻易尝试。