前面我们已经基于3个Case总结了Python简易爬虫的实现,但实际上作为数据分析师我们并不需要耗费时间去开发爬虫,在有需求时我们可以借助 爬虫工具 实现,这样能节省我们的时间和精力,本文就简单介绍下我一直在用的免费 爬虫工具 -八爪鱼。


1. 软件简介

软件官网:https://www.bazhuayu.com/

软件界面:


2. 简单上手

为了上手演示,我们使用八爪鱼爬取豆瓣电影Top250,具体步骤如下:

1. 输入网址,点击<开始采集>。软件会自动新建任务并自动识别网页数据。

2. 自动识别完成后,在操作提示中按需<修改>采集设置,点击<生成采集设置>.

3. 点击<保存并开始采集>.

4. 点击左边的本地采集的<立即启动>,开始采集。

5. 采集完成后,点击<导出数据>,选择导出方式并导出。

6. 完成以上步骤后我们就成功采集到数据了,接下来就是进一步的数据清洗和处理了,可以在Excel或Python中完成。


3. 小结

能够看出,八爪鱼的使用操作还是非常简单的,一步一步点下来就行了。但是数据采集只是第一步,无论是自己编写爬虫,还是使用爬虫工具,数据清洗都是必不可少的,我们还需要做进一步的数据清洗以便后续使用。


原创文章,转载请务必注明出处留下原文链接。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注