• 公众号数据采集、抖音视频采集、视频号数据采集

用python写爬虫的一些经验(持续更新)

公众号 kakalong 4年前 (2019-02-18) 1626次浏览 0个评论 扫描二维码

一直以来老有朋友问我怎么写爬虫,还有想拜我为师的。愧不敢当啊,我也是个边学边卖的新手。

开个贴子,列出一些通用技能,与大家一起分享。

首先是学习一门语言,如果你啥都不会,或者学啥都行,那就学 python 吧,推荐一个学习 python 的非常优秀的国人写的网站 http://www.liaoxuefeng.com 他的教程可能非常适合有少许编程基础的朋友快速上手,至于完全 0 基础的能不能看得懂,需要倾听朋友们的反馈。其实 0 基础学啥都是万事开头难,刚开始不懂也正常。

另外提个忠告:可能你会想买本书学 python,再买本书用 python 写爬虫的书。

我的建议是:python 的教材可以买,当工具书或者系统深入学习 python 还是有必要的。比如国人写的《跟老齐学 python 轻松入门》,质量还是很不错的。

但是专门讲 python 写爬虫的书不需要买,或者说性价比不高,因为做爬虫常用的技术就那么几条,完全可以找几篇精华贴子看看就搞明白了,另外一点是近一两年许多国人蹭热点写了许多 python 爬虫相关的书,我翻过几本,依然是国产书的典型水样:凑字数、大段粘贴代码,讲不透彻讲不系统。当然如果您发现有这方面不错的书也欢迎推荐。

要学习的 python 库,主要是两个:

1、Beautifulsoup 解析网页用的,比如你想从一篇公众号文章中解析出它的标题,或者解析出所有的图片,都是通过这个库来实现。

2、Requests 下载网页、图片、css、js 等文件用的,此库可以方便得设置 header 头,特别是 ua,以达到伪装为正常用户浏览的目的,稍高级一点的还可以在 requests 中设置代理服务器,以达到并行下载而不被封。

 


本文标题:用 python 写爬虫的一些经验(持续更新)
转载请保留页面地址 https://www.xiaokuake.com/p/pychon-crawl.html
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址