赛博红兔的科技博客

CyberHongTu shares news, insights, and musings on fascinating technology subjects.


网页爬虫

  • 和我一起玩Python:51. Python网页爬虫BeautifulSoup库

    和我一起玩Python:51. Python网页爬虫BeautifulSoup库

    大家好,我是赛博红兔。上一期我们聊了网页爬虫,它能自动帮我们上网、浏览网页、把有用的信息搬回来。我们学习了如何用Python的Requests库进行网页请求、图片下载、数据提交还有身份验证。那么等我们得到了网页响应之后,就需要对网页进行解析来提取想要的内容。为了展示这个过程,我们先来看看我们最终要实现的目标。今天,我们来试试爬取我的博客。(展示)大家看到在我主页上有很多不同的文章,每一篇文章都有一个标题,一个配图,还有一段文字简介。我们编写了一个爬虫来抓取这些内容,然后把这些信息整理到一个CSV表格中,方便查看。 Continue reading

  • 和我一起玩Python:50. Python网页爬虫Requests库

    和我一起玩Python:50. Python网页爬虫Requests库

    大家好,我是赛博红兔。之前我在介绍Python异步编写——多线程并发的时候,给大伙展示过这么一个例子。Python采用多线程并发从图片网站上下载大量的高清照片。这里我们就用到了Requests这个模块对Unsplash网站上的图片进行自动爬取。那么今后两期我们就专门来讲讲网页爬虫。我当然会从最基础最常用的讲起,最好你有一些HTTP、HTML和一些网页开发基础。没有也没关系,我会顺带地介绍一下,没有什么大问题。说到网页爬虫,它能自动帮我们上网、浏览网页、把有用的信息搬回来。比如你想收集豆瓣电影Top 100的电影名字,知乎热门话题的标题,最新论文的汇总,还有某些网站的高清壁纸和视频,爬虫都能轻松搞定。 Continue reading

关于我


大家好,我是赛博红兔,是一个具有超过6年在Yaskawa Motoman机器人实验室和工业过程控制研究所的机器人及控制研究经验的创新且敬业的专业人士。主要关注机器学习、先进动态系统控制算法及其实现,精通C++、Python和MATLAB编程。

咨询互动邮箱:cyberhongtu@outlook.com

Bilibili视频请搜索:赛博红兔CyberHongTu

日志分类