赛博红兔的科技博客

CyberHongTu shares news, insights, and musings on fascinating technology subjects.

网页爬虫

August 8, 2025

和我一起玩Python：51. Python网页爬虫BeautifulSoup库

大家好，我是赛博红兔。上一期我们聊了网页爬虫，它能自动帮我们上网、浏览网页、把有用的信息搬回来。我们学习了如何用Python的Requests库进行网页请求、图片下载、数据提交还有身份验证。那么等我们得到了网页响应之后，就需要对网页进行解析来提取想要的内容。为了展示这个过程，我们先来看看我们最终要实现的目标。今天，我们来试试爬取我的博客。（展示）大家看到在我主页上有很多不同的文章，每一篇文章都有一个标题，一个配图，还有一段文字简介。我们编写了一个爬虫来抓取这些内容，然后把这些信息整理到一个CSV表格中，方便查看。 Continue reading

Python教程《和我一起玩Python》

编程技巧, 网页爬虫, Python, Python教学
July 25, 2025

和我一起玩Python：50. Python网页爬虫Requests库

大家好，我是赛博红兔。之前我在介绍Python异步编写——多线程并发的时候，给大伙展示过这么一个例子。Python采用多线程并发从图片网站上下载大量的高清照片。这里我们就用到了Requests这个模块对Unsplash网站上的图片进行自动爬取。那么今后两期我们就专门来讲讲网页爬虫。我当然会从最基础最常用的讲起，最好你有一些HTTP、HTML和一些网页开发基础。没有也没关系，我会顺带地介绍一下，没有什么大问题。说到网页爬虫，它能自动帮我们上网、浏览网页、把有用的信息搬回来。比如你想收集豆瓣电影Top 100的电影名字，知乎热门话题的标题，最新论文的汇总，还有某些网站的高清壁纸和视频，爬虫都能轻松搞定。 Continue reading

Python教程《和我一起玩Python》

编程技巧, 网页爬虫, Python, Python教学