├──-Python3商业爬虫案例实战(二期)-廖雪峰
| ├──1爬虫的基本框架及知识
| ├──2scapy框架及爬虫进阶
| ├──3爬虫高级知识及就业培训
| ├──资料
| | ├──1
| | ├──2
| | ├──3
| | └──课件
| └──总结.mp4 3.68M
这里我们定义了一个 scrape_index
方法,它接收一个参数 page
,该参数代表列表页的页码。
这里我们先构造了一个 url
,通过字符串的 format
方法,传入 limit
和 offset
的值。这里 limit
就直接使用了全局变量 LIMIT
的值;offset
则是动态计算的,就是页码数减一再乘以 limit
,比如第一页 offset
就是 0,第二页 offset
就是 10,以此类推。构造好了 url
之后,直接调用 scrape_api
方法并返回结果即可。
这样我们就完成了列表页的爬取,每次请求都会得到一页 10 部的电影数据。
由于这时爬取到的数据已经是 JSON 类型了,所以我们不用像之前那样去解析 HTML 代码来提取数据了,爬到的数据就是我们想要的结构化数据,因此解析这一步就可以直接省略啦。
到此为止,我们能成功爬取列表页并提取出电影列表信息了。
5. 爬取详情页
这时候我们已经可以拿到每一页的电影数据了,但是看看这些数据实际上还缺少了一些我们想要的信息,如剧情简介等信息,所以需要进一步进入到详情页来获取这些内容。
这时候点击任意一部电影,如《教父》,进入其详情页,这时可以发现页面的 URL 已经变成了 https://spa1.scrape.center/detail/40,页面也成功展示了详情页的信息,如图所示:
侵权联系与免责声明 1、本站资源所有内容均收集于网络,与本网站立场无关 2、本站所有资源收集于互联网,由用户分享,该帖子作者与老马学社网站不享有任何版权,如有侵权请联系本站删除 3、本站部分内容转载自其它网站,但并不代表本站赞同其观点和对其真实性负责 4、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意 侵权联系邮箱:648765304@qq.com 本文链接:https://laomastudy.cn/3122.html。
评论0