普通爬虫和协程爬虫
普通爬虫逻辑:
1 | import time |
get_titles()函数首先使用requests模块发起了一个get请求,获取html的页面源码。
然后利用etree中的xpath解析出想要获取到的内容。
xpath(‘’)中使用的是xpath语法,可以准确的定位获取到的内容。可以在审查元素中直接右键Copy->Copy Xpath复制出xpath代码,然后使用时在尾部加上text()就可以。
协程爬虫
1 | import time |
在协程中,由于requests库提供的相关方法不是awaitable,使得无法放在await后面,因此无法在协程中直接使用requests库进行请求。
为了解决这个问题,官方提供了一个aiohttp库,实现异步网页请求等功能。
使用aiohttp模块请求网页:
1 | import aiohttp |
其中async with是封装了异步实现功能的异步上下文管理器
这段代码中将aiohttp模块中的ClientSession方法命名为session,并且将ClientResponse对象命名为resp,ClientSession.get()协程的必须参数为一个URL。再通过resp.text()获取到网页的全部内容。