本文是写给 JavaScript 程序员的 Python 教程。
Python 的异步编程,其他人可能觉得很难,但是 JavaScript 程序员应该特别容易理解,因为两者的概念和语法类似。JavaScript 的异步模型更简单直观,很适合作为学习 Python 异步的基础。
本文解释 Python 的异步模块 asyncio
的概念和基本用法,并且演示如何通过 Python 脚本操作无头浏览器 pyppeteer 。
一、Python 异步编程的由来
历史上,Python 并不支持专门的异步编程语法,因为不需要。
有了多线程(threading
)和多进程(multiprocessing
),就没必要一定支持异步了。如果一个线程(或进程)阻塞,新建其他线程(或进程)就可以了,程序不会卡死。
但是,多线程有"线程竞争"的问题,处理起来很复杂,还涉及加锁。对于简单的异步任务来说(比如与网页互动),写起来很麻烦。
Python 3.4 引入了 asyncio
模块,增加了异步编程,跟 JavaScript 的async/await
极为类似,大大方便了异步任务的处理。它受到了开发者的欢迎,成为从 Python 2 升级到 Python 3 的主要理由之一。
二、asyncio 的设计
asyncio
模块最大特点就是,只存在一个线程,跟 JavaScript 一样。
由于只有一个线程,就不可能多个任务同时运行。asyncio 是"多任务合作"模式(cooperative multitasking),允许异步任务交出执行权给其他任务,等到其他任务完成,再收回执行权继续往下执行,这跟 JavaScript 也是一样的。
由于代码的执行权在多个任务之间交换,所以看上去好像多个任务同时运行,其实底层只有一个线程,多个任务分享运行时间。
表面上,这是一个不合理的设计,明明有多线程多进程的能力,为什么放着多余的 CPU 核心不用,而只用一个线程呢?但是就像前面说的,单线程简化了很多问题,使得代码逻辑变得简单,写法符合直觉。
asyncio 模块在单线程上启动一个事件循环(event loop),时刻监听新进入循环的事件,加以处理,并不断重复这个过程,直到异步任务结束。事件循环的内部机制,可以参考 JavaScript 的模型,两者是一样的。
三、asyncio API
下面介绍 asyncio
模块最主要的几个API。注意,必须使用 Python 3.7 或更高版本,早期的语法已经变了。
第一步,import
加载 asyncio
模块。
import asyncio
第二步,函数前面加上 async
关键字,就变成了 async 函数。这种函数最大特点是执行可以暂停,交出执行权。
async def main():
第三步,在 async 函数内部的异步任务前面,加上await
命令。
await asyncio.sleep(1)
上面代码中,asyncio.sleep(1)
方法可以生成一个异步任务,休眠1秒钟然后结束。
执行引擎遇到await
命令,就会在异步任务开始执行之后,暂停当前 async 函数的执行,把执行权交给其他任务。等到异步任务结束,再把执行权交回 async 函数,继续往下执行。
第四步,async.run()
方法加载 async 函数,启动事件循环。
asyncio.run(main())
上面代码中,asyncio.run()
在事件循环上监听 async 函数main
的执行。等到 main
执行完了,事件循环才会终止。
四、async 函数的示例
下面是 async 函数的例子,新建一个脚本async.py
,代码如下。
#!/usr/bin/env python3 # async.py import asyncio async def count(): print("One") await asyncio.sleep(1) print("Two") async def main(): await asyncio.gather(count(), count(), count()) asyncio.run(main())
上面脚本中,在 async 函数main
的里面,asyncio.gather()
方法将多个异步任务(三个 count()
)包装成一个新的异步任务,必须等到内部的多个异步任务都执行结束,这个新的异步任务才会结束。
脚本的运行结果如下。
$ python3 async.py One One One Two Two Two
上面运行结果的原因是,三个 count()
依次执行,打印完 One
,就休眠1秒钟,把执行权交给下一个 count()
,所以先连续打印出三个 One
。等到1秒钟休眠结束,执行权重新交回第一个 count()
,开始执行 await
命令下一行的语句,所以会接着打印出三个Two
。脚本总的运行时间是1秒。
作为对比,下面是这个例子的同步版本 sync.py
。
#!/usr/bin/env python3 # sync.py import time def count(): print("One") time.sleep(1) print("Two") def main(): for _ in range(3): count() main()
上面脚本的运行结果如下。
$ python3 sync.py One Two One Two One Two
上面运行结果的原因是,三个 count()
都是同步执行,必须等到前一个执行完,才能执行后一个。脚本总的运行时间是3秒。
五、实例:pyppeteer 模块
最后是一个异步编程的真实例子:操作无头浏览器。异步编程对代码的简化,在这个例子体现得淋漓尽致。
我们需要用到 pyppeteer 模块,它是无头浏览器 Puppeteer 的 Python 移植,API 跟 JavaScript 版本基本一致。下面是安装命令。
$ python3 -m pip install pyppeteer
然后,写一个网页截图脚本screenshot.py
。
#!/usr/bin/env python3 # screenshot.py import asyncio from pyppeteer import launch async def main(): browser = await launch() page = await browser.newPage() await page.goto('http://example.com') await page.screenshot({'path': 'example.png'}) await browser.close() asyncio.run(main())
上面代码中,启动浏览器(launch
)、打开新 Tab(newPage()
)、访问网址(page.goto()
)、截图(page.screenshot()
)、关闭浏览器(browser.close()
),这一系列操作都是异步任务,使用 await
命令写起来非常自然简单。
执行这个脚本,当前目录下就会生成截图文件 example.png
。
$ python3 screenshot.py
如果脚本执行时报错 No usable sandbox!
,可以参考这里。另外,第一次执行这个脚本,会下载安装 Puppeteer,可能需要等待较长时间,但是此后的执行就会很快。
Pyppeteer 的官网还有其他实例,比如向网页注入 JavaScript 代码,大家可以自己试玩。
六、参考链接
- Async IO in Python: A Complete Walkthrough, Brad Solomon
(正文完)
如何通过实战项目快速提升 Python 开发技能?
Python 是当下最火的编程语言,房地产大佬潘石屹都说要学。
它上手极为简单,短时间内你就能写出解决实际问题的小程序,甚至去面试初级 Python 工程师的职位。
不过,要写出更复杂的应用,或者从事数据分析、机器学习、Web 开发等工作,就需要正规系统的学习了。建议从一个简单的小项目开始,然后不断完善功能,去学习更多新东西。
- 第一步:写一个最简单的爬虫,比如获取 B 站的弹幕或豆瓣的书评影评。
- 第二步:单线程爬虫扩展为多线程爬虫,了解进程、线程、锁。
- 第三步:对收集的数据进行清洗和分析。
- 第四步:将数据报告在 Web 端展示,了解 MVC 设计模式、Web 框架、数据库操作。
完成以上四步,就从一个初级 Python 使用者成长为一名熟练工了。当然说起来简单,真正实践起来并不容易。每一步都会有比较多的坑,对于没有经验的人来说,自学效率比较低。如果有一个经验丰富的老师带,效果会好很多。
尹会生,金山公司西山居运维总监,在极客时间讲过《零基础学Python》和《Linux实战技能100讲》两个课程,参与编写过 《白话大数据与机器学习》 《运维前线》等书籍。
他与极客时间合作,推出了线下+线上相结合的《Python 进阶训练营》,手把手、面对面地帮助你,50天内实现 Python 开发技能的进阶和突破,完成上面四步,从初级使用者成长为专业选手。
- 4 个实战项目串联起全部关键知识
- 4 天线下教学 + 5 次线上直播 + 7 周刻意练习 + 助教每日答疑
- 高效学习社群 + 班主任带班
- 一线大厂和 TGO 鲲鹏会600多家企业面试直通车。优秀毕业生一年内获得两次企业内推服务。
原价 ¥3600, 早鸟特惠 ¥2499,早鸟仅限 100 人 ,微信扫描下方二维码,立即加入????
无论是否报名,微信扫描下方二维码,即可免费获取 Python 学习资料包。
(完)
KevinBlandy 说:
ahhh。阮老师是为了发python广告特意写了asyncio的教程?还是顺便接了个广告?
2019年11月21日 09:37 | # | 引用
james 说:
screenshot.py这个例子中,虽然五个步骤可以异步处理,但它们之间明显有前后关系。也可以吗?
2019年11月21日 10:18 | # | 引用
乐亦栗 说:
祝阮老师能多恰饭,恰更多高质量的饭,恰饱了更有精力和动力分享优质的知识。
2019年11月21日 10:57 | # | 引用
nodeserver 说:
五个步骤会安顺序执行,上一个执行完了在执行下一个,这里没有调用asyncio.gather方法,所以不会节省时间
2019年11月21日 11:16 | # | 引用
zhaifg 说:
"下面介绍 asyncio 模块最主要的几个API。注意,必须使用 Python 3.7 或更高版本,早期的语法已经变了。" 这个地方应该是从 Python 3.5 起加入了await, 不是 3.7
2019年11月21日 13:46 | # | 引用
softbase 说:
这个栗子说明了什么呢? 比起同步线程有任何优势吗? 还是仅仅为了说明语法。
2019年11月21日 19:31 | # | 引用
Pelops.Yao 说:
那几张配图真好看!
2019年11月22日 08:14 | # | 引用
花满楼 说:
没有说 *await*, asyncio.run() 是3.7 才加上的
2019年11月22日 08:19 | # | 引用
screamff 说:
主要要自己分辨哪些方法、函数能用asyncio,哪些不能,比如requests就不能用原生asyncio,老司机用起来才会轻车熟路一点
2019年11月22日 08:51 | # | 引用
kiwiyan 说:
哈哈,虽然带硬广,但对初学者的指导作用还是不错的
2019年11月26日 09:46 | # | 引用
yangzx 说:
异步网络请求可以用aiohttp这个库
2019年11月27日 15:42 | # | 引用
QAQ 说:
居然有这么清新脱俗的广告,请加大恰饭力度!!!
2020年1月16日 10:42 | # | 引用
ponder 说:
asyncio 模块最大特点就是,只存在一个线程
-------------------------------------------
这里确切地说,只有一个eventloop线程,threading.Thread还是能正常使用的。
2020年6月29日 23:34 | # | 引用
Jason 说:
其实打印1和2的例子举得并不好,本质的区别并不是async def和普通def,真正导致运行时间不同的原因是运行方式。并行执行一个普通的count函数也可以实现one one one two two two的效果。
2021年5月19日 14:34 | # | 引用
gaspar08 说:
正是因为有前后关系,才用到await
2021年11月25日 21:57 | # | 引用
MakaBaka 说:
老师,您好。我在编程方面是完全的初学者。最近我在用python+pyqt+NFC做一个考勤系统。
基本工作是,GUI的画面实时显示时间的同时,NFC读卡器要处在待机状态,当扫描到ID卡后将ID卡信息输出到GUI上。目前遇到的问题是读卡和GUI界面有先后,要读卡后GUI界面才会运行,而且由于pyqt 最后main的位置无法加入while循环,所以NFC程序只能执行一次,读一次卡后就会close,求老师指点该怎么办
2022年2月 4日 15:03 | # | 引用
featue 说:
本来也觉得没什么卵用,直到我去掉 async和await后,一运行就报错了。~~~~
2022年5月31日 15:51 | # | 引用
提拉米苏 说:
想学python,没有方向。。。
2024年9月19日 15:08 | # | 引用