CloudXli 2020-05-06
时间管理可是一门大学问,如何在有限的时间更快地运行代码,并且拥有更优秀的性能,是我们应该去思考的事情。毕竟,成为伟大程序员之路就是要不断超越自己,寻找最优解。本文就将给大家提供一些时间管理的小tips。
1. 优化代码和算法
首先,要仔细阅读你的代码和算法。通过执行更优算法或添加缓存可以解决很多速度问题。具体的准则能写整本书,但要遵循的一些通用准则是:
2. 使用PyPy
你可能正在使用Python的参考实现——CPython,它之所以被称作CPython,是因为它由C语言编写而成。很多人都在用它。
但如果确定自己的代码为计算密集型,PyPy会是一个更好的选择。它有可能是一种快速解决方案,且无需更改单行代码。
PyPy声称:它比CPython平均快4.4倍。它通过使用一种叫作即时编译(JIT)的技术加快代码执行速度,其他的JIT还包括Java和.NET框架。而CPython使用解释器执行代码,尽管这提供了很大程度的灵活性,速度却非常慢。
使用JIT,可以在运行程序的同时编译代码。它结合了提前编译(由C和C ++等语言使用)的速度优势和解释器的灵活性。此外,JIT编译器还可以在代码运行时继续将其优化。代码运行时间越长,就越优化。
PyPy在近几年里发展很快,通常可以被用作Python 2和3的直接替代。它也可以与Pipenv等工具完美配合使用。
3. 使用Asyncio
Asyncio是Python中一个相对较新的核心库。它与线程解决了相同的问题:即加速了I/O密集型软件系统,但Asyncio实现方式不同。
笔者其实并不喜欢在Python中使用asyncio。Asyncio相当复杂,特别是对于初学者。而且由于asyncio库在过去的几年中发展了很多,网络上的教程和示例代码通常已经过时。
但这并不意味着它没有用。这是一种强大的范例,可用于许多高性能应用程序。
4. 使用多线程
多数软件系统为I/O密集型,而非计算密集型:
在从网络或磁盘中等待回答时,可以使用多个线程维持其他部分的运行。
线程是独立的执行序列。默认情况下,Python程序具有一个主线程。但可以创建更多线程,并让Python在不同线程之间转换。这种转换发生非常快,显得似乎在同时并排运行。
线程是独立的执行序列,共享相同的存储
不同于其他语言,Python多线程不能同时运行,而是轮流运行,这主要是因为它的全局解释器锁(GIL)的机制。
可见,多线程将对I / O密集型软件系统产生巨大影响,但对计算密集型软件系统而言用途甚微。
为何会这样?很简单。当一个线程等待来自网络的回答时,其他线程能够继续运行。如果执行大量网络请求,使用多线程会大有不同。但如果多线程正在执行大量计算,则它们只是等候自己的轮次再继续执行。线程只会引入更多的开销。
图源:fadeevab
5. 同时使用更多处理器
如果软件系统为计算密集型,则通常可以通过同时使用更多处理器的方式来重写代码。这样,就可以线性扩展执行速度。
这被称做并行性。并非所有算法都可以并行运行。例如,简单地并行化递归算法是不可能的。但是几乎总会有一种替代算法可以很好地进行并行工作。
有两种使用更多处理器的方式:
不同于线程库,多处理库绕过了Python全局解释器锁。它实际上是通过生成多个Python实例来实现的。因此,使用多线程在一个Python进程中轮流执行,你将拥有多个Python处理器来同时运行代码。
可视化多处理
多处理库又与线程库十分相似。那为什么还要考虑线程化?没错,线程处理“更轻便”。它只需要一个正在运行的Python解释器,所需的内存更少,生成新进程也有其开销。因此,如果代码为I/O密集型,使用线程可能足够了。
使软件系统并行工作后,将分布式计算与诸如Hadoop之类的功能结合使用仅需一小步。通过利用云计算平台,目前可以相对轻松地加快运行速度。例如,可以在云中处理庞大的数据集,并在本地使用结果。使用混合操作方式,可以节省一些现金,要知道,云平台的计算功能可是非常昂贵的。