五个提升 Python 速度的优化技巧

在这篇文章中，我将分解一些我见过的（甚至自己也犯过）最常见的影响性能的错误。最重要的是，我们不仅仅讨论不该做什么——我会给你提供可行的修复方法和代码示例，让你的脚本变成精简、高效的Python机器。

错误 #1：像1999那样循环

我和其他开发者一样，对精心制作的for循环有着强烈的喜爱。它们构成了我们工作的很大一部分基础。然而，当讨论纯粹的速度时，特别是处理大型数据集时，那些可靠的循环开始显得更像是负担而不是助力。

示例：让我们加一些数字

想象你需要计算一个巨大数字列表的平方和。以下是循环的方式：

numbers=[1,2,3,4,5,...,10000]#Abig list
total=0fornumberinnumbers:squared=number*number
    total+=squared

看起来无害，对吧？但在幕后，Python为每个元素进行了大量的单独计算。

修复方法：NumPy来拯救！

这就是NumPy像超级英雄一样出现的地方。它全是关于矢量化——一次性对整个数组执行操作。让我们重写那个示例：

importnumpyasnp

numbers=np.array([1,2,3,4,5,...,10000])squared=numbers*numbers  # Vectorized squaring!total=squared.sum()

NumPy不是逐个处理元素，而是一次性处理整个计算。

额外提示：易于理解的折中方案

列表推导式：

total=sum(number*numberfornumberinnumbers)

它们通常比传统循环更快，但在激烈的数值计算中可能无法与NumPy的强大力量相媲美。

错误 #2：使用错误的工具

想象一下，只用锤子建造房子。当然，你可以完成它，但会是混乱的。同样，对于Python——完全依赖列表来完成所有任务，就像被绑着一只手编程一样。

示例：我的电话号码在哪里？

假设你有这样一个联系人列表：

contacts=[{"name":"Alice","phone":"123-4567"},{"name":"Bob","phone":"789-0123"},#...more contacts]

找到Bob的号码意味着扫描整个列表，可能需要检查每个联系人。

修复方法：拥有超能力的数据处理结构

字典：你的快速查找伙伴如果你按键（比如“名字”）搜索，字典是你的救星。

contacts_dict={"Alice":"123-4567","Bob":"789-0123",#...more contacts}bobs_number=contacts_dict["Bob"]# Instant access!

集合：强制唯一性需要跟踪唯一的网站访问者吗？集合会自动丢弃重复项。

unique_visitors=set()unique_visitors.add("192.168.1.100")unique_visitors.add("124.58.23.5")unique_visitors.add("192.168.1.100")# No duplicate added

了解你的工具箱Python给你提供了更多：有序字典、双端队列等。知道何时使用它们是好脚本和优秀脚本的区别。

错误 #3：在黑暗中优化

你熟悉那种感觉，当你确信你的代码很慢，但对原因一无所知。这就像试图在没有手电筒的情况下修补滴水的天花板。令人沮丧！这就是分析器的用武之地。

示例：意外的罪魁祸首

假设你有一个复杂的函数来计算斐波那契数。你投入了灵魂来完善数学，但它仍然很慢。结果，瓶颈可能是一些狡猾的东西，比如你如何将结果记录到文件中。

修复方法：cProfile来拯救！

Python内置的cProfile模块是你的性能侦探。以下是如何使用它：

importcProfile

defmy_function():# Your code to be profiled

cProfile.run('my_function()')

这会产生大量统计数据。需要关注的关键事项：

ncalls：函数被调用了多少次。
tottime：在函数中花费的总时间。
cumtime：像tottime一样，但包括在其中调用的所有函数所花费的时间。

筛选线索这些数字将指出你真正的瓶颈，帮助你将优化工作集中在它们将产生最大影响的地方。

错误 #4：DIY陷阱

从头开始构建一切的冲动很强。我懂！但有时，重新发明轮子就像决定步行穿越国家而不是乘坐飞机。Python有你的背，有非常优化的内置函数。

示例：让我们排序

需要对数字列表进行排序吗？你可以编写你的冒泡排序实现……或者你可以使用Python的sorted()：

my_list=[5,3,1,4,2]# The longway(probably pretty slow)defmy_bubble_sort(list):#...your sorting code here

# The Pythonic way
sorted_list=sorted(my_list)

很有可能，你自己的排序算法甚至无法接近内置的效率。

修复方法：探索宝库

Python标准库是开发者的最好朋友。了解这些强大的工具：

itertools：通过迭代器（想想高级循环以提高效率）增强你的工作
heapq：用于管理堆（优先队列有人吗？）
bisect：保持排序列表的顺序，速度极快。

记住：花时间学习内置函数是后来优化节省的时间。

错误 #5：与硬盘聊天太多

将你的计算机内存（RAM）视为你的超快速工作区，将你的硬盘视为城市的存储仓库。每次你访问或修改文件，就像派遣信使来回奔波。太多的行程，你的代码开始感受到等待。

示例：逐行减速

假设你正在处理一个庞大的日志文件：

withopen("huge_log.txt","r")asfile:forlineinfile:# Process each line slowly

每读取一行意味着从你的硬盘单独获取。

修复方法：更聪明地工作，而不是更努力

一次读取全部（如果合适）：对于较小的文件，有时将整个内容吸入内存是最快的：

withopen("huge_log.txt","r")asfile:contents=file.read()# Process contentsinmemory

缓冲来拯救：当你需要细粒度控制时，缓冲可以拯救：

withopen("huge_log.txt","r")asfile:whileTrue:chunk=file.read(4096)# Readinchunksifnot chunk:break# Process the chunk

以块而不是字节思考最小化那些去“仓库”的行程会产生巨大的差异。

喜欢已喜欢

333 2024-11-01 07:30:00 Python 代码

探究 USB2.0 的真实传输速度是多少？

运维让我优化SpringBoot启动速度，我是这么干的！

错误 #1：像1999那样循环

错误 #2：使用错误的工具

错误 #3：在黑暗中优化

错误 #4：DIY陷阱

错误 #5：与硬盘聊天太多

您正在使用低版本浏览器，为了获得更良好的体验，建议您升级浏览器，为您推荐：