Ghero 2020-06-03
by 闲欢
对于数据分析来说,排序和筛选数据是不可或缺的一部分内容。NumPy 也提供了多种排序和筛选函数,本文就来介绍一下 NumPy 常见的排序和筛选函数。
NumPy 中提供了排序相关的函数。排序函数已经帮助我们实现了不同的排序算法,我们只需要拿来直接使用就行。每个排序算法的执行速度,时间复杂度,空间复杂度和算法的稳定性都不相同,我们来看看常见的几种排序算法的比较。
排序算法 | 速度 | 时间复杂度 | 空间复杂度 | 稳定性 |
---|---|---|---|---|
quicksort (快速排序) | 1 | o(n^2) | 0 | 否 |
mergesort (归并排序) | 2 | O(n*log(n)) | ~n/2 | 是 |
heapsort (堆排序) | 3 | O(n*log(n)) | 0 | 否 |
这个排序函数有4个参数,我们来看看参数的说明:
参数 | 说明 |
---|---|
a | 要排序的数组 |
axis | 排序数组的轴,如果没有数组会被展开,沿着最后的轴排序。axis=0 按列排序,axis=1 按行排序 |
kind | 排序类型,有 quicksort 、mergesort 、heapsort 、stable 几种,默认为quicksort (快速排序) |
order | 排序的字段,针对包含字段的数组 |
我们来看看实例:
import numpy as np import time a = np.array([[3, 7, 12, 45], [9, 1, 0, 34]]) print("初始数组:") print(a) print(‘\n‘) print(np.char.center(‘调用 sort() 函数,默认快速排序‘, 15, ‘*‘)) print(np.sort(a)) print(‘\n‘) print(np.char.center(‘按列排序‘, 15, ‘*‘)) print(np.sort(a, axis=0)) print(‘\n‘) b = np.random.randint(1, 1000, size=[10000, 10000]) print(np.char.center(‘快速排序时间‘, 15, ‘*‘)) t1 = time.time() np.sort(b) t2 = time.time() print(t2 - t1) print(‘\n‘) print(np.char.center(‘堆排序时间‘, 15, ‘*‘)) t3 = time.time() np.sort(b, -1, ‘heapsort‘) t4 = time.time() print(t4 - t3) print(‘\n‘) print(np.char.center(‘归并排序时间‘, 15, ‘*‘)) t5 = time.time() np.sort(b, -1, ‘mergesort‘) t6 = time.time() print(t6 - t5) print(‘\n‘) # 根据字段排序 dt = np.dtype([(‘name‘, ‘S10‘), (‘age‘, int)]) c = np.array([("raju", 21), ("anil", 25), ("ravi", 17), ("amar", 27)], dtype=dt) print(np.char.center(‘根据字段排序的数组‘, 15, ‘*‘)) print(c) print(‘\n‘) print(np.char.center(‘按 name 排序‘, 15, ‘*‘)) print(np.sort(c, order=‘name‘)) # 返回 初始数组: [[ 3 7 12 45] [ 9 1 0 34]] 调用 sort() 函数,默认 [[ 3 7 12 45] [ 0 1 9 34]] ******按列排序***** [[ 3 1 0 34] [ 9 7 12 45]] *****快速排序时间**** 5.470074892044067 *****堆排序时间***** 6.988600015640259 *****归并排序时间**** 5.784327983856201 ***根据字段排序的数组*** [(b‘raju‘, 21) (b‘anil‘, 25) (b‘ravi‘, 17) (b‘amar‘, 27)] ***按 name 排序*** [(b‘amar‘, 27) (b‘anil‘, 25) (b‘raju‘, 21) (b‘ravi‘, 17)]
在例子中,我们首先使用了默认的按横轴的快速排序算法,可以看到每个数组都是横向排序的。
接下来,我们多加了一个排序的参数,表示按纵轴排序,我们可以从结果中看到,两个数组中对应位置的元素都按照升序排列了。
接着我们随机生成了一个数据量大的多维数组,然后使用三种排序方式,打印了它们排序的时间,从结果中我们可以看到快速排序最快,其次是归并排序,最后是堆排序。需要注意一点的是,有些排序算法不稳定,可能会导致每次运行的结果不一样。另外,数据量也可能会影响不同排序算法排序的效率。
最后我们创建了一个带字段的数组,然后按照 name
字段排序。
函数对输入数组沿给定轴执行间接排序,并使用指定排序类型返回数据的索引数组。 这个索引数组用于构造排序后的数组。
我们来看实例:
import numpy as np a = np.array([3, 4, 2]) print("初始数组:") print(a) print(‘\n‘) print(np.char.center(‘调用 argsort() 函数‘, 15, ‘*‘)) b = np.argsort(a) print(b) print(‘\n‘) print(np.char.center(‘以排序后的顺序重构原数组‘, 15, ‘*‘)) print(a[b]) print(‘\n‘) # 返回 初始数组: [3 4 2] 调用 argsort() 函数 [2 0 1] **以排序后的顺序重构原数组* [2 3 4]
在上面例子中,我们调用 argsort()
函数后,返回了初始数组的排序后的索引。然后我们用排序后的索引数组重构原数组,得到排序后的数组。
函数使用键序列执行间接排序。 键可以看作是电子表格中的一列。 该函数返回一个索引数组,使用它可以获得排序数据。 注意,最后一个键恰好是 sort 的主键。
对于这个函数,我们假设一种场景:现在有语文和数学考试成绩以及总成绩,我们需要对成绩做个排序,排序原则为总分优先,总分相同的语文高的排前面。
实现的代码如下:
import numpy as np print(np.char.center(‘lexsort() 函数‘, 15, ‘*‘)) # 录入了四位同学的成绩 math = (10, 20, 50, 10) chinese = (30, 50, 40, 60) total = (40, 70, 90, 70) # 将优先级高的项放在后面 ind = np.lexsort((math, chinese, total)) for i in ind: print(total[i], chinese[i], math[i]) # 返回 **lexsort() 函数* 40 30 10 70 50 20 70 60 10 90 40 50
例子中我们将参数由优先级从低到高传入,优先级最高的放在最后。最后得到4个同学的成绩排序。
数组按第一个轴排序,返回排序后的数组副本。
这个排序相当于 numpy.sort(a, axis=0)。很好理解。我们直接来看实例:
import numpy as np print(np.char.center(‘msort() 函数‘, 20, ‘*‘)) msa = np.array([[3, 7, 12, 45], [9, 1, 0, 34]]) print(np.msort(msa)) # 返回 *****msort() 函数***** [[ 3 1 0 34] [ 9 7 12 45]]
指定一个数,对数组进行分区。
通俗点说,就是指定一个数,以这个数为中心,将其他数分别放在这个数的两边。
我们来看实例:
import numpy as np print(np.char.center(‘partition() 函数‘, 20, ‘*‘)) pta = np.array([3, 7, 12, 45, 15, 0]) print(np.partition(pta, 2)) print(‘\n‘) print(np.partition(pta, (2, 4))) print(‘\n‘) # 返回 ***partition() 函数*** [ 0 3 7 45 15 12] [ 0 3 7 12 15 45]
在第一次排序时,我们选中了索引为2的数字7作为中心,将小于7的数放在左边,大于7的数放在右边。在第二次排序时,我们选择了索引为2的数字7和索引为4的数字45,将小于7的数放在左边,大于7小于45的数放在中间,大于45的数放在右边。
下面我们来看几个常见的筛选函数,这些函数用于在数组中查找特定条件的元素。
返回沿给定轴的最大值索引。
注意,索引的值是从0开始计算的。
我们来看实例:
import numpy as np a = np.array([[30, 40, 70], [80, 20, 10], [50, 90, 60]]) print(np.char.center(‘初始数组‘, 20, ‘*‘)) print(a) print(‘\n‘) print(np.char.center(‘调用 argmax() 函数‘, 20, ‘*‘)) print(np.argmax(a)) print(‘\n‘) print(np.char.center(‘展开数组‘, 20, ‘*‘)) print(a.flatten()) print(‘\n‘) print(np.char.center(‘沿0轴的最大索引‘, 20, ‘*‘)) print(np.argmax(a, 0)) print(‘\n‘) print(np.char.center(‘沿1轴的最大索引‘, 20, ‘*‘)) print(np.argmax(a, 1)) print(‘\n‘) # 返回 ********初始数组******** [[30 40 70] [80 20 10] [50 90 60]] ***调用 argmax() 函数*** 7 ********展开数组******** [30 40 70 80 20 10 50 90 60] ******沿0轴的最大索引****** [1 2 0] ******沿1轴的最大索引****** [2 0 1]
返回沿给定轴的最小值索引。
注意,索引的值是从0开始计算的。
我们来看实例:
import numpy as np a = np.array([[30, 40, 70], [80, 20, 10], [50, 90, 60]]) print(np.char.center(‘初始数组‘, 20, ‘*‘)) print(a) print(‘\n‘) print(np.char.center(‘调用 argmin() 函数‘, 20, ‘*‘)) print(np.argmin(a)) print(‘\n‘) print(np.char.center(‘沿0轴的最小索引‘, 20, ‘*‘)) print(np.argmin(a, 0)) print(‘\n‘) print(np.char.center(‘沿1轴的最小索引‘, 20, ‘*‘)) print(np.argmin(a, 1)) print(‘\n‘) # 返回 ********初始数组******** [[30 40 70] [80 20 10] [50 90 60]] ***调用 argmin() 函数*** 5 ******沿0轴的最小索引****** [0 1 1] ******沿1轴的最小索引****** [0 2 0]
返回输入数组中非零元素的索引。
我们来看实例:
import numpy as np b = np.array([[30, 40, 0], [0, 20, 10], [50, 0, 60]]) print(np.char.center(‘我们的数组是‘, 20, ‘*‘)) print(b) print(np.char.center(‘调用 nonzero() 函数‘, 20, ‘*‘)) c = np.nonzero(b) print(c) print(np.transpose(np.nonzero(b))) # 返回 *******我们的数组是******* [[30 40 0] [ 0 20 10] [50 0 60]] **调用 nonzero() 函数*** (array([0, 0, 1, 1, 2, 2]), array([0, 1, 1, 2, 0, 2])) [[0 0] [0 1] [1 1] [1 2] [2 0] [2 2]]
我们通过 np.transpose()
方法转换后看起来比较直观,注意这里的索引是从0开始算的。
返回输入数组中满足给定条件的元素的索引。
我们来看实例:
import numpy as np b = np.array([[30, 40, 0], [0, 20, 10], [50, 0, 60]]) print(np.char.center(‘调用 where() 函数‘, 20, ‘*‘)) print(np.where(b > 20)) print(np.transpose(np.where(b > 20))) # 返回 ***调用 where() 函数**** (array([0, 0, 2, 2]), array([0, 1, 0, 2])) [[0 0] [0 1] [2 0] [2 2]]
这里面我们输入的条件是大于20,数组中大于20的数的索引都被查找出来了。
根据某个条件从数组中抽取元素,返回满条件的元素。
我们来看实例:
import numpy as np x = np.arange(9.).reshape(3, 3) print(np.char.center(‘我们的数组是‘, 20, ‘*‘)) print(x) # 定义条件, 选择偶数元素 condition = np.mod(x, 2) == 0 print(np.char.center(‘按元素的条件值‘, 20, ‘*‘)) print(condition) print(np.char.center(‘使用条件提取元素‘, 20, ‘*‘)) print(np.extract(condition, x)) # 返回 *******我们的数组是******* [[0. 1. 2.] [3. 4. 5.] [6. 7. 8.]] ******按元素的条件值******* [[ True False True] [False True False] [ True False True]] ******使用条件提取元素****** [0. 2. 4. 6. 8.]
例子中,我们先定义了一个条件,就是选择偶数。然后我们可以打印这个数组每个元素是否满足条件。最后我们调用 extract()
方法返回满足条件的元素。注意这里返回的是元素,而不是元素的索引。
本文向大家介绍了 NumPy 的排序与筛选函数,熟练掌握和运用这些函数可以很轻松地帮助我们达到特定的目标,而不用自己去重复造轮子。大家在后续的代码中遇到类似的情况应该要优先想到这些函数。
https://numpy.org/devdocs/reference/routines.sort.html
文中示例代码:python-100-days
关注公众号:python技术,回复"python"一起学习交流
要知道时间复杂度只是描述一个增长趋势,复杂度为O的排序算法执行时间不一定比复杂度为O长,因为在计算O时省略了系数、常数、低阶。实际上,在对小规模数据进行排序时,n2的值实际比 knlogn+c还要小。