Python的迭代器和生成器

Python Version:3.5+

生成器

一个函数调用时返回一个迭代器(可迭代的对象),那这个函数就叫做生成器(generator);如果函数中包含yield语法,那这个函数就会变成生成器;

在函数中,有return语句,在执行函数的时候,一旦执行到return语句,函数会立即返回结果并退出函数;而如果使用了yield语句,当函数执行到yield时,会立即将yield后的值返回,并等待下一次调用。

形象点来说,return相当于按下了停止键;而yield相当于按下了暂停键。他们之间的区别就在于,暂停键是可以继续播放的,而停止了之后再播放需要从头播放。

感受一下生成器

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def func():
yield 1
yield 2
yield 3
yield 4

f = func()

print(type(f))
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())

------------
1
2
3
4
Traceback (most recent call last):
File "/Users/lvrui/PycharmProjects/untitled/5/test.py", line 85, in <module>
print(f.__next__())
StopIteration

这里的f.__next__()就相当于“播放”键,每执行一次,都会让函数从上次停止的位置继续执行。函数中,定义了一共可以有四次暂停键,而我在调用时,按了五次播放键,到最后,抛出了StopIteration异常,说明该迭代对象已经遍历完毕。

实例:将列表进行拆分,例如[1, 2, 3]拆分成[1, 2] [2, 3]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def mylist(li):
for i in range(len(li) - 1):
yield (li[i], li[i + 1])

li = [1, 2, 3, 4, 5, 6]

generator_list = mylist(li)
print(generator_list)

for i in generator_list:
print(i)

------------
<generator object mylist at 0x101380888>
(1, 2)
(2, 3)
(3, 4)
(4, 5)
(5, 6)

迭代器

迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退,不过这也没什么,因为人们很少在迭代途中往后退。另外,迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素。迭代器仅仅在迭代到某个元素时才计算该元素,而在这之前或之后,元素可以不存在或者被销毁。这个特点使得它特别适合用于遍历一些巨大的或是无限的集合,比如几个G的文件

特点:

  • 访问者不需要关心迭代器内部的结构,仅需通过next()方法不断去取下一个内容
  • 不能随机访问集合中的某个值 ,只能从头到尾依次访问
  • 访问到一半时不能往回退
  • 便于循环比较大的数据集合,节省内存

如何判断是否是可迭代对象

1
2
3
4
5
>>> i = iter([1,2,3,4,5])
>>> i
<list_iterator object at 0x1032fa390>
>>> dir(i)
['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__length_hint__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__']

一个对象中,同时拥有__iter__ __next__这两个方法的对象就是可迭代对象。

迭代对象靠什么迭代?靠__next__方法进行迭代。而Python中的for循环语句,内部帮我们调用了对象的__next__方法,而且帮我们自动捕获了StopIteration异常。So for循环就是Python中的迭代器