2つappendがある場合の内包表記

python
1    ID_list = []
2    name_list =[]
3    for list in data["result"]:
4        if list["index"]%2 == 0:
5            ID_list.append(list["ID"])
6            name_list.append(list["name"])
7    return ID_list,name_list

このように2つのappendがある場合に、1つの内包表記で表すのは可能でしょうか？
不可能であった場合に、2つの内包表記で記載するのと、このままのfor文ではどちらが処理が速いでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

このように2つのappendがある場合に、1つの内包表記で表すのは可能でしょうか？

タプルのリストを生成して、zip関数であとから分離するしかないと思います。（ただし出てくるのはタプルですが）

https://docs.python.jp/3/library/functions.html#zip

ID_list, name_list = zip(*[(temp['ID'], temp['name']) for temp in data if temp['index'] % 2 == 0])

不可能であった場合に、2つの内包表記で記載するのと、このままのfor文ではどちらが処理が速いでしょうか？

% 2 == 0でフィルタしているところがありますが、これで実際にどのぐらい要素が少なくなるか? や、もともとどのぐらい要素数があるか? も加味しないといけないですが、実際問題気にしてもしょうがないレベルだと思います。

Python
1from random import randint
2
3# 1000万要素
4data = [
5    {'index': randint(0, 9999), 'ID': ':08d'.format(randint(0, 999999)), 'name': ':08d'.format(randint(0, 999999))}
6    for _ in range(10_000_000)]
7
8def for_loop():
9    ID_list = []
10    name_list = []
11    for temp in data:
12        if temp['index'] % mod == 0:
13            ID_list.append(temp['ID'])
14            name_list.append(temp['name'])
15    return ID_list, name_list
16
17def comprehension_and_unzip():
18    ID_list, name_list = zip(*[(temp['ID'], temp['name']) for temp in data if temp['index'] % mod == 0])
19    return ID_list, name_list
20
21def comprehension_twice():
22    ID_list = [temp['ID'] for temp in data if temp['index'] % mod == 0]
23    name_list = [temp['name'] for temp in data if temp['index'] % mod == 0]
24    return ID_list, name_list
25
26def reduce_befor_comprehension():
27    reduced = [temp for temp in data if temp['index'] % mod == 0]
28    ID_list = [temp['ID'] for temp in reduced]
29    name_list = [temp['name'] for temp in reduced]
30    return ID_list, name_list

ipythonの%timeitマジックコマンドで計測してみると

In [20]: mod = 2

In [21]: %timeit for_loop()
1.76 s ± 39.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [22]: %timeit comprehension_and_unzip()
2.24 s ± 84.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [23]: %timeit comprehension_twice()
1.99 s ± 19.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [24]: %timeit reduce_befor_comprehension()
1.82 s ± 14.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [25]: mod = 10

In [26]: %timeit for_loop()
985 ms ± 46.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [27]: %timeit comprehension_and_unzip()
1.08 s ± 4.81 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [28]: %timeit comprehension_twice()
1.67 s ± 36.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [29]: %timeit reduce_befor_comprehension()
1.26 s ± 5.84 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Python3系だと素直なforループが最速なことが多いですが（Python2系とは事情が違います）、今回もその通りです。
しかし、1000万件のループで実質0.5秒程度の違いしかないので、「3ヶ月後の自分が読みやすいと思うだろう」という基準で選んでいいと思います。

1億件、10億件というオーダーだと10GB,100GBというメモリ使用量になってくるので、「メモリ使用量を減らす」ことが指標になるはずですし。

投稿2018/09/06 01:02