リスト内包表記の中でのif文の使用の仕方が分かりません

Question

### 実現したいこと test2.csvは以下のようなファイルです。 ``` t x y 0 10 20 1 11 21 2 12 22 3 13 23 ``` 今、t≦1のときz=x、t>1のときz=y、と定義したzの値をyの右側に加えたいです。つまり、欲しい結果は以下の通りです。 ``` t x y z 0 10 20 10 1 11 21 11 2 12 22 22 3 13 23 23 ``` 「該当のソースコード」ではエラーが出てしまいました。どなたかコードを直してください。 ### 発生している問題・エラーメッセージ ``` Traceback (most recent call last): File "〇〇〇 estCV659teratail2.py", line 5, in df['z'] = [(b if df['t'] > 1 else a) for a, b in zip(df['x'], df['y'])] ^^^^^^^^^^^ File "〇〇〇\site-packages\pandas\core\generic.py", line 1580, in __nonzero__ raise ValueError( ...<2 lines>... ) ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). ``` ### 該当のソースコード ```python import pandas as pd df = pd.read_csv('test2.csv') df['z'] = [(b if df['t'] > 1 else a) for a, b in zip(df['x'], df['y'])] print(df) ``` ### 試したこと zip関数に慣れていなくて、よく分かりませんでした。 googleのAIによる下記のコードを参考にしました。 ```python list_a = [0, 1, 2, 3] list_b = [10, 20, 30, 40] # t (a) > 1 なら b*2、そうでなければ b のままにする result = [(a, b * 2 if a > 1 else b) for a, b in zip(list_a, list_b)] print(result) # 出力: [(0, 10), (1, 20), (2, 60), (3, 80)] ```

Accepted Answer

以前の質問と同様に `numpy.where()` を使います。
```python
import pandas as pd
import numpy as np

df = pd.read_csv('test2.csv')

df['z'] = np.where(df['t'] > 1, df['y'], df['x'])

print(df)

#    t   x   y   z
# 0  0  10  20  10
# 1  1  11  21  11
# 2  2  12  22  22
# 3  3  13  23  23
```

### 追記

List comprehension を使う場合は `df['t']` もループ変数(`t`)に割り当てます。
```python
import pandas as pd
import numpy as np

df = pd.read_csv('test2.csv')

df['z'] = [(b if t > 1 else a) for t, a, b in zip(df['t'], df['x'], df['y'])]

print(df)
```

Answer

既に解決済みなので御参考です。

今回のケースでは，既に回答されているように numpy の `where()` 関数や pandas の `where()` メソッド，[mask() メソッド](https://pandas.pydata.org/docs/reference/api/pandas.Series.mask.html) などを用いるのが簡明で処理時間も短くなります。

一方，リスト内包表記のように行内の計算式がわかる記述をしたいのであれば，[apply() メソッド](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) を `axis=1` とともに用いる方法も考えられますが，処理時間については（追記）を参照ください。

記述例を下記に示します。

```Python
import pandas as pd

df = pd.DataFrame({'t': [0, 1, 2, 3],
                   'x': [10, 11, 12, 13],
                   'y': [20, 21, 22, 23]})

# df['z'] = df['x'].mask(df['t'] > 1, df['y'])
df['z'] = df.apply(lambda r: r['y'] if r['t'] > 1 else r['x'], axis=1)

print(df)
#    t   x   y   z
# 0  0  10  20  10
# 1  1  11  21  11
# 2  2  12  22  22
# 3  3  13  23  23
```

（追記）

行数を10万行に増やして処理時間を比較をしてみたところ，apply() メソッドはリスト内包表記よりもかなり遅いようです（上記回答は一部訂正しました）。なお，環境は「macOS（M1）15.7.3，Python 3.13.11，pandas 3.0.0」です。

mask() メソッド:  0.0012 s
リスト内包表記:   0.0277 s
apply() メソッド: 0.2940 s

```Python
import pandas as pd
import time

n = 100000

df = pd.DataFrame({'t': list(range(0, n)),
                   'x': list(range(10, n + 10)),
                   'y': list(range(20, n + 20))})

start = time.perf_counter()

# df['z'] = df['x'].mask(df['t'] > 1, df['y'])
# df['z'] = [y if t > 1 else x for t, x, y in zip(df['t'], df['x'], df['y'])]
df['z'] = df.apply(lambda r: r['y'] if r['t'] > 1 else r['x'], axis=1)

end = time.perf_counter()
print(f'{(end - start):.4f} s')
```

Answer

Windows 11、Python 3.14.2で確認しました。

[以前の質問](https://teratail.com/questions/mfuc94aqgb9o5a)と同様にNumpyは不要です。
```Python
df['z'] = df['y'].where(df['t'] > 1, df['x'])
```

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

追記

関連した質問