質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.37%

[Python3] numpy, series, dataframeで、1列のデータをまとめて比較したい(loopを使わずに)

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,026

score 1359

実現したいこと

a = np.array([None, None, 1, 3])
b = np.array([True, 'hoge', 2, 0])

# ...ここで何か計算してcに代入
# 内容としては、a が None なら、同じ index の位置にある b の値を c に代入する
# a が None 以外なら b の値は無視する

print(c)
=> [True, 'hoge', 1, 3]


上記のような処理を実装したいのですが方法がわかりません。
for や while を使用すれば簡単に実装できることはわかっていて既に実装済みですが、それを使うつもりはありません。
何万回もloopが発生するため、処理時間がかかかり過ぎてしまうためです。

そうではなく、numpy配列の特性を利用して、applyメソッドなどを利用してまとめて計算したいと考えています。

numpyは次のような計算ができると聞いています

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = a + b

print(c)
=> [5, 7, 9]


このように、まとめて計算したいのです。
また、numpyに限らず、series や dataframe列同士の演算でも同じことを実現したいと考えています。

補足

もう一度書いておきますが、for や while といった loop は処理速度に問題が生じるため使いたくありません。

a = np.array([None, None, 1, 3])
b = np.array([True, 'hoge', 2, 0])
c = []

for (a_i, b_i) in zip(a, b):
    c.append(a_i or b_i)

print(c)


こんな感じで実装できそうなことはなんとなくわかっていますが、こういったloop処理の速度を改善するために質問しております。

参考資料の提示のみでも構いません

お手数ですが、こういった処理方法が書かれている本やwebサイトがありましたら、それをご教示いただけるだけでも構いません。

また、「Pythonによるデータ分析入門 Numpy, pandas を使ったデータ処理」は所有しておりますので、記載されている該当ページをご教示いただくだけでも構いません(私は見つけられませんでした)....

ご協力お願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

numpyのvectorizeかfrompyfuncを使う方法があると思います。
が、型が混在する配列の場合はfrompyfunc一択のようです。

import numpy as np

f = np.vectorize(lambda _a, _b: _a or _b)

a = np.array([None, None, 1, 3])
b = np.array([True, 'hoge', 2, 0])

r = f(a,b)
print(r)
print([type(_r) for _r in r ])

f = np.frompyfunc(lambda _a, _b: _a or _b, 2, 1)
r = f(a,b)

print(r)
print([type(_r) for _r in r])
['True' 'hoge' '1' '3']
[<class 'numpy.str_'>, <class 'numpy.str_'>, <class 'numpy.str_'>, <class 'numpy.str_'>]
['True' 'hoge' 1 3]
[<class 'str'>, <class 'str'>, <class 'int'>, <class 'int'>]

参考記事:Python高速化実験~map関数とか~

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/09/22 11:35

    今回教えていただいたようなメソッドはどうやって学ばれたのですか?
    本やwebの解説サイトではなく、公式documentを検索されているのでしょうか?

    キャンセル

  • 2019/09/22 12:13

    いろんなキーワードでググって見つけました。今回の関数についてはきっかけは
    https://teratail.com/questions/209337
    の質問で、配列の各要素を使って関数呼び出すを行うにはどうしたらよいかを考え
    「Python 配列 各要素 関数」でググり、vectorizeを見つけました。
    そして、使い方を確認するため「Python vectorize」で探して参考記事のサイトを見つけました。
    ぷっちゃけるとまだPython初心者です。

    キャンセル

  • 2019/09/22 17:28

    まさかのweb検索でしたか!

    プログラミングの上達には検索スキルが必要だとよく先輩方に言われ、自分なりに頑張ったつもりでしたが、、まだまだでした。
    私も頑張りたいと思います。
    回答ありがとうございました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る