質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
for

for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

if

if文とは様々なプログラミング言語で使用される制御構文の一種であり、条件によって処理の流れを制御します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

959閲覧

[Python3.X/Pandas]自前のキーワードリストから、2つの条件(文字列が含まれるか)で突合させDataFrameに結合させたい。

Chileno

総合スコア7

for

for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

if

if文とは様々なプログラミング言語で使用される制御構文の一種であり、条件によって処理の流れを制御します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/06/26 02:41

前提・実現したいこと

Windows10でPython3.XにてPandasを使用しています。またJupiter notebookを使用してコーディングしています。

以下AとBの2種類のexcelデータを使用しています。

A. キーワードリスト:①名寄せしたお店の名前、②キーワード(商品)、③グループ名

B. 突合先:①名寄せされていないお店の名前、②販売している商品、(③グループ名)

Bの突合先にある①と②にAの①と②が含まれている場合、Aの③グループ名をBの②の右にAppendしていきたいです。

いずれも含まれていない場合、「不明」という文字をグループ名の代わりに割り当てたいと考えています。

【キーワードリストイメージ】
店名(名寄せ) 商品キーワード   グループ名
|八百屋    |ぶどう      |果物|
|八百屋    |セロリ      |野菜|
|魚屋     |さんま      |青魚|
|魚屋     |キハダ      |マグロ|
|魚屋     |めかぶ      |海藻|


【突合先最終イメージ】
店名     商品     グループ名(追加したい列)
|八百屋〇〇店|ぶどう三十個 |果物|
|魚屋駅前店 |新鮮なさんま |青魚|
|魚屋駅前北口|美味しいわかめ|不明|


実装中に以下のエラーメッセージが発生しました。アドバイスいただけますと幸いです。

発生している問題・エラーメッセージ

--------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-71-70dbd114baf3> in <module> 5 category_list.append('不明') 6 for j in range(len(tdata_k)): ----> 7 if tdata_s[j] in df_s2[i] & tdata_k[j] in df_d[i]: 8 category_list[i] = tdata_c[j] TypeError: unsupported operand type(s) for &: 'str' and 'str'

該当のソースコード

Python

1#df_d : B.突合先の②販売している商品 2#df_s2 : B.突合先の①お店の名前 3#tdata_k : A.キーワードリストの②キーワード名 4#tdata_s : A.キーワードリストの①名寄せされたお店の名前 5#tdata_c : A.キーワードリストの③グループ名 6 7df_d = df3['商品名'].values.tolist()#上述B突合先の②にあたる。リストにしてから処理。 8df_s2 = df3['店名'].values.tolist()#上述B突合先の①にあたる。リストにしてから処理。 9category_list = []#上述Bの(③グループ名にあたる)。先に空のリストを作成。 10for i in range(len(df_d)):#for文の範囲は上述B突合先。 11 category_list.append('不明')#最初に不明を代入しておく。 12 for j in range(len(tdata_k)):#for文の範囲は上述Aキーワードリスト。 13 if tdata_s[j] in df_s2[i] & tdata_k[j] in df_d[I]:#キーワードリストのにそれぞれが該当した場合以下の処理。 14 category_list[i] = tdata_c[j]#不明と代入されているはずの場所にグループ名を代入。突合できなければそのまま。 15

試したこと

不明とするのをbreakなどを駆使して最後に行おうとしたのですがうまくいかず。
また、if文を「&」ではなく「and」で繋いでもうまくいかず。
最終的にこの形になりました。

補足情報(FW/ツールのバージョンなど)

Python 3.7
Pandas

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

下の2つの例を見ていただければ分かると思うのですが、
上は真偽値&真偽値という構造なのに対して、下は括弧が足りておらず途中で文字列 & 文字列という処理をしようとしてエラーになっています。

python3

1print(("a" in "abc") & ("b" in "abc")) 2# True

python3

1print("a" in "abc" & "b" in "abc") 2# TypeError: unsupported operand type(s) for &: 'str' and 'str'

なので、質問文の処理も下の方にしてやれば良さそうな感じですが、試してみてください。

python3

1 if (tdata_s[j] in df_s2[i]) & (tdata_k[j] in df_d[i]):

投稿2020/06/26 06:31

編集2020/06/26 06:33
jeanbiego

総合スコア3966

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Chileno

2020/06/26 11:40

ありがとうございました。さっそく試してみます。
Chileno

2020/06/26 11:43

試してみたのですが、すぐにエラーが発生してしまいました。
jeanbiego

2020/06/27 02:04

どんなエラーでしょう
Chileno

2020/06/28 12:28

お付き合いいただきありがとうございます。 TyepError: 'in<string>' requires string as left operand, not float と出ました。
jeanbiego

2020/06/28 12:36

文字列ではなくfloatを検索しようとしています。それぞれの変数の中身をprint使うなりなんなり確認してみてください。設計通りの型になっていますか?
Chileno

2020/06/28 12:53

確認したところ変数iが1、変数jが61628で止まっていたため、それぞれの61628番目の情報を確認したところnanが混じっていました。 少なくとも61628番目までは教えていただいた回答で処理できていますのでベストアンサーにさせてください。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問