2つの単語群から共通するものを取り出したい

前提・実現したいこと

Excelにある2つの単語群の中から共通するものを見つけようとしています。

単語群1がa,b,c,d,e,f,g
単語群2がa,c,d,g
だとしたら
a→o
b→x
c→o
d→o
e→x
f→x
g→o
のように表示させようとしています。

発生している問題・エラーメッセージ

単語群1をd1、単語群2をd2として（それぞれSeriesです）、

lis = []
for i in range(d2.shape[0]):
lis.append(d2.iloc[i])
for j in range(d1.shape[0]):
if d1.iloc[j] in lis[-1]:
print(d1.iloc[j]+'\t'+'o')
else:
print(d1.iloc[j]+'\t'+'x')
と実行したら、
a→o
b→x
c→x
d→x
e→x
f→x
g→x
a→x
b→x
c→o
d→x
e→x
f→x
g→x
...
とaからgを4回繰り返してしまい、欲しい結果とは異なってしましました。
何かいい方法をご存知でしたら、教えていただきたいと思います。

該当のソースコード

lis = []
for i in range(df2.shape[0]):
lis.append(df2.iloc[i])
for j in range(df1.shape[0]):
if df1.iloc[j] in lis[-1]:
print(df1.iloc[j]+'\t'+'o')
else:
print(df1.iloc[j]+'\t'+'x')

試したこと

lis[-1]でsetを2つ作り、集合を使って解決しようとしましたが、set(lis[-1])とすると、単語が一文字ずつに分解されたsetになってしまい、うまくいきませんでした...

補足情報（FW/ツールのバージョンなど）

Jupyterでpandasをimportして行なっています。python3系です。

行動規範の内容に同意します

回答2件

ベストアンサー

python
1import pandas as pd
2
3d1 = pd.Series(["a","b","c","d","e","f","g"])
4d2 = pd.Series(["a","c","d","g"])
5
6d1_s = set(d1)
7d2_s = set(d2)
8
9A = d1_s & d2_s
10for word in sorted(d1_s | d2_s):
11    if word in A:
12        print(word, "O")
13    else:
14        print(word, "X")
15        
16""" =>
17a O
18b X
19c O
20d O
21e X
22f X
23g O
24"""

投稿2018/08/28 17:03

hayataka2049

総合スコア30933

ars_lon

2018/08/29 01:11

for文のin の後をsetの和集合にするとうまくいくんですね！シンプルにまとまっていたので、ベストアンサーにさせていただきます。ありがとうございました！

行動規範の内容に同意します

pandas をつかわずに、単純な dict で単語群を表現して、書いてみました。

python3
1import collections
2
3ws = [
4    ['a','b', 'c', 'd', 'e', 'f', 'g'],
5    ['a', 'c', 'd', 'g']
6]
7wall = ws[0] + ws[1]
8print(wall)
9c = collections.Counter(wall)
10print(c)
11
12result = {1: "x", 2: "o"}
13c2 = dict([(k, result[v]) for k, v in c.items()])
14print(c2)
15for k, v in c2.items():
16    print(k, "->", v)
17