文字列の中にdataframeと部分一致する要素の情報の取得方法を教えてください。
退会済みユーザー
総合スコア0

Question

```
csvファイル

ゴリラ,パンダ,ニワトリ
インコ,サル,カワウソ
キリン,ワニ,ゾウ
```
```Python
import pandas

#実際のcsvファイルには、列名ないのでheader=Noneで自動で列名を付ける設定にしています。
df = pandas.read_csv("csvファイル",header=None)
#全ての要素に対してラムダ式を使ってfindで検索かける
s = df.applymap(lambda x: "検索ワード".find(str(x)))
#ヒットしない要素には-1が表示されヒットしたものは-1以外の数字が表示される（dataframeの2列目以降をfindしたときの数字の意味がわからない）
print(s)
#-1以外の数字が入ってる要素の行列を求める（分からない）
```
上の要領で検索していけばいいのですが、その―1以外の要素の行列の取得ができません。
もしかしたら
s = df.applymap(lambda x: str(x).find("検索ワード"))
とデータフレームを数字に変えなくても、検索キーワードに一致する要素を見つけれる方法があるかもしれません。

追記

前提条件として、
文字列の長さは
検索ワード>=データフレームの要素
検索ワードは"サル"といった単語のみや
"ワニ　クジラ"といった複数単語
"ワニが逃げた"といった短文だったりします。

期待する抽出内容として、
検索ワードは"ワニとサル"とすると、
ワニとサルがある行数と列数を取得する。
または、ヒットした単語の行にある他の要素の単語を取得したいです。
ワニならキリン,ゾウ
サルならインコ,カワウソ

最初の投稿でtsvファイルを扱うと書きましたが、CSVファイルを扱うことが分かったので変更しました。

Accepted Answer

もしかして見当違いかもしれませんが、やりたいことはこんな感じでしょうか？

- データフレームの中から、検索キーワード "A" を含む値を持つ行(row) を抽出する 


```python
from io import StringIO
import pandas as pd
import numpy as np

TESTDATA = StringIO("""col1,col2,col3
BA,B,C
B,B,C
C,C,AB""")

df = pd.read_csv(TESTDATA)
print(df)

df2 = df.applymap(lambda x:True if 'A' in x else np.nan)
df2 = df2.dropna(axis=0, how='all')

df = df[df.index.isin(df2.index)]
df = df.reset_index(drop=True)

print(df)
```

実行結果
```
  col1 col2 col3
0   BA    B    C
1    B    B    C
2    C    C   AB

↓ # 文字列 "A" を含む値がある行を絞り込み

  col1 col2 col3
0   BA    B    C
1    C    C   AB
```

Answer

まず、現状は ``applymap()`` を使用して、全てのセル値に対して lambdaにて ``str.find()``を実行しているようですが、``apply()``を使って列毎のデータ(Series)を取り出して、``pandas.Series.str``  (Siriesデータ内の文字列に対するAccessor)を使ったほうが良いかと思います。

この方法を使うと

- 列毎に処理できるので（たぶん）高速
- 文字列以外の値を無効(NaN)にしてくれるので、文字列に変換する部分が不要

といったメリットがあります。

また、``pandas.Series.str`` には ``find()``以外に ``contains()`` というメソッドがあり、戻り値がBool値なので文字列が含まれているかどうかの判定にはこちらの方が直感的です。

ということで、サンプルです。

```Python
import pandas as pd
import numpy as np

df = pd.DataFrame([['aAAa', 'AAa', ''],[99, 'aAa', np.nan]])

ret = df.apply(lambda d: d.str.contains('AA'))
print(ret)
#       0      1      2
# 0  True   True  False
# 1   NaN  False    NaN

# 引数に を na=False を渡すと NaN 部を Falseにできる
ret = df.apply(lambda d: d.str.contains('AA', na=False))
print(ret)
#        0      1      2
# 0   True   True  False
# 1  False  False  False
```

Answer

tsvファイルの読み込みがよろしくないのではないでしょうか。
http://www.mwsoft.jp/programming/numpy/pandas_csv.html

---

追記：
見当はずれの指摘で申し訳ありません。
お詫びにベストアンサーのちょっとダイエットした版を添えておきます。

```python
from io import StringIO
import pandas as pd
import numpy as np

TESTDATA = StringIO("""col1,col2,col3
BA,B,C
B,B,C
C,C,AB""")

df = pd.read_csv(TESTDATA)
print(df)


mask = df.applymap(lambda x:True if 'A' in x else False).values

new_df = df[mask].reset_index(drop=True)


print(new_df)
```

関連した質問