pandasで取り込んだCSVファイルのすべての要素に対して、特定の文字列が含まれているかを確認したい。

やりたいことと現在の問題

お世話になります。
VBAより引数（filename,keyword,n）を渡してPythonで処理をするプログラムを作成していますが、実行時にエラーが発生しています。

問題の部分は以下のコードだと認識しています。
sum = len(df[df.iloc[:,:].astype(str).str.contains(keyword,na=False)])
「df.iloc」[:,:]で、2次元配列のすべての要素に対して処理をしている認識です。
なお、「df.iloc[:,0]」とした場合、0列に含まれる要素はカウントできました。

読み込んでいるCSVファイルはカラム数が一定ではなく、また、文字列と数字が混在しているものとなります。
そのため、数字を読み込んだ際に以下のエラーが表示されているのではないかと考えておりますが、
正しい書き方がわからず、アドバイスをいただけると幸いです。

よろしくお願いします。

Python
1#SEARCHWORD.py
2import os
3import sys
4import pandas as pd
5import xlwings as xw
6
7def Search(file,keyword,n):
8   # これをカラム名にする
9   col_names = [ 'c{0:02d}'.format(i) for i in range(90) ]
10   
11   df = pd.DataFrame()
12   df = pd.read_csv(file, names=col_names)
13   
14   #アクティブブックのシート管理インスタンスを返す
15   wss = xw.sheets
16   
17   #検索結果はDFで帰ってくるのでlenで行数取得
18   sum = len(df[df.iloc[:,:].str.contains(keyword,na=False)])
19   wss("キーワード検索結果").cells(int(n),3).value = sum

エラーメッセージ

Error

Traceback (most recent call last):
File "<string>", line 1, in <module>
File "c:\users\desktop\work\python\SEARCHWORD.py", line 19, in Search
sum = len(df[df.iloc[:,:].str.contains(keyword,na=False)])
File "C:\Users\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\generic.py", line 5465, in getattr
return object.getattribute(self, name)
AttributeError: 'DataFrame' object has no attribute 'str'

行動規範の内容に同意します

回答2件

ベストアンサー

すべての要素に対して、特定の文字列が含まれているかを確認したい。

での要素というのが、表形式のデータにおける各セルを意味しているのであれば
以下のように列毎にループ処理して積算していけばよいかと思います。

Python
1import pandas as pd
2
3# テストデータ
4df = pd.DataFrame({'c1':['ab','bc','cd'], 'c2':['bc','cd','de'], 'n':[1,2,3]})
5print(df)
6#   c1  c2  n
7#0  ab  bc  1
8#1  bc  cd  2
9#2  cd  de  3
10
11keyword = 'b'
12cnt = 0
13for c in df.columns:
14    try:
15        cnt += df[c].str.contains(keyword, na=False).sum()
16    except AttributeError: # 列の型が文字以外
17        pass
18
19print(cnt) # 3

投稿2021/05/26 08:58

can110

総合スコア38262

退会済みユーザー

2021/05/26 23:54

ご回答いただき、ありがとうございました。ご教示いただいたコードで実現したいことができました。エラー処理の書き方についても知見がなかったため、大変勉強になりました、

行動規範の内容に同意します

Pandasでは、str属性を持っているのはSeriesであって、DataFrameではありません。
キーワードがどれかの列に入っているのを判定するのであれば、列ごとに判定してその論理和を取らなければなりません。

少し手を抜いて良ければ、以下でもだいたい動くでしょう。

len(df[df.astype(str).sum(axis=1).str.contains(keyword,na=False)])

これは、各列の文字列を全部連結して、そこにキーワードが入っている行数を調べています。
だいたい動くという意味は、"ABC"と"DEF"が隣り合っている場合、連結すると"ABCDEF"となり、検索キーが"ABCD"でも検出してしまうことです。こういうパターンがある場合にはcan10さんの書かれているように列ごとに判定する方法を使ってください。そういうパターンがなければ連結の方が楽でしょう。

投稿2021/05/26 08:50

編集2021/05/26 23:14