質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

1406閲覧

pandasで取り込んだCSVファイルのすべての要素に対して、特定の文字列が含まれているかを確認したい。

退会済みユーザー

退会済みユーザー

総合スコア0

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/05/26 08:20

やりたいことと現在の問題

お世話になります。
VBAより引数(filename,keyword,n)を渡してPythonで処理をするプログラムを作成していますが、実行時にエラーが発生しています。

問題の部分は以下のコードだと認識しています。
sum = len(df[df.iloc[:,:].astype(str).str.contains(keyword,na=False)])
「df.iloc」[:,:]で、2次元配列のすべての要素に対して処理をしている認識です。
なお、「df.iloc[:,0]」とした場合、0列に含まれる要素はカウントできました。

読み込んでいるCSVファイルはカラム数が一定ではなく、また、文字列と数字が混在しているものとなります。
そのため、数字を読み込んだ際に以下のエラーが表示されているのではないかと考えておりますが、
正しい書き方がわからず、アドバイスをいただけると幸いです。

よろしくお願いします。

Python

1#SEARCHWORD.py 2import os 3import sys 4import pandas as pd 5import xlwings as xw 6 7def Search(file,keyword,n): 8 # これをカラム名にする 9 col_names = [ 'c{0:02d}'.format(i) for i in range(90) ] 10 11 df = pd.DataFrame() 12 df = pd.read_csv(file, names=col_names) 13 14 #アクティブブックのシート管理インスタンスを返す 15 wss = xw.sheets 16 17 #検索結果はDFで帰ってくるのでlenで行数取得 18 sum = len(df[df.iloc[:,:].str.contains(keyword,na=False)]) 19 wss("キーワード検索結果").cells(int(n),3).value = sum

エラーメッセージ


Error

Traceback (most recent call last):
File "<string>", line 1, in <module>
File "c:\users\desktop\work\python\SEARCHWORD.py", line 19, in Search
sum = len(df[df.iloc[:,:].str.contains(keyword,na=False)])
File "C:\Users\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\generic.py", line 5465, in getattr
return object.getattribute(self, name)
AttributeError: 'DataFrame' object has no attribute 'str'

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

すべての要素に対して、特定の文字列が含まれているかを確認したい。

での要素というのが、表形式のデータにおける各セルを意味しているのであれば
以下のように列毎にループ処理して積算していけばよいかと思います。

Python

1import pandas as pd 2 3# テストデータ 4df = pd.DataFrame({'c1':['ab','bc','cd'], 'c2':['bc','cd','de'], 'n':[1,2,3]}) 5print(df) 6# c1 c2 n 7#0 ab bc 1 8#1 bc cd 2 9#2 cd de 3 10 11keyword = 'b' 12cnt = 0 13for c in df.columns: 14 try: 15 cnt += df[c].str.contains(keyword, na=False).sum() 16 except AttributeError: # 列の型が文字以外 17 pass 18 19print(cnt) # 3

投稿2021/05/26 08:58

can110

総合スコア38262

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2021/05/26 23:54

ご回答いただき、ありがとうございました。 ご教示いただいたコードで実現したいことができました。 エラー処理の書き方についても知見がなかったため、大変勉強になりました、
guest

0

Pandasでは、str属性を持っているのはSeriesであって、DataFrameではありません。
キーワードがどれかの列に入っているのを判定するのであれば、列ごとに判定してその論理和を取らなければなりません。

少し手を抜いて良ければ、以下でもだいたい動くでしょう。

len(df[df.astype(str).sum(axis=1).str.contains(keyword,na=False)])

これは、各列の文字列を全部連結して、そこにキーワードが入っている行数を調べています。
だいたい動くという意味は、"ABC"と"DEF"が隣り合っている場合、連結すると"ABCDEF"となり、検索キーが"ABCD"でも検出してしまうことです。こういうパターンがある場合にはcan10さんの書かれているように列ごとに判定する方法を使ってください。そういうパターンがなければ連結の方が楽でしょう。

投稿2021/05/26 08:50

編集2021/05/26 23:14
ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2021/05/26 23:58

いつも、ご丁寧に回答いただき誠にありがとうございます。 str属性に関するご説明、また、ご教示いただいたコードの注意点、大変勉強になりました。 私の認識(質問のコード)がそもそも間違っていたにも関わらす、ご説明いただき大変感謝しております。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問