質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.59%

python: pandasで、特定の文字列が出現する回数を数えたい

解決済

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 1,150

tanaka_shota

score 19

データ構造として、ある1つの列について、縦にそれぞれ、
a b c
a b
a c
a d
a
a c
b c

というように並んでいます。これらは、a b cであっても1つのcellに収納されています。
調べたところ、.countを用いれば数えることができるようでしたが、検索するのはcell単位で、そのcellの中に複数の文字(a b c)がある場合は、それぞれについて数えることができませんでした。
具体的には、
a b c :1
a c :2



となります。
しかし私は出力として、
a: 6
b: 3
c: 4
d: 1
としたいです。
どうすればいいでしょうか。最悪の場合、コピペして、ブラウザでctrl+fで検索してそれで出現回数を見ようと思ってます…

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • hayataka2049

    2018/11/11 20:25

    a b cは文字通りa b c(一文字のアルファベット)でしょうか? また、セル内で半角スペース区切りになっているという解釈で良いですか?

    キャンセル

  • hayataka2049

    2018/11/11 20:38

    生のcsvのサンプルを頂けると手っ取り早いです(ダミーデータでも構いませんが、オリジナルと同じフォーマットでお願いします)

    キャンセル

  • tanaka_shota

    2018/11/11 20:38

    a b cは実際には、a=ベンゼン、 b=トルエン などと化合物の名前が該当しています。セル内では、半角スペース区切りとなっています。よろしくおねがいします。

    キャンセル

  • tanaka_shota

    2018/11/11 20:57

    例としてこうなっています。よろしくお願いします。http://www.sharecsv.com/s/563bcc51e6df31c035a4a38c551f94aa/data.csv

    キャンセル

回答 3

checkベストアンサー

+3

質問にあるデータが収まっている列に対して Series.str.split(expand=True) することで 各文字をセルに納めることができますので、あとはunstack()して、value_counts() で数え上げてください。

import pandas as pd
df = pd.DataFrame({'data':['a b c','a b','a c','a d','a','a c','b c']})

result = df['data'].str.split(expand=True).unstack().value_counts()
print(result)
#a    6
#c    4
#b    3
#d    1
#dtype: int64

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/11/11 21:10

    皆様、ありがとうございました。大変勉強になりました。

    キャンセル

+1

pandasに拘らないのなら、collections.Counterが便利です。

from collections import Counter

with open('src.dat') as fin:
    data = []
    for row in fin:
        data += row.split()

counter = Counter(data)
for k, v in counter.most_common():
    print(f'{k}: {v}')

実行結果 Wandbox

a: 6
c: 4
b: 3
d: 1

データの拡張子がcsvでも全く問題なく扱えます。
エクセルファイルなど複雑な書式であるなら、pandasを経由する必要もありそうです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

すでにDataFrameになっているとして、

>>> import pandas as pd
>>> df = pd.DataFrame({0:["hoge fuga", "hoge fuga piyo", "fuga piyo", "piyo"]})
>>> df
                0
0       hoge fuga
1  hoge fuga piyo
2       fuga piyo
3            piyo

無理やりスペース区切りでsplit→flattenしてみます。この時点でpandasは捨てて標準のpythonで処理する方針です。

>>> lst = [y for x in df[0].str.split() for y in x]
>>> lst
['hoge', 'fuga', 'hoge', 'fuga', 'piyo', 'fuga', 'piyo', 'piyo']

あとはcollections.Counterで。

>>> from collections import Counter
>>> Counter(lst)
Counter({'piyo': 3, 'fuga': 3, 'hoge': 2})

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.59%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る