質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.96%

Python 2つのcsvファイル内の文字列の差を得たい

解決済

回答 3

投稿

  • 評価
  • クリップ 1
  • VIEW 726

score 15

 前提・実現したいこと

現在、自然言語処理の学習をしていますが、困っています。
jupyter notebook上でpythonを使いcsvファイルの処理をしています。

コンマで区切られた文字列が、多く入っている2つのcsvファイルがあります。

あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま
一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬
,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具

csv2の中身は夏目漱石の物語に出てくる名詞を抽出したデータなのですが、余計な言葉(ストップワード)がたくさんはいってしまっています。
なので、csv1に用意した定型のようなストップワードリストを使って、csv2のファイルの中からcsv1内の文字列を削除したいです。

最終的にやりたいことは、csv2 - csv1 = csv3 の式のようにcsv3を作成したいです。
csv2の文字列からcsv1と一致する文字列をすべて削除し、削除したファイルを作成したいということです。

 試したこと

qiitaなどの記事を多く読み調べてみましたが、わかりませんでした。
すみません!

よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+1

簡単な例でやってみましょう。

a = [0,1,2,3,4,5,6,7,8,9]
b = [0,5,8]

result = [x for x in a if x not in b]
print(result)  # => [1, 2, 3, 4, 6, 7, 9]

このコードは(ある程度pythonに慣れていれば)難しいとは思わないと思います。

あとはaとbを単語のリストにして、同じことをすれば良いのですね。

単語のリストは、csvを文字列として読み込んで、カンマで区切れば恐らく得られます(もしかしたら改行文字が絡んでくるのかもしれませんが)。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/09/09 17:18

    上手く行きました!ありがとうございます!!

    キャンセル

+1

csv1とcsv2がそれぞれuniqueな文字列の集合ならば、setを使うと差集合とか和集合を簡単に扱えますよ。ただし頻度情報が失われるのと、要素の並びは不定にります。昇順等にしたければsetからlistに戻す方法があります。
(強調部分、hayatakaさんのコメントを受けて追記)

たとえば、
https://note.nkmk.me/python-set/

s1 = "あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま"
s2 = "一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具"

csv1 = set(s1.split(","))
csv2 = set(s2.split(","))

csv3 = csv2 - csv1

print(*csv3, sep=",")
# 屋,人間,丁半,銀杏,軒,時間,首,ほか,圭,事,もの,歩行,本,垂,門前,巧み,樹,村,感心,珍,君,さん,げ,石,鍛冶,それ,道具,本堂,非常,何,寺,真直,町,所,一,妙,前,どこ,両手,沓,の,馬,ところ,大概,まま,はず

# 並び順をコントロールしたければ、もう一度リストに戻してsortする
csv3_list = list(csv3)
csv3_list.sort()

print(*lst, sep=",")
# げ,さん,それ,ところ,どこ,の,はず,ほか,まま,もの,一,丁半,両手,事,人間,何,前,君,圭,垂,大概,妙,寺,屋,巧み,感心,所,時間,本,本堂,村,樹,歩行,沓,珍,町,真直,石,軒,道具,銀杏,鍛冶,門前,非常,首,馬

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/09/04 21:22

    後ろで頻度情報に変換して取り扱う可能性があるので、ちょっとまずいような気も

    キャンセル

  • 2018/09/04 21:26

    そう言われればそうですね。頻度情報を求めるなら、このタイミングでは処理せずにCounterで全部回してから該当のキーを消すほうが速そうですね。

    キャンセル

  • 2018/09/09 17:17

    ご回答ありがとうございます!参考にさせていただきました。Python文法忘れてるなと感じました、勉強します

    キャンセル

0

あまり副作用を考えていないようにも見受けられるので、
mecabなど形態素解析ライブラリの辞書にストップワードを入れて、
適当な品詞を設定
形態素解析時に、不要な品詞を取り除く

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.96%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る