Python　２つのcsvファイル内の文字列の差を得たい

前提・実現したいこと

現在、自然言語処理の学習をしていますが、困っています。
jupyter notebook上でpythonを使いcsvファイルの処理をしています。

コンマで区切られた文字列が、多く入っている２つのcsvファイルがあります。

csv1
1あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま

csv2
1一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬
2,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具

csv2の中身は夏目漱石の物語に出てくる名詞を抽出したデータなのですが、余計な言葉(ストップワード)がたくさんはいってしまっています。
なので、csv1に用意した定型のようなストップワードリストを使って、csv2のファイルの中からcsv1内の文字列を削除したいです。

最終的にやりたいことは、csv2 - csv1 = csv3　の式のようにcsv3を作成したいです。
csv2の文字列からcsv1と一致する文字列をすべて削除し、削除したファイルを作成したいということです。

試したこと

qiitaなどの記事を多く読み調べてみましたが、わかりませんでした。
すみません！

よろしくお願いいたします。

行動規範の内容に同意します

回答3件

csv1とcsv2がそれぞれuniqueな文字列の集合ならば、setを使うと差集合とか和集合を簡単に扱えますよ。ただし**頻度情報が失われるのと、**要素の並びは不定にります。昇順等にしたければsetからlistに戻す方法があります。
(強調部分、hayatakaさんのコメントを受けて追記)

たとえば、
https://note.nkmk.me/python-set/

Python
1s1 = "あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま"
2s2 = "一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具"
3
4csv1 = set(s1.split(","))
5csv2 = set(s2.split(","))
6
7csv3 = csv2 - csv1
8
9print(*csv3, sep=",")
10# 屋,人間,丁半,銀杏,軒,時間,首,ほか,圭,事,もの,歩行,本,垂,門前,巧み,樹,村,感心,珍,君,さん,げ,石,鍛冶,それ,道具,本堂,非常,何,寺,真直,町,所,一,妙,前,どこ,両手,沓,の,馬,ところ,大概,まま,はず
11
12# 並び順をコントロールしたければ、もう一度リストに戻してsortする
13csv3_list = list(csv3)
14csv3_list.sort()
15
16print(*lst, sep=",")
17# げ,さん,それ,ところ,どこ,の,はず,ほか,まま,もの,一,丁半,両手,事,人間,何,前,君,圭,垂,大概,妙,寺,屋,巧み,感心,所,時間,本,本堂,村,樹,歩行,沓,珍,町,真直,石,軒,道具,銀杏,鍛冶,門前,非常,首,馬

投稿2018/09/04 12:19

編集2018/09/04 12:29

tachikoma

総合スコア3601

hayataka2049

2018/09/04 12:22

後ろで頻度情報に変換して取り扱う可能性があるので、ちょっとまずいような気も

tachikoma

2018/09/04 12:26

そう言われればそうですね。頻度情報を求めるなら、このタイミングでは処理せずにCounterで全部回してから該当のキーを消すほうが速そうですね。

ul_

2018/09/09 08:17

ご回答ありがとうございます！参考にさせていただきました。Python文法忘れてるなと感じました、勉強します

行動規範の内容に同意します

ベストアンサー

簡単な例でやってみましょう。

python
1a = [0,1,2,3,4,5,6,7,8,9]
2b = [0,5,8]
3
4result = [x for x in a if x not in b]
5print(result)  # => [1, 2, 3, 4, 6, 7, 9]

このコードは（ある程度pythonに慣れていれば）難しいとは思わないと思います。

あとはaとbを単語のリストにして、同じことをすれば良いのですね。

単語のリストは、csvを文字列として読み込んで、カンマで区切れば恐らく得られます（もしかしたら改行文字が絡んでくるのかもしれませんが）。

投稿2018/09/04 12:06

hayataka2049

総合スコア30933

ul_

2018/09/09 08:18

上手く行きました！ありがとうございます！！

行動規範の内容に同意します

あまり副作用を考えていないようにも見受けられるので、
mecabなど形態素解析ライブラリの辞書にストップワードを入れて、
適当な品詞を設定
形態素解析時に、不要な品詞を取り除く

投稿2018/09/04 14:29

t_obara

総合スコア5488

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！