質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

3回答

1435閲覧

Python 2つのcsvファイル内の文字列の差を得たい

ul_

総合スコア15

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

1クリップ

投稿2018/09/04 11:58

前提・実現したいこと

現在、自然言語処理の学習をしていますが、困っています。
jupyter notebook上でpythonを使いcsvファイルの処理をしています。

コンマで区切られた文字列が、多く入っている2つのcsvファイルがあります。

csv1

1あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま

csv2

1一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬 2,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具

csv2の中身は夏目漱石の物語に出てくる名詞を抽出したデータなのですが、余計な言葉(ストップワード)がたくさんはいってしまっています。
なので、csv1に用意した定型のようなストップワードリストを使って、csv2のファイルの中からcsv1内の文字列を削除したいです。

最終的にやりたいことは、csv2 - csv1 = csv3 の式のようにcsv3を作成したいです。
csv2の文字列からcsv1と一致する文字列をすべて削除し、削除したファイルを作成したいということです。

試したこと

qiitaなどの記事を多く読み調べてみましたが、わかりませんでした。
すみません!

よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

csv1とcsv2がそれぞれuniqueな文字列の集合ならば、setを使うと差集合とか和集合を簡単に扱えますよ。ただし**頻度情報が失われるのと、**要素の並びは不定にります。昇順等にしたければsetからlistに戻す方法があります。
(強調部分、hayatakaさんのコメントを受けて追記)

たとえば、
https://note.nkmk.me/python-set/

Python

1s1 = "あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま" 2s2 = "一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具" 3 4csv1 = set(s1.split(",")) 5csv2 = set(s2.split(",")) 6 7csv3 = csv2 - csv1 8 9print(*csv3, sep=",") 10# 屋,人間,丁半,銀杏,軒,時間,首,ほか,圭,事,もの,歩行,本,垂,門前,巧み,樹,村,感心,珍,君,さん,げ,石,鍛冶,それ,道具,本堂,非常,何,寺,真直,町,所,一,妙,前,どこ,両手,沓,の,馬,ところ,大概,まま,はず 11 12# 並び順をコントロールしたければ、もう一度リストに戻してsortする 13csv3_list = list(csv3) 14csv3_list.sort() 15 16print(*lst, sep=",") 17# げ,さん,それ,ところ,どこ,の,はず,ほか,まま,もの,一,丁半,両手,事,人間,何,前,君,圭,垂,大概,妙,寺,屋,巧み,感心,所,時間,本,本堂,村,樹,歩行,沓,珍,町,真直,石,軒,道具,銀杏,鍛冶,門前,非常,首,馬

投稿2018/09/04 12:19

編集2018/09/04 12:29
tachikoma

総合スコア3601

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2018/09/04 12:22

後ろで頻度情報に変換して取り扱う可能性があるので、ちょっとまずいような気も
tachikoma

2018/09/04 12:26

そう言われればそうですね。頻度情報を求めるなら、このタイミングでは処理せずにCounterで全部回してから該当のキーを消すほうが速そうですね。
ul_

2018/09/09 08:17

ご回答ありがとうございます!参考にさせていただきました。Python文法忘れてるなと感じました、勉強します
guest

0

ベストアンサー

簡単な例でやってみましょう。

python

1a = [0,1,2,3,4,5,6,7,8,9] 2b = [0,5,8] 3 4result = [x for x in a if x not in b] 5print(result) # => [1, 2, 3, 4, 6, 7, 9]

このコードは(ある程度pythonに慣れていれば)難しいとは思わないと思います。

あとはaとbを単語のリストにして、同じことをすれば良いのですね。

単語のリストは、csvを文字列として読み込んで、カンマで区切れば恐らく得られます(もしかしたら改行文字が絡んでくるのかもしれませんが)。

投稿2018/09/04 12:06

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ul_

2018/09/09 08:18

上手く行きました!ありがとうございます!!
guest

0

あまり副作用を考えていないようにも見受けられるので、
mecabなど形態素解析ライブラリの辞書にストップワードを入れて、
適当な品詞を設定
形態素解析時に、不要な品詞を取り除く

投稿2018/09/04 14:29

t_obara

総合スコア5488

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問