前提・実現したいこと
現在、自然言語処理の学習をしていますが、困っています。
jupyter notebook上でpythonを使いcsvファイルの処理をしています。
コンマで区切られた文字列が、多く入っている2つのcsvファイルがあります。
csv1
1あそこ,あたり,あちら,あっち,あと,あな,あなた,あれ,いくつ,いつ,いま,いや,いろいろ,うち,おおまか,おまえ,おれ,が>い,かく,かたち,かやの,から,がら,きた,くせ,ここ,こっち,こと,ごと,こちら,ごっちゃ,これ,これら,ごろ,さまざま
csv2
1一,両手,垂,げ,まま,圭,さん,どこ,どこ,町,歩行,何,もの,寺,一,軒,銀杏,樹,一,本,門前,銀杏,樹,本堂,一,丁半,石,非常,寺,ほか,何,何,寺,もの,大概,村,君,人間,所,はず,圭,さん,首,圭,さん,妙,事,感心,首,真直,圭,さん,それ,鍛冶,屋,前,馬 2,沓,ところ,巧み,もの,寺,時間,馬,沓,珍,の,君,あれ,道具
csv2の中身は夏目漱石の物語に出てくる名詞を抽出したデータなのですが、余計な言葉(ストップワード)がたくさんはいってしまっています。
なので、csv1に用意した定型のようなストップワードリストを使って、csv2のファイルの中からcsv1内の文字列を削除したいです。
最終的にやりたいことは、csv2 - csv1 = csv3 の式のようにcsv3を作成したいです。
csv2の文字列からcsv1と一致する文字列をすべて削除し、削除したファイルを作成したいということです。
試したこと
qiitaなどの記事を多く読み調べてみましたが、わかりませんでした。
すみません!
よろしくお願いいたします。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/09/04 12:22
2018/09/04 12:26
2018/09/09 08:17