データフレーム(df)の中のseriesのテキストデータについて、設定したワードリスト(list)のテキストデータに基づいて部分一致で新しいデータセットをエクセルで抽出したい。

前提・実現したいこと

エクセルシートから読み込んだテキストデータについて、ワードリストが含まれていたら抽出せず（行ごと削除するイメージ）、ワードリスト以外の一覧を最終的にはエクセルで吐き出したいと思っております。

テキストデータは20万行近くあり、ワードリストは数百行、どちらも半角、全角、記号等が入り混じっている状況です。

調べながら色々と試してみたのですが、想定する挙動にならず、よく分からなくなってきてしまったため質問させて頂きます。

発生している問題・エラーメッセージ・該当のソースコード

1　こちらは想定する件数がうまく取れません。（取得件数が少ない）
df = df[~reduce(lambda a, b: a&b, (df['word'].str.contains(s) for s in wordlist))]

2　こちらは2行目が動きません。
mask = df['Message'].str.contains(r'\b(?:{})\b'.format('|'.join(wordlist)))
data = df[~mask]

TypeError: bad operand type for unary ~: 'float'

dfとワードリストの設定

dfでデータセットを読み込んでdf['word']のシリーズが対象、ワードリストについてはlistにしています。
///df
df = pd.read_excel('word.xlsx', header=0, encoding='utf-8_sig')
///
wordlist = pd.read_excel('wordlist.xlsx', header=0, encoding='utf-8_sig')
wordlist = np.ravel(wordlist).tolist()

環境

python3.6.5
（anacondaにて構築）

行動規範の内容に同意します

回答1件

ベストアンサー

単に

Python
1df[~df['word'].str.contains('|'.join(wordlist))]

で駄目ですか？

wordlistの文字に正規表現で使用される特殊文字('$'や'^')が含まれるる場合は動作しません。

【追記】
上記の問題（メタ文字を含んだ場合の対応）を考えると、wordlist は予めエスケープしておいたほうが安全かもしれません

Python
1import re
2
3escaped_wordlist = [re.escape(w) for w in wordlist]
4df[~df['word'].str.contains('|'.join(escaped_wordlist))]

投稿2019/03/25 02:07

編集2019/03/25 02:29

magichan

総合スコア15898

mi2

2019/03/25 02:26

ご回答頂きましてありがとうございます。思考がやや脱線していたみたいでした。上記のご回答にcontainsの引数に空欄に対する欠損処理のオプションをつけることで対応できました。ありがとうございました。

magichan

2019/03/25 02:30

解決してなによりです。リストにメタ文字を含んでいる場合を想定して、一応補足を追記しておきました。

mi2

2019/03/25 03:25

ご親切にありがとうございます。追記の内容につきましても確認してみます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！