Python - Pandas である特定のstringを見つけてmulti-indexの行を削除したい

前提・実現したいこと

サイトから引っ張ってきたテーブルをある条件になったら、行を削除したいのですが、うまくいかず困っています。

日によって、テーブルが増えたり減ったりするのですが、大体３個あります。テーブルの形は以下のようになっています。テーブルの最後３列いらないデータがありますが、これを削除したいです。

Python
1#   項目1   項目2   項目3   項目4
2#   項目5   項目6   項目7   項目8
3#0  AAA1  AAA2  AAA3  AAA4
4#1  AAA5  AAA6  AAA7  AAA8
5#2  BBB1  BBB2  BBB3  BBB4
6#3  BBB5  BBB6  BBB7  BBB8
7#4  AAA1  AAA2  AAA3  AAA4
8#5  AAA5  AAA6  AAA7  AAA8
9#6  CCC1  CCC2  CCC3  CCC4　 　<--消す
10#7  CCC5  CCC6  CCC6  CCC7　　<--消す
11#8  CCC8  CCC9  CCC10  CCC11　<--消す

最終的にはExcelにexportするのですが、exportする前に見やすくするため、偶数と奇数の行を分けて一つの行にしています。

Python
1 奇数行
2df_tmp1 = df.iloc[::2].reset_index(drop=True)
3df_tmp1.columns = df.columns.get_level_values(0)
4
5偶数行
6df_tmp2 = df.iloc[1::2].reset_index(drop=True)
7df_tmp2.columns = df.columns.get_level_values(1)

これだと綺麗に項目が一列になるのですが、奇数と偶数項目に分けているので以下のようになってしまい、ここで列を消してしまうと必要なデータも消えてしまい、困っています。

Python
1項目1   項目2   項目3   項目4　項目5   項目6   項目7   項目8　、
2CCC8 　 CCC9 　 CCC10 　CCC11　 AAA1 　AAA2 　　AAA3 　AAA4

最初の項目が２段ある状態でCCCを消したいのですが、消し方分かりますでしょうか？

発生している問題・エラーメッセージ

試したこと１　エラーメッセージ：ValueError: cannot join with no overlapping index names
試したこと２　エラーメッセージ：KeyError: '合計'

該当のソースコード

Python
1df = pd.io.html.read_html(filename, encoding='Shift JIS', attrs={'class':'list2'})
2df = pd.concat(df)
3
4df = pd.DataFrame(df)

試したこと

Python
1合計というtextは最後の列にあるので、全て消したいので、以下のようなコードを試しました
2df = df[df['ファンドコード'] != '合計']
3
4これも試しましたが、だめでした。
5remove = df.loc['合計']
6df.drop(remove.index)
7

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

kirara0048

2020/02/20 07:36

タイトルに「条件により削除したい」とありますが、条件とは何でしょうか。あるデータフレームから最後の3行を消したいということしか読み取れませんでした。

SnowBallEffect

2020/02/20 07:52

返信ありがとうございます。説明が分かりにくく、すいません。最後の３列が'合計’というテキストがあるので、「'合計’とある列を全て消す」という条件を付けて消したいです。

kirara0048

2020/02/20 08:09

データフレームの値（最初の例でCCC1等と書いてるところ）に'合計'という文字列が含まれているということですか？

SnowBallEffect

2020/02/20 08:15

はい、そうです！

SnowBallEffect

2020/02/21 03:49

いかがでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

python
1df[df.isin({'合計'}).sum(1) == 0]

でどうでしょうか

投稿2020/02/21 12:03

kirara0048

総合スコア1399

SnowBallEffect

2020/02/21 12:18

凄い！！できました！ありがとうございます！！！　もしよかったら、簡単でいいので説明して頂けないでしょうか？　df[df.isin({'合計'}) はわかりますが、なぜ.sum(1) ==0]でうまくいったのでしょうか？

kirara0048

2020/02/21 14:31 編集

[1] 【 df.isin({'合計'}) 】で、各要素が「合計」ならTrue、そうでなければFalseのデータフレームができます。 [2] 真偽値（T/F）に対して数値関数を適用すると、Trueは1、Falseは0として計算されます。 [3] 【 pd.DataFrame.sum(1) 】は各行の和を計算します。したがって【 df.isin({'合計'}).sum(1) 】で、各行に「合計」が何個あるかがわかります。今回は「合計」が存在しない行、つまり0個の行を取り出すので、【 df.isin({'合計'}).sum(1) == 0 】をインデックスとして使います。

SnowBallEffect

2020/02/22 03:27

大変、わかりやすい説明ありがとうございました。また、一つ技術が上がりました！

行動規範の内容に同意します