質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

4077閲覧

Python - Pandas である特定のstringを見つけてmulti-indexの行を削除したい

SnowBallEffect

総合スコア28

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2020/02/20 05:34

編集2020/02/21 02:10

前提・実現したいこと

サイトから引っ張ってきたテーブルをある条件になったら、行を削除したいのですが、うまくいかず困っています。

日によって、テーブルが増えたり減ったりするのですが、大体3個あります。テーブルの形は以下のようになっています。テーブルの最後3列いらないデータがありますが、これを削除したいです。

Python

1# 項目1 項目2 項目3 項目4 2# 項目5 項目6 項目7 項目8 3#0 AAA1 AAA2 AAA3 AAA4 4#1 AAA5 AAA6 AAA7 AAA8 5#2 BBB1 BBB2 BBB3 BBB4 6#3 BBB5 BBB6 BBB7 BBB8 7#4 AAA1 AAA2 AAA3 AAA4 8#5 AAA5 AAA6 AAA7 AAA8 9#6 CCC1 CCC2 CCC3 CCC4   <--消す 10#7 CCC5 CCC6 CCC6 CCC7  <--消す 11#8 CCC8 CCC9 CCC10 CCC11 <--消す

最終的にはExcelにexportするのですが、exportする前に見やすくするため、偶数と奇数の行を分けて一つの行にしています。

Python

1 奇数行 2df_tmp1 = df.iloc[::2].reset_index(drop=True) 3df_tmp1.columns = df.columns.get_level_values(0) 4 5偶数行 6df_tmp2 = df.iloc[1::2].reset_index(drop=True) 7df_tmp2.columns = df.columns.get_level_values(1)

これだと綺麗に項目が一列になるのですが、奇数と偶数項目に分けているので以下のようになってしまい、ここで列を消してしまうと必要なデータも消えてしまい、困っています。

Python

1項目1 項目2 項目3 項目4 項目5 項目6 項目7 項目8 、 2CCC8   CCC9   CCC10  CCC11  AAA1  AAA2   AAA3  AAA4

最初の項目が2段ある状態でCCCを消したいのですが、消し方分かりますでしょうか?

発生している問題・エラーメッセージ

試したこと1 エラーメッセージ:ValueError: cannot join with no overlapping index names 試したこと2 エラーメッセージ:KeyError: '合計'

該当のソースコード

Python

1df = pd.io.html.read_html(filename, encoding='Shift JIS', attrs={'class':'list2'}) 2df = pd.concat(df) 3 4df = pd.DataFrame(df)

試したこと

Python

1合計というtextは最後の列にあるので、全て消したいので、以下のようなコードを試しました 2df = df[df['ファンドコード'] != '合計'] 3 4これも試しましたが、だめでした。 5remove = df.loc['合計'] 6df.drop(remove.index) 7

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kirara0048

2020/02/20 07:36

タイトルに「条件により削除したい」とありますが、条件とは何でしょうか。あるデータフレームから最後の3行を消したいということしか読み取れませんでした。
SnowBallEffect

2020/02/20 07:52

返信ありがとうございます。説明が分かりにくく、すいません。最後の3列が'合計’というテキストがあるので、「'合計’とある列を全て消す」という条件を付けて消したいです。
kirara0048

2020/02/20 08:09

データフレームの値(最初の例でCCC1等と書いてるところ)に'合計'という文字列が含まれているということですか?
guest

回答1

0

ベストアンサー

python

1df[df.isin({'合計'}).sum(1) == 0]

でどうでしょうか

投稿2020/02/21 12:03

kirara0048

総合スコア1399

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

SnowBallEffect

2020/02/21 12:18

凄い!!できました!ありがとうございます!!! もしよかったら、簡単でいいので説明して頂けないでしょうか? df[df.isin({'合計'}) はわかりますが、なぜ.sum(1) ==0]でうまくいったのでしょうか?
kirara0048

2020/02/21 14:31 編集

[1] 【 df.isin({'合計'}) 】で、各要素が「合計」ならTrue、そうでなければFalseのデータフレームができます。 [2] 真偽値(T/F)に対して数値関数を適用すると、Trueは1、Falseは0として計算されます。 [3] 【 pd.DataFrame.sum(1) 】は各行の和を計算します。 したがって【 df.isin({'合計'}).sum(1) 】で、各行に「合計」が何個あるかがわかります。 今回は「合計」が存在しない行、つまり0個の行を取り出すので、【 df.isin({'合計'}).sum(1) == 0 】をインデックスとして使います。
SnowBallEffect

2020/02/22 03:27

大変、わかりやすい説明ありがとうございました。また、一つ技術が上がりました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問