pandas DataFrameのsplit関数で右詰めのDataFrameを取得する

df['rank']が以下の通り「\d」「\d-\d」「\d-\d-\d」「\d-\d-\d-\d」の形式となっています。

0 5-4-3-3
1 3-2-2
2 3
3 7-7-3-3
4 8-9
Name: rank, Length: 1170169, dtype: object

これをsplit関数を使うと、左詰めのDataFrameとなってしまいますが、
右詰めのDataFrameを取得したく方法はありますでしょうか。

ちなみに、Lengthが117万あるため、for文などでやってしまうと時間がかかりすぎてしまいます。

●左詰め
df['rank'].str.split('-', expand=True)

0 5 4 3 3
1 3 2 2 None
2 3 None None None
3 7 7 3 3
4 8 9 None None

●右詰め
0 5 4 3 3
1 None　　3 2 2
2 None None None　　3
3 7 7 3 3
4 None None　　8 9

行動規範の内容に同意します

回答3件

軽いかどうかは計測できていませんが、
まずrankの文字列を反転させ、
splitした後にDataFrameの列を反転させる方法です。

python
1import pandas as pd
2from io import StringIO
3
4s1 = '''rank
55-4-3-3
63-2-2
73
87-7-3-3  
98-9'''
10df = pd.read_csv(StringIO(s1))
11
12df['rank'] = df['rank'].str[::-1]
13df = df['rank'].str.split('-', expand=True)
14df = df[df.columns[::-1]]
15df.columns=range(df.shape[1])
16
17print(df)
18'''
19      0     1     2    3
200     5     4     3    3
211  None     3     2    2
222  None  None  None    3
233     7     7     3    3
244  None  None     8    9
25'''

投稿2020/10/16 03:15

編集2020/10/16 03:15

yureighost

総合スコア2183

Daregada

2020/10/16 04:00

(今回の要件に含まれていませんが)rankの数値が10以上になるとまずいことになるよね。

行動規範の内容に同意します

時間がかかりすぎるかどうかはわからない。
(最後に反転させるのを忘れていたので追加)

dfn = df['rank'].map(lambda x: "-".join(x.split('-')[::-1])).str.split("-", expand=True)
dfn = dfn[dfn.columns[::-1]]

投稿2020/10/16 03:06

編集2020/10/16 03:38

Daregada

総合スコア11990

ベストアンサー

力技感がありますが、正規表現によるextractでできそうです。
速度的にどんなものかは、試してみてください。

python
1df['rank'].str.extract(r'^(?:(?:(?:(\d+)-)?(\d+)-)?(\d+)-)?(\d+)$')

投稿2020/10/16 03:20

bsdfan

総合スコア4901

aaabc

2020/10/16 04:36

ありがとうございます。処理も早く済みました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pandas DataFrameのsplit関数で右詰めのDataFrameを取得する

関連した質問