区切り位置前後の文字を抜き出したい

#【やりたいこと】
文字列から、特定の記号（今回は、%20 ）を区切り位置として、区切り位置前後の文字を抜き出したい

#【困っているところ】
狙った位置の文字がとりだせません。
どのようにコーディングすればよいかわからないため教えて頂けると助かります。

①以下の文字列取り出したいのですが、2行目がうまく取り出せません。
1行目：blew
2行目：blew（upが取り出される）

IN
1a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
2a["word2"]= a["word"].str.split("%20")[0]
3a

OUT
1	word	word2
20	blew%20up	blew
31	blew%20up%20abc	up

②以下の文字列（最後の%20の後ろの文字列）取り出したいのですが、エラーが返ってきます。
1行目：up
2行目：abc

IN
1a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
2a["word2"]= a["word"].str.split("%20")[-1]
3a

以下のエラーが表示される

OUT
1---------------------------------------------------------------------------
2KeyError                                  Traceback (most recent call last)
3<ipython-input-81-df212ecf3883> in <module>
4      1 a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
5----> 2 a["word2"]= a["word"].str.split("%20")[-1]
6      3 a
7
8~\Anaconda3\lib\site-packages\pandas\core\series.py in __getitem__(self, key)
9    869         key = com.apply_if_callable(key, self)
10    870         try:
11--> 871             result = self.index.get_value(self, key)
12    872 
13    873             if not is_scalar(result):
14
15~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_value(self, series, key)
16   4402         k = self._convert_scalar_indexer(k, kind="getitem")
17   4403         try:
18-> 4404             return self._engine.get_value(s, k, tz=getattr(series.dtype, "tz", None))
19   4405         except KeyError as e1:
20   4406             if len(self) > 0 and (self.holds_integer() or self.is_boolean()):
21
22pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_value()
23
24pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_value()
25
26pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()
27
28pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item()
29
30pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item()
31
32KeyError: -1

行動規範の内容に同意します

回答3件

もう一つ別解です。

Pyhton
1import pandas as pd
2
3a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
4a["word2"]= [s[0] for s in a["word"].str.split("%20")]
5a["word3"]= [s[-1] for s in a["word"].str.split("%20")]
6print(a)
7#              word word2 word3
8#0        blew%20up  blew    up
9#1  blew%20up%20abc  blew   abc

投稿2020/10/17 14:45

lehshell

総合スコア1156

yamahisa

2020/10/19 12:44

回答ありがとうございます。リストにして各データにアクセスということですね。解決できました。ありがとうございました。

行動規範の内容に同意します

別解として、str.extractを使ったやつ。正規表現でグループ指定された部分だけを取り出せます。

Python
1import pandas as pd
2
3a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
4a["word2"] = a["word"].str.extract("^(.+?)%20")
5a["word3"] = a["word"].str.extract("%20(?!.*%20)(.+)$")
6print(a)

result
1              word word2 word3
20        blew%20up  blew    up
31  blew%20up%20abc  blew   abc

投稿2020/10/17 14:30

編集2020/10/17 16:17

Daregada

総合スコア11990

LouiS0616

2020/10/17 15:09 編集

"%20([^02%]+?)$" だと "blew%20up%20a1b2c" とかをうまく捌けない気がしますが、どうでしょう。"%20(?!.*%20)(.*)$" あたりならうまくいきそうですが。

Daregada

2020/10/17 16:21

%20の直後が前方(末尾方向)に%20の無い位置にマッチ、で一番後ろの%20だけにマッチしますね。修整しました。

yamahisa

2020/10/19 12:46

回答ありがとうございます。正規表現で対応するというやり方もあるのですね。解決できました。ありがとうございました。

行動規範の内容に同意します

ベストアンサー

質問者様のやりたいことは以下で実現可能です。

a["word"].str.split("%20")は、リストを要素に持つpandasのSeriesです。ですので、単純な[0]や[-1]は、Seriesに対しての操作とみなされ、[0]だとSeriesの最初の値['blue', 'up']が選定されて、それがword2列にセットされます。また[-1]だとSeriesのインデックス外とみなされ、エラーが出ます。

DataFrameやSeriesの中を操作するにはapplyでラムダ関数を使う必要があります。

Python
1import pandas as pd
2
3a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
4a["word2"]= a["word"].str.split("%20").apply(lambda x: x[0])
5print(a)
6#              word word2
7#0        blew%20up  blew
8#1  blew%20up%20abc  blew
9
10a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]})
11a["word2"]= a["word"].str.split("%20").apply(lambda x: x[-1])
12print(a)
13#              word word2
14#0        blew%20up    up
15#1  blew%20up%20abc   abc