質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

1647閲覧

区切り位置前後の文字を抜き出したい

yamahisa

総合スコア10

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/10/17 13:57

#【やりたいこと】
文字列から、特定の記号(今回は、%20 )を区切り位置として、区切り位置前後の文字を抜き出したい

#【困っているところ】
狙った位置の文字がとりだせません。
どのようにコーディングすればよいかわからないため教えて頂けると助かります。

①以下の文字列取り出したいのですが、2行目がうまく取り出せません。
1行目:blew
2行目:blew(upが取り出される)

IN

1a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 2a["word2"]= a["word"].str.split("%20")[0] 3a

OUT

1 word word2 20 blew%20up blew 31 blew%20up%20abc up

②以下の文字列(最後の%20の後ろの文字列)取り出したいのですが、エラーが返ってきます。
1行目:up
2行目:abc

IN

1a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 2a["word2"]= a["word"].str.split("%20")[-1] 3a

以下のエラーが表示される

OUT

1--------------------------------------------------------------------------- 2KeyError Traceback (most recent call last) 3<ipython-input-81-df212ecf3883> in <module> 4 1 a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 5----> 2 a["word2"]= a["word"].str.split("%20")[-1] 6 3 a 7 8~\Anaconda3\lib\site-packages\pandas\core\series.py in __getitem__(self, key) 9 869 key = com.apply_if_callable(key, self) 10 870 try: 11--> 871 result = self.index.get_value(self, key) 12 872 13 873 if not is_scalar(result): 14 15~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_value(self, series, key) 16 4402 k = self._convert_scalar_indexer(k, kind="getitem") 17 4403 try: 18-> 4404 return self._engine.get_value(s, k, tz=getattr(series.dtype, "tz", None)) 19 4405 except KeyError as e1: 20 4406 if len(self) > 0 and (self.holds_integer() or self.is_boolean()): 21 22pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_value() 23 24pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_value() 25 26pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() 27 28pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() 29 30pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() 31 32KeyError: -1

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

もう一つ別解です。

Pyhton

1import pandas as pd 2 3a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 4a["word2"]= [s[0] for s in a["word"].str.split("%20")] 5a["word3"]= [s[-1] for s in a["word"].str.split("%20")] 6print(a) 7# word word2 word3 8#0 blew%20up blew up 9#1 blew%20up%20abc blew abc

投稿2020/10/17 14:45

lehshell

総合スコア1147

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yamahisa

2020/10/19 12:44

回答ありがとうございます。 リストにして各データにアクセスということですね。 解決できました。ありがとうございました。
guest

0

別解として、str.extractを使ったやつ。正規表現でグループ指定された部分だけを取り出せます。

Python

1import pandas as pd 2 3a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 4a["word2"] = a["word"].str.extract("^(.+?)%20") 5a["word3"] = a["word"].str.extract("%20(?!.*%20)(.+)$") 6print(a)

result

1 word word2 word3 20 blew%20up blew up 31 blew%20up%20abc blew abc

投稿2020/10/17 14:30

編集2020/10/17 16:17
Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

LouiS0616

2020/10/17 15:09 編集

"%20([^02%]+?)$" だと "blew%20up%20a1b2c" とかをうまく捌けない気がしますが、どうでしょう。"%20(?!.*%20)(.*)$" あたりならうまくいきそうですが。
Daregada

2020/10/17 16:21

%20の直後が前方(末尾方向)に%20の無い位置にマッチ、で一番後ろの%20だけにマッチしますね。修整しました。
yamahisa

2020/10/19 12:46

回答ありがとうございます。 正規表現で対応するというやり方もあるのですね。 解決できました。ありがとうございました。
guest

0

ベストアンサー

質問者様のやりたいことは以下で実現可能です。

a["word"].str.split("%20")は、リストを要素に持つpandasのSeriesです。ですので、単純な[0]や[-1]は、Seriesに対しての操作とみなされ、[0]だとSeriesの最初の値['blue', 'up']が選定されて、それがword2列にセットされます。また[-1]だとSeriesのインデックス外とみなされ、エラーが出ます。

DataFrameやSeriesの中を操作するにはapplyでラムダ関数を使う必要があります。

Python

1import pandas as pd 2 3a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 4a["word2"]= a["word"].str.split("%20").apply(lambda x: x[0]) 5print(a) 6# word word2 7#0 blew%20up blew 8#1 blew%20up%20abc blew 9 10a = pd.DataFrame({"word": ["blew%20up", "blew%20up%20abc"]}) 11a["word2"]= a["word"].str.split("%20").apply(lambda x: x[-1]) 12print(a) 13# word word2 14#0 blew%20up up 15#1 blew%20up%20abc abc

投稿2020/10/17 14:21

toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yamahisa

2020/10/19 12:45

回答ありがとうございます。 リストを要素に持つSeries型なので、リストのようにデータにアクセスできないということなんですね。 解決できました。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問