文字列内の二回目に出てくる","以降を抽出したい

['0,logic,論理',
 '',
 '1,companion,仲間',
 '',
 '2,exception,例外',
 '',
 '3,divorce,離婚',
 '',
 '4,infant,幼児',
.
.
.
'',
 '677,deposit,お金を預ける',
 '',
 '678,exhaust,疲れ果てさせる',
 '',
 '679,dare,思い切ってする',
 '']

現時点で書いているコード

python
1ja = re.findall(".*",data)
2for j_w in ja:
3    if len(j_w) == 0:
4        pass
5    else:
6        print(j_w)

文字列内の二回目のカンマ以降の日本語だけを抽出してリストに格納したいと考えています。

カンマが一度だけなら調べるとこのコードが出てきたのですが、二回出てくるのでうまく抽出できませんでした。

python
1target = ' '
2idx = s.find(target)
3r = s[idx+1:]

j_wとdataはstr型

jaはlist型

split関数を使っても思ったように抽出できず色々調べてみましたがなかなか解決するコードが見つからないです。

初歩的な質問かもしれませんがよろしくお願いします。

1T2R3M4

2022/03/26 08:02

例えば j_wが 0,logic,論理の時、splitすると ['0', 'logic', '論理'] となるので論理を抽出できませんか。

melian

2022/03/26 08:30

そこから処理するのではなく、大本のJSON オブジェクトから作成した辞書を加工する方がよいのではないかと思います。

行動規範の内容に同意します

回答3件

自己解決

大本のJSON オブジェクトから作成した辞書型の要素をリスト型にして格納し、そのリストから位置を指定して英単語、日本語訳のみを抽出すると成功しました。正規表現も試したのですが二つの単語が空白入りのため（traffic jam など）うまく抽出できなかったため今回はリストの操作という方法をとりました。

投稿2022/03/26 09:10

Kokku

総合スコア39

split関数を使っても思ったように抽出できず色々調べてみましたがなかなか解決するコードが見つからないです。
「検索して合うのを探す」という方法は効率が悪いので、「調べて自分で考える」のが良いです。
https://docs.python.org/ja/3/library/stdtypes.html#str.split

Python
1print( "aaa,bbb,ccc,ddd".split(",",2) )
2#=> ['aaa', 'bbb', 'ccc,ddd']
3print( "aaa,bbb,ccc,ddd".split(",",2)[2] )
4#=> 'ccc,ddd'

投稿2022/03/26 08:42

otn

総合スコア86363

言語関係なく、正規表現を使うのはどうでしょう。

python
1import re
2s = '677, deposit, お金を預ける, 0, 5, ,'
3s = re.sub('^([^,]+,){2}', '', s)
4print(s)

上の例の場合、「スペースを空けずにカンマが連続している場合に正しく判定できない」ので、処理前に ,, → , , に置換するなど小細工が必要です。

投稿2022/03/26 08:03

bboydaisuke

総合スコア5339

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問