質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.60%

リストの入れ子構造を直したい。

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 338

konataro

score 37

re.findall()を使いある文字列から正規表現で数字を抽出したのですが、コード内にあるようなグループを二つ使った正規表現だと実行結果aのような入れ子構造リストになってしまいます。

これを一番下にあるリストの形にするにはどうしたらいいでしょうか。
どなたか解決方法をお願い致します。

import re


strings = """和 123.456789 + 987.654321 = 1111.111110
差 123.456789 - 987.654321 = -864.197532
積 123.456789 * 987.654321 = 121932.631113
商 123.456789 / 987.654321 = 0.125000"""
O =[i for i in range(4)]


def extract(string):
    extract_value  = re.findall(r"(-?\d+\.?\d*)\n|(-?\d+\.?\d*)$", string)
    return extract_value


def eval_number(a, b):
    print(a)
    print(b)
    print("len(a):%d, len(b):%d"% (len(a),len(b)))
    return len(a) == len(b)

if eval_number(extract_out(strings),O):
    print("eval_number is true")

実行結果

[('1111.111110', ''), ('-864.197532', ''), ('121932.631113', ''), ('', '0.125000')]
[0, 1, 2, 3]
len(a):4, len(b):4
eval_number is true


aを下のようなリストにしたい。または、この形のリストで抽出したい。

[1111.111110,-864.197532,121932.631113,0.1250000]
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • LouiS0616

    2019/04/25 23:07 編集

    状態が再現するような元々の文字列および抽出コードをご提示していただけると、根本的な解決法がアドバイスできるかもしれません。

    キャンセル

  • konataro

    2019/04/25 23:26

    文字列と抽出のコードを記載しました。よろしくお願いいたします。

    キャンセル

回答 2

checkベストアンサー

+1

re.MULTILINEフラグを立てれば、$は行末にもマッチします。

import re

strings = """和 123.456789 + 987.654321 = 1111.111110
差 123.456789 - 987.654321 = -864.197532
積 123.456789 * 987.654321 = 121932.631113
商 123.456789 / 987.654321 = 0.125000"""

def extract(string):
    extract_value  = re.findall(r"-?\d+\.?\d*$", string, flags=re.MULTILINE)
    return extract_value

print(extract(strings))

実行結果 Wandbox

['1111.111110', '-864.197532', '121932.631113', '0.125000']

おまけ

あくまでリスト処理に依って問題を解決するなら。


test_list_1 = [(10,100),100,200,300]
下のようなリストにしたい
test_list_2 = [10,100,100,200,300]

いわゆるflatten処理ですね。
再帰を利用して書くと見通しが付きやすいことが知られています。

def _flatten(src):
    if isinstance(src, str):
        yield src
    elif hasattr(src, '__iter__'):
        for block in src:
            yield from _flatten(block)
    else:
        yield src

def flatten(src):
    return list(_flatten(src))

src = [(10, 100), 100, 200, 300]
dst = flatten(src)

print(dst)

実行結果 Wandbox

[10, 100, 100, 200, 300]

[('1111.111110', ''), ('-864.197532', ''), ('121932.631113', ''), ('', '0.125000')]
下のようなリストにしたい。または、この形のリストで抽出したい。
[1111.111110,-864.197532,121932.631113,0.1250000]

リスト内の全ての要素について、空でない文字列を選択したいケースですね。
こんなふうに書けそうです。

src = [('1111.111110', ''), ('-864.197532', ''), ('121932.631113', ''), ('', '0.125000')]
dst = [float(l or r) for l, r in src]

print(dst)

実行結果 Wandbox

[1111.11111, -864.197532, 121932.631113, 0.125]

Pythonのor演算子の独特な仕様を存分に活用できます。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/25 23:39

    回答ありがとうございます。
    グループ化はいらなかったのですね・・・勉強になりましたm(_ _)m

    キャンセル

  • 2019/04/25 23:44 編集

    グループ化しても良いですが、後方参照が無い場合は (?:正規表現) を利用してキャプチャを取らない方がトラブルが少ないでしょう。
    re.findall(r"(?:-?\d+\.?\d*)(?=\n)|(?:-?\d+\.?\d*)$", string) みたいな感じで。

    ...まぁ、選言の優先順位は最も低いので、単に -?\d+\.?\d*(?=\n)|-?\d+\.?\d*$ で充分なんですけどね。

    キャンセル

+1

根本的な解決ではないですが

test_list_1=[(10,100),100,200,300]]
test_list_2=[*num[0]]+[num[1],num[2],num[3]]


でいけると思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/25 23:36

    python3から実装されたアスタリスクによるアンパックというものです
    変数の数<要素の数の時に*を付けた部分がリストやタプルの拡張、分解ということが起きます

    キャンセル

  • 2019/04/25 23:38

    @LouiS0616 さん
    ご指摘ありがとうございます、確かにスライスを使うべきですね。見落としていました

    キャンセル

  • 2019/04/25 23:42

    webも調べながらで理解できました。
    ありがとうございます。m(_ _)m

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.60%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る