質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.03%

データのlist内から順にカウントしていき、同一データのまとまりとして取り出す方法

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 447

score 48

機械学習による連続データのクラス分類について勉強しております。
リスト内から順にカウントしていき、同一データをまとまったデータとして取り出す方法について考えているのですが、方法論が思いつかないため困っております。

#modelのclass予測が以下だった場合
#クラス分類0-5の6分類とすると以下のように予測クラスをリスト内に格納するとする。

predicted_data=[0,0,0,0,1,0,2,2,2,2,3,2,4,4,4,4,2,1,4,5,5,5,5,2]

#このpredicted_dataから以下のデータとして取り出したい
#リスト内に格納されたデータから1つめから順々に認識させて、0,0,0,0,1,0を取り出し、1は予測の誤りであるとすると、それを除いたデータを抽出したい。以下のようなデータとして
data1=[0,0,0,0,0]

#同様に次は、2,2,2,2,3,2というまとまりを抽出して、3を取り除いたデータを取り出したい。

data2=[2,2,2,2,2]
#上記のようにデータを取り出したい。

上記のようなリストデータを取り出したい場合、なにかいい方法論はございますでしょうか。
n-gramのような手法で何個かに分けて取り出そうとも考えたのですが、方法論としていい方法が思いつかず困っております。何かアドバイスをいただけたら幸いです。

よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • yohehe

    2019/04/02 17:38

    動作推定の分類手法が正しくないのかもしれないですが、秒単位で分類器などに入れるとどうしても大まかにこういう動作なんだろうというデータ出力がされています。ウインドウサイズのsecを小さくしていけばいくほど、その数が増えている状況でして。これは分類器の精度の問題であるといえばそうかもしれません。うまい例えばではないかもしれませんが、ランニングしている途中で少し歩いたり止まったりした部分があったとしても大まかにこの範囲は走っていると分類させたいということであります。大まかな動作が認識できれば動作の順序などを大きな範囲で取得できるのではないかと考えています。

    キャンセル

  • quickquip

    2019/04/02 17:39 編集

    例えば 2,2,2,3,4,4の列に対して、好ましい正解なのか、[2,2,2,2] [4,4]が好ましいのか、[2,2,2][4,4,4]が好ましいのか、などはどうでしょうか?
    (最大長の最大を望むのか、長さの分散が小さいことを望むのか)
    # 行き違いました

    キャンセル

  • yohehe

    2019/04/02 17:53

    動作が対象になっておりますので、動作の時間:長さが異なっておりますので長さはある程度の自由度があるほうがいいとは考えております。
    なるほど、最大長の設定して、そのなかで分散表現、分布として大まかな類推をするということでしょうか。

    キャンセル

回答 2

checkベストアンサー

+1

なにをもって「同一データのまとまり」と解釈するかが肝になるかと思います。
美しくないですが、とりあえず以下のコードを書いてみました。
混在する値が1つだけなら、それを除いて抽出します。
よって混在数が2つある 4,4,4,4,2,1,4 は 4,4,4,4,4 にはなりません。

lst=[0,0,0,0,1,0,2,2,2,2,3,2,4,4,4,4,2,1,4,5,5,5,5,2]

cur_n = -1 # 抽出する数値
pos_st = 0 # 抽出開始位置
dif_cnt = 0 # 抽出中の異なる数値の数
MAX_DIF = 1 # 混在を許す上限数

i = 0
while i < len(lst):
    # 次の抽出する数値を決定
    if cur_n < 0:
        cur_n = lst[i]
        dif_cnt = 0
        pos_st = i
    # 抽出中
    else:
        # 異なる数値が出現
        if cur_n != lst[i]:
            # 混在上限に達した→抽出終了
            if dif_cnt >= MAX_DIF:
                print([v for v in lst[pos_st:i] if v == cur_n]) # 同一値のみ
                cur_n = -1
                i -= 1 # 巻き戻し
            # 異なる数値が出現
            else:
                dif_cnt += 1
    i += 1

# 末尾に取りこぼしがあればそれも抽出
if cur_n > 0:
    print([v for v in lst[pos_st:i] if v == cur_n])

"""
[0, 0, 0, 0, 0]
[2, 2, 2, 2, 2]
[4, 4, 4, 4]
[1]
[5, 5, 5, 5]
"""

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/03 19:59

    業務により遅くなりすみません。
    can110様、アドバイスありがとうございます。なるほど、同一のまとまりの定義をまずはある程度自分で定義する必要があるのですね、勉強になります。
    教えていただきましたコードについて今から勉強してみます。

    キャンセル

  • 2019/04/04 01:39 編集

    can110様、ありがとうございます。こういった書き方でまとまりとしてとらえていく手法もあるのかと勉強になりました。

    キャンセル

+1

直接の回答ではないかもしれませんが、itertools.groupbyが使えると思います。

import itertools

predicted_data=[0,0,0,0,1,0,2,2,2,2,3,2,4,4,4,4,2,1,4,5,5,5,5,2]

for k, g in itertools.groupby(predicted_data):
    print(k, list(g))

結果

0 [0, 0, 0, 0]
1 [1]
0 [0]
2 [2, 2, 2, 2]
3 [3]
2 [2]
4 [4, 4, 4, 4]
2 [2]
1 [1]
4 [4]
5 [5, 5, 5, 5]
2 [2]

長さが1のものは誤りとして除外するなら

import itertools

predicted_data=[0,0,0,0,1,0,2,2,2,2,3,2,4,4,4,4,2,1,4,5,5,5,5,2]

for k, g in itertools.groupby(predicted_data):
    l = list(g)
    if len(l) <= 1:
        continue
    print(k, l)

結果

0 [0, 0, 0, 0]
2 [2, 2, 2, 2]
4 [4, 4, 4, 4]
5 [5, 5, 5, 5]

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/02 16:06

    Keni.Noguchi様、アドバイスありがとうございます。groupbyというライブラリについて調べてみます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.03%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る