質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.58%

データテーブル内のリスト/タプルのうち、一番始めと一番最後のデータを抽出する

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 719

shu_magi

score 19

【追記しています】
実際に用いるデータテーブルで実行した場合、要素抽出でなく、リストの最初と最後の文字(今回の場合、括弧())が抽出されてしまいました。この投稿の最後に、詳細を追記します。

簡単な質問かもしれませんが、わからなかったため質問させてください。

前提・実現したいこと

あるデータテーブルについて、テーブル内のある列にリスト、もしくはタプルでデータを保持しています。

ID Data start end
1 (1,2,3,4,5)
2 (1,1,2,2,2)
3 (1,3,3,3,3,3,3,3,3,3,1,1,1,1,4,5)
4 (2,3)
5 (1,1,5)
6 (2,3,4)

このData列のリスト、タプルの最初と最後のデータを取り出したいと考えています。
以下抽出後のイメージです。

ID Data start end
1 (1,2,3,4,5) 1 5
2 (1,1,2,2,2) 1 2
3 (1,3,3,3,3,3,3,3,3,3,1,1,1,1,4,5) 1 5
4 (2,3) 2 3
5 (1,1,5) 1 5
6 (2,3,4) 2 4

単純なリスト、タプルからのデータ取り出しは、
tuple[0]
tuple[-1]
等の指定を行えばいいことは理解しています。

宜しくお願い致します。

【以下、追記部分】
canさんのプログラムを応用し、下記dataについて、最初と最後のデータを抽出しようとしましたが、うまくいきませんでした。

import pandas as pd

df = pd.DataFrame({'Data':[(1,2,3),(4,5)]})
df['start'] = df['Data'].apply(lambda x: x[0])
df['end'] = df['Data'].apply(lambda x: x[-1])
print(df)


処理前

ID Data start end
1 (1_1, 1_2, 1_3, 1_4)
2 (1_1, 1_2, 1_3)
3 (2_1, 1_2)
4 (1_1, 1_2, 1_3)
5 (1_1, 1_2)
6 (2_1, 1_2)

以下の応用版では、リストの括弧が抜き出されてしまいます。
(データ自体をリストとして保管できていない??)

import pandas as pd

#csv読み込み
#csv作成前
df = pd.read_csv("trace_table_test.csv", header=0,)
df['first_area'] = df['all_area'].apply(lambda x: x[0])
df['last_area'] = df['all_area'].apply(lambda x: x[-1])
print(df)
ID Data start end
1 (1_1, 1_2, 1_3, 1_4) ( )
2 (1_1, 1_2, 1_3) ( )
3 (2_1, 1_2) ( )
4 (1_1, 1_2, 1_3) ( )
5 (1_1, 1_2) ( )
6 (2_1, 1_2) ( )

列指定の問題と考え、lambdaの後の値を書き換えましたが、次の文字・数値が抜き出されてしまうようです。

ID Data start end
1 (1_1, 1_2, 1_3, 1_4) 1 4
2 (1_1, 1_2, 1_3) 1 3
3 (2_1, 1_2) 2 2
4 (1_1, 1_2, 1_3) 1 3
5 (1_1, 1_2) 1 2
6 (2_1, 1_2) 2 2

テストデータをExcelで作成、csv保存していることが問題かもしれません。。
コメントいただけると助かります。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • hayataka2049

    2019/02/22 16:52

    テーブルそのものは実際には何型のオブジェクトで表現していますか?

    キャンセル

  • shu_magi

    2019/02/26 13:45

    hayataka2049さん
    返信が遅くなり、失礼しました。
    ID列はinteger、Data列にはstringのリスト、もしくはDatetimeのリストを入れる想定でいます。

    キャンセル

回答 1

checkベストアンサー

+1

.applyで行毎に先頭or末尾を返せばよいです。

import pandas as pd

df = pd.DataFrame({'Data':[(1,2,3),(4,5)]})
df['start'] = df['Data'].apply(lambda x: x[0])
df['end'] = df['Data'].apply(lambda x: x[-1])
print(df)
"""
        Data  start  end
0  (1, 2, 3)      1    3
1     (4, 5)      4    5
"""

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/02/25 16:53

    canさん
    ご回答ありがとうございます!
    これから、頂いた内容で試してみます!

    キャンセル

  • 2019/02/26 13:48

    canさん
    上記、実際に使う際にはdata列に、stringのリスト、もしくはDatetimeのリストを用いようと考えています。
    上記プログラムを実行した場合、1つの要素が抜かれず、最初と最後の1文字のみが抜かれてしまい、思ったような動作になりません。。

    追記致しますが、対応方法を教えて頂けますでしょうか?
    データ抜き出しのプログラム側というより、データ側の型指定や持ち方の問題なのでしょうか。

    キャンセル

  • 2019/02/26 18:15

    data列に入っているのはstringのリストではなく「(1_1, 1_2, 1_3)」のような文字列ではないでしょうか?
    また、この場合、start,endとして取り出したいのは「1_1」と「1_3」でしょうか?

    キャンセル

  • 2019/02/27 13:12

    canさん
    文字列です。
    また、取り出したいのは1_1と1_3です。

    別途「("1_1", "1_2", "1_3")」の形にして実施したところ、無事ご教授頂いたプログラムで出来ました!ありがとうございました。

    ちなみに、もしお力頂けたら、こちらも見ていただけると大変助かります。。

    定義範囲内にデータが有る場合、別データフレームのある値を返す
    (https://teratail.com/questions/175720)

    このようなやり方が規約違反の場合はご指摘いただけると助かります。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.58%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る