質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

  • Python 3.x

    7360questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

縦持ちのデータを横持ちへ変換

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 489

sarupip

score 5

以下のCSVファイルを読み込むとします。

MAN,DATE,ITEM
A,2018/5/28,111
A,2018/5/28,222
A,2018/5/28,333
A,2018/5/28,444
B,2018/5/28,555
B,2018/5/28,666
C,2018/5/28,777

これを、リストで以下のように表現するにはどうすればよいでしょうか。
transactions = [
("111","222","333","444"),
("555","666"),
("777"),
]

今やっているのは、pandasでCSVファイルを読み込み、pivotを用いて横持ちへ変換するまではいきましたが、"nan"の処理ができずにいます。
現在は
transactions = [
("111","222","333","444"),
("555","666","nan","nan"),
("777","nan","nan","nan"),
]
の形まではできています。
上記のような「表現したいかたち」にするにはどうすればよいでしょうか。
もちろん私がやっていることそのものが間違っている事もあると思いますので、nanの削除にこだわってはおりません。

当方python3.5.3
pycharm2018.1
windows7
にてpythonをいじっております。

よろしくお願いいたします。

-------------------------以下pythonコード---------------------
import pandas as pd
import numpy as np

aa = pd.read_csv('aaa.csv', encoding="UTF-8", sep=',', dtype={'ITEM': 'str'}).sort_values(
['DATE']).reset_index(drop=True)
aa["tmpindex"] = aa.index

aa["itemindex"] = aa.tmpindex.apply(lambda x: "ITEM{}".format(str(x)))
df = pd.concat(
[
aa.pivot(index="MAN", columns="itemindex", values="ITEM")
],
axis=1)

df_after = np.array(df.apply(lambda s: pd.Series(s.dropna().tolist()), axis=1))

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • y_waiwai

    2018/05/28 10:57

    質問が書かれていません。nanをどうしたいというはなしでしょうか?

    キャンセル

  • sarupip

    2018/05/28 11:23

    タイトル・内容を修正いたしました。タイトルがnanの削除方法についてでしたので、ミスリードしてしまいました。すみません。

    キャンセル

  • t_shinohara

    2018/05/28 11:55

    変換するにあたって書いたPythonのコードを記載してはいかがでしょうか。処理の傾向から、行数もさほど無いように思います。

    キャンセル

  • sarupip

    2018/05/28 12:22

    コードを記載いたしました。

    キャンセル

回答 1

checkベストアンサー

+1

.groupby()でもできます。
参考:grouping rows in list in pandas groupby

import pandas as pd
from io import StringIO
s = """MAN,DATE,ITEM
A,2018/5/28,111
A,2018/5/28,222
A,2018/5/28,333
A,2018/5/28,444
B,2018/5/28,555
B,2018/5/28,666
C,2018/5/28,777
"""

# DATE順
df = pd.read_csv(StringIO(s), dtype={'ITEM': 'str'}).sort_values(['DATE']).reset_index(drop=True)
print(df)

# MANでグループ化、同グループの各ITEMをtupleにまとめ、その結果をITEMS列としたDataFrameを得る
df = df.groupby('MAN')['ITEM'].apply(tuple).reset_index(name='ITEMS')
print(df)

# ITEMS列をリストに
transactions = df['ITEMS'].tolist()
print(transactions)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/02 06:03

    回答が遅くなり申し訳ありません。
    実装することができました。ありがとうございました。

    キャンセル

同じタグがついた質問を見る

  • Python 3.x

    7360questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。