質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

Q&A

2回答

1027閲覧

一つのカラムごとの塊で横持ちデータにする方法

sequelanonymous

総合スコア123

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

0グッド

0クリップ

投稿2021/10/15 09:39

下記の加工前のデータ加工後のデータに前処理したいと思っています。方法や手段は、何でもいいと思っています。
カラムAごとにデータをまとめてカウントなどの集計ではなく、横の並びにしたいです。
下記の①と②をやってみてはいますが、苦戦しております。こうしたらできるなどご教示頂けませんでしょうか?

加工前のデータ

ABC
test1100
test1200
test1301
test2401

加工後のデータ

1行目:A
2行目:B
3行目:C
4行目:A
5行目:B
6行目:C

test1 10 20 30 0 0. 1 test2 40 1

①クエリ
Pivot構文を利用してできないかを調査してみたが、どうしてもできず苦戦

②pandasでやってみようとしたが苦戦

python

1u = uniqueのカラムA 2 3for i in u: 4 k = [] 5 v = [] 6 k.append(i) 7 for idx, item in df.iterrows(): 8 if i == item["user_id"]: 9 v.append(item["A"]) 10 v.append(item["B"]) 11 v.append(item["C"]) 12 else: 13 continue

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

Aでgroupbyして、Aと各列をリストにappendしていくのが簡単ではないでしょうか。

データフレームにするような形ではないので、リストのリストにするのがいいと思います。

python

1import pandas as pd 2 3df = pd.DataFrame({'A':['test1', 'test1', 'test1', 'test2'], 'B':[10, 20, 30, 40], 'C':[0, 0, 1, 1]}) 4 5result = [] 6for a, dfs in df.groupby('A'): 7 result.append([a]) 8 result.append(dfs['B'].tolist()) 9 result.append(dfs['C'].tolist()) 10 11print(result) 12# [['test1'], [10, 20, 30], [0, 0, 1], ['test2'], [40], [1]] 13 14#print(pd.DataFrame(result))

csvに出すなら下記でどうでしょう。

python

1import csv 2with open('result.csv', 'w', newline='') as f: 3 writer = csv.writer(f) 4 writer.writerows(result)

pandas使ってcsvにするならこうでしょうか。上とは空白部のカンマのつき方が変わります。またNaNのからみで、intがfloatになってしまうところが出てきます。

python

1pd.DataFrame(result).to_csv('result.csv', header=False, index=False)

投稿2021/10/15 14:36

編集2021/10/15 15:11
bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sequelanonymous

2021/10/15 14:42

コメントありがとうございます。 csvにこの形でアウトプット簡単にだすのに楽だと思ってdataframeを選定していました。 もし、記載頂いた二次元配列のアウトプットから質問記載の加工後データの形でcsvに出力するにはどうすればできるかご存知でしょうか?
guest

0

groupby と内包表記使用したコードです。

Python

1import pandas as pd 2 3df = pd.DataFrame({'A':['test1', 'test1', 'test1', 'test2'], 'B':[10, 20, 30, 40], 'C':[0, 0, 1, 1]}) 4print(df) 5""" 6 A B C 70 test1 10 0 81 test1 20 0 92 test1 30 1 103 test2 40 1 11""" 12lst = [[['A',s]]+[['B']+list(dfs['B'])]+[['C']+list(dfs['C'])] for s, dfs in df.groupby('A')] 13pd.DataFrame(sum(lst,[])).to_csv('testABC.csv', header=False, index=False) 14""" testABC.csv 15A,test1,, 16B,10,20,30 17C,0,0,1 18A,test2 19B,40 20C,1 21"""

test1 と test2 で分けて csv 出力するコードです。

Python

1import pandas as pd 2 3df = pd.DataFrame({'A':['test1', 'test1', 'test1', 'test2'], 'B':[10, 20, 30, 40], 'C':[0, 0, 1, 1]}) 4print(df) 5""" 6 A B C 70 test1 10 0 81 test1 20 0 92 test1 30 1 103 test2 40 1 11""" 12df_1 = df[df['A'].apply(lambda x: x == 'test1')].T 13df_1.iloc[0,1:] = '' 14df_2 = df[df['A'].apply(lambda x: x == 'test2')].T 15df_2.iloc[0,1:] = '' 16df_1.to_csv("test.csv", index=False, header=None) 17df_2.to_csv("test.csv", mode='a', index=False, header=None) 18""" test.csv 19test1,, 2010,20,30 210,0,1 22test2 2340 241 25""" 26df_1.to_csv("testABC.csv", header=None) 27df_2.to_csv("testABC.csv", mode='a', header=None) 28""" testABC.csv 29A,test1,, 30B,10,20,30 31C,0,0,1 32A,test2 33B,40 34C,1 35"""

以下、前回のコードです。
期待していることはこういうことでしょうか?

Python

1import pandas as pd 2 3df = pd.DataFrame({'A':['test1', 'test1', 'test1', 'test2'], 'B':[10, 20, 30, 40], 'C':[0, 0, 1, 1]}) 4print(df) 5""" 6 A B C 70 test1 10 0 81 test1 20 0 92 test1 30 1 103 test2 40 1 11""" 12df2 = pd.concat([df.T, df.T]) 13print(df2) 14""" 15 0 1 2 3 16A test1 test1 test1 test2 17B 10 20 30 40 18C 0 0 1 1 19A test1 test1 test1 test2 20B 10 20 30 40 21C 0 0 1 1 22"""

投稿2021/10/15 09:51

編集2021/10/16 05:25
lehshell

総合スコア1156

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sequelanonymous

2021/10/15 10:23

コメントありがとうございます。いえ違います。 質問記載の加工後のデータのようにtest1のデータとtest2のデータでわけたいです。
lehshell

2021/10/15 12:43

今一つよくわからない。。。 「加工後のデータ」は関係ないのですね。 test1 については df1 = df[df['A'].apply(lambda x: x == 'test1')] print(df1.drop(columns='A').T) """ 0 1 2 B 10 20 30 C 0 0 1 """ としたいのでしょうか? それとも df1 = df[df['A'].apply(lambda x: x == 'test1')] df1A = df1.drop(columns='A') df_1 = pd.DataFrame({'test1':df1A.to_dict(orient='list')}) print(df_1) """ test1 B [10, 20, 30] C [0, 0, 1] """ としたいということでしょうか?
lehshell

2021/10/15 13:33

「加工後のデータ」は以下となっている 1行目:A 2行目:B 3行目:C 4行目:A 5行目:B 6行目:C
sequelanonymous

2021/10/15 13:36

ありがとうございます。わかりにくくてすみません。加工後のデータにしたいです。後者がちかいです。 もともとのカラム名は、あってもなくてもどちらでもいいのですが、カラム名も追加すると以下のようなアウトプットを期待しています。 できれば、これをcsvで吐き出せるような状態にしたいと思っています。 A test1 B 10 20 30 C 0 0 1 A test2 B 40 C 1
lehshell

2021/10/15 14:58

ABC 付きと無しの2つの csv 生成コードを追記しました。
sequelanonymous

2021/10/19 08:54 編集

ありがとうございます!確認しました。 ちなみに、C列とB列って別の値に置換した状態で抽出する方法ご存知だったりしますでしょうか?
sequelanonymous

2021/10/19 08:54

たとえば、0は、Trueで、1はFalse。10は、1, 20は、2、30は、3に置換できればと思っています。
lehshell

2021/10/19 12:17

df の段階で replace すればいいですね。 df1 = df.replace({0: True, 1: False, 10: 1, 20: 2, 30: 3}) lst = [[['A',s]]+[['B']+list(dfs['B'])]+[['C']+list(dfs['C'])] for s, dfs in df1.groupby('A')] pd.DataFrame(sum(lst,[])).to_csv('testABC.csv', header=False, index=False)
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問