質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.75%

  • Python 3.x

    5334questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • CSV

    584questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

  • for

    208questions

    for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

  • if

    194questions

    if文とは様々なプログラミング言語で使用される制御構文の一種であり、条件によって処理の流れを制御します。

pythonによるcsvの行と列の操作が上手くいきません

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 205

James1201

score 7

前提・実現したいこと

A B C D
a NaN NaN NaN
a NaN NaN NaN
a b NaN NaN
a b c NaN
...
a b c d
a b NaN NaN
a b c d

A B C D
a
a
a b
a b
b c
...
a b
b c
c d
a b
a b
b c
c d

に変形したいのですがうまくいきません。
どなたかご教授いただけませんでしょうか...。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

df = pd.read_csv("Sample.csv")

for line in tqdm(len(df)):
    a = np.array(line.count())
    num = len(np.where(a==1)[0])
    if num == 1:
        pass
    elif num == 2:
        pass
    elif num == 3:
        #やりたいこと→該当する行が[a,b,c]となっているので、[a,b][b,c]のように抽出し、上から順番に積み上げる
    elif num == 4:
        #やりたいこと→該当する行が[a,b,c,d]となっているので、[a,b][b,c][c,d]のように抽出し、順番に積み上げる

試したこと

未完成かつとても煩雑な方法ではあると思うのですが、NaNでない要素を行毎に数え、それぞれの数の場合に要素を二つづつ取り出し下段にペーストしていくというコーディングを考えていました。
もっとスマートな方法があればそちらの方をご教授していただければと思います...。

補足情報(言語/FW/ツール等のバージョンなど)

イメージとしましてはデータフレームを行ごとに読み込んでいって、3つ以上の要素がある行、

例えば

列1 列2 列3 列4
a b c d

列1 列2
a b

列1 列2
b c

列1 列2
c d

という風に取り出して、

列1 列2
a b
b c
c d

のように積むという作業を全ての行で実行するというものなのですが、なかなかコードが組み立てられずに苦戦しています...。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • KojiDoi

    2018/01/09 17:24

    例を見ても変形のルールが理解できません。もう少し説明を御願いします。

    キャンセル

  • James1201

    2018/01/09 17:30

    コメントありがとうございます。稚拙な説明で申し訳ありません。補足の方を修正いたしましたがいかがでしょうか...。

    キャンセル

回答 2

checkベストアンサー

+2

元フレームそのものを編集操作するとややこしくなるので、編集結果は別フレームに持つようにしました。
get_next関数に次行データを返す処理をまとめることで、速度的にはメリットないかもしれませんが、処理は分かりやすくなるかと思います。

import pandas as pd
from io import StringIO

s = """
A,B,C,D
a,,,
a,,,
a,b,,
a,b,c,
a,b,c,d
a,b,,
a,b,c,d
"""
df = pd.read_csv( StringIO(s), sep=",")
print(df)

df_dst = pd.DataFrame(columns=df.columns)

def get_next( df):
    for idx, row in df.iterrows():
        val_cnt = row.count()
        if val_cnt <= 2:
            yield row
        else:
            for i in range(val_cnt-1):
                yield pd.Series([row[i],row[i+1],pd.np.nan,pd.np.nan],index=df.columns)

for d in get_next(df):
    df_dst = df_dst.append(d, ignore_index=True)

print(df_dst)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/09 18:39

    お見事です!
    本当に助かりました、ありがとうございました!

    キャンセル

0

itertoolscombinationsを使ってみるとどうでしょうか?

以下例です。簡単のため適当な配列を用意して行いました。

from itertools import combinations

twoDimArr = [
    [0,1,2,3],
    [4,5],
    [6,7,8],
    [9,10,11,12],
    [13],
    [14,15],
    [16,17,18]
]

result = []

for arr in twoDimArr:
    if len(arr) < 3:
        result.append(arr)
    else:
        for c in combinations(arr,2): # 第2引数で個数を指定
            result.append(list(c))

for line in result:
    print(*line)

実行結果

0 1
0 2
0 3
1 2
1 3
2 3
4 5
6 7
6 8
7 8
9 10
9 11
9 12
10 11
10 12
11 12
13
14 15
16 17
16 18
17 18

あ、ごめんなさい組み合わせじゃないのか…上記回答は忘れてください。すみません…m(_ _)m

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/09 18:41

    考えてくださりありがとうございます。
    また機会がありましたらよろしくお願いいたします!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.75%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    5334questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • CSV

    584questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

  • for

    208questions

    for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

  • if

    194questions

    if文とは様々なプログラミング言語で使用される制御構文の一種であり、条件によって処理の流れを制御します。