質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.32%

  • Python 2.7

    1344questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • TensorFlow

    758questions

ファイルの入力について

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 133

yone_yone

score 12

ファイルの読み込みの順番についての質問になります。

入力としてのファイルが4つあるのですが、このなかの2つを先に入力として読み込み、ある処理をした後、今度は残りの2つを入力として読み込みたいこ考えています。

現在、a.txtというラベルが記入されているファイルがあります。

#a.txt
BED003916
BED620259


このラベルに引っかかるファイルが同じディレクトリ内に4つあります。(これが入力ファイルとなります。)

#ディレクトリ内のファイル
a.txt
test_BED003916.txt
train_BED003916.txt
test_BED620259.txt
train_BED620259.txt


この4つのtrainとtestのファイルを以下のようにしたいと考えています。

#やりたい処理の流れ
0. a.txtの読み込みから引っかかるファイルの呼び出し
1. test_BED003916.txtとtrain_BED003916.txtの入力
2. 処理と評価
3. test_BED620259.txtとtrain_BED620259.txtの入力
4. 処理と評価


現在使っているコードはこのようになっています。

if __name__ == '__main__':
    with open('a.txt', 'r') as label:
        a_list = [line.rstrip() for line in label]
        print(a_list)

    file_list = []
    for a_elem in a_list:
        file_list += glob.glob('*{}*.txt'.format(a_elem))
    print(file_list)

for filename in file_list:
    #print(filename)
    ds_tmp = []
    with open(filename, 'r') as f:
        for i in f:
            txt = i.split()
            txt = [ float(s) for s in txt]
            ds_tmp.append(txt)

    ds = np.array(ds_tmp)


これだとファイル1つずつしか入力されないです...
環境はpython2系を使っています。 

※ご回答いただいた内容に質問させていただくこともあるかと思いますので、
※よろしければご返信いただければと思います。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

質問のコードは、

if __name__ == '__main__':
    with open('a.txt', 'r') as label:
        a_list = [line.rstrip() for line in label]
        print(a_list)

    file_list = []
    for a_elem in a_list:
        file_list += glob.glob('*{}*.txt'.format(a_elem))
    print(file_list)

for filename in file_list:
    #print(filename)
    ds_tmp = []
    with open(filename, 'r') as f:
        for i in f:
            txt = i.split()
            txt = [ float(s) for s in txt]
            ds_tmp.append(txt)

    ds = np.array(ds_tmp)

せめて下半分はif __name__ == '__main__':の中に入れましょう(モジュールとしてimportされない限り、逐次実行されて動いちゃうんだけど・・・)。


私なら、各処理を切り分けて関数にします。そうしないと扱いづらいからです。

def read_file(filename):
    # たぶんこんな感じ。もしかしたら間違ってるかも
    with open(filename, 'r') as f:
        for i in f:
            txt = i.split()
            txt = [ float(s) for s in txt]
            ds_tmp.append(txt)

    ds = np.array(ds_tmp)
    return ds

def process(label):
    train_filename = "train_{}.txt".format(label)
    test_filename = "test_{}.txt".format(label)
    train_data = read_file(train_filename)
    test_data = read_file(test_filename)
    # ...

def main():
    with open('a.txt', 'r') as label:
        a_list = [line.rstrip() for line in label]
        print(a_list)

    for label in a_list:
        process(label)

if __name__ == '__main__':
    main()

そのまま動くかどうかはわかりませんが、これくらいに切り分ければ、それなりに上手く行きそうです。ただし、BED003916のデータに対する処理とBED620259のデータに対する処理で使い回すオブジェクト等があると、微妙に工夫が要るかもしれません。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/07/03 16:20

    回答ありがとうございます。
    python初心者なのでわからないことだらけなのですが、
    # dosomething
    のところには何も入れなくて大丈夫なのでしょうか?

    File "<ipython-input-7-a94e5c6ab8dd>", line 15
    def process(label):
    ^
    IndentationError: expected an indented block

    このようなエラーメッセージがでてしまいまして...

    キャンセル

  • 2018/07/03 16:33

    当然自分で書く必要があります。
    質問文のコードの下の方のループの中身をコピペして(インデント等は整える必要があると思いますが)、dsをreturnすればとりあえずは動くと思いますが、それで意図した結果になるか、ちゃんと処理できるかは私にはわかりません。

    キャンセル

  • 2018/07/03 16:35

    とりあえず上のコメントどおりの内容を追記してみました

    キャンセル

  • 2018/07/03 16:40

    わかりました。
    やはり、そこは書く必要があったんですね。
    知識不足ですみません。
    中身を書いてやってみようと思います。
    回答ありがとうございます。
    また、エラー等でたら恐縮ですが回答いただけたらと思います。

    キャンセル

  • 2018/07/03 16:41

    追記までして頂いてありがとうございます。

    キャンセル

  • 2018/07/04 01:33

    上のコードを実行してみたところ、入力がきちんとされていました。
    ありがとうございます。助かりました。

    キャンセル

+1

ds_tmp = []ds = np.array(ds_tmp) はループの外に置かないとダメじゃないでしょうか? 

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/07/03 15:32 編集

    回答ありがとうございます。
    やってみましたが、私の入れ込む場所が悪いのか、
    上手く処理されませんでした...

    キャンセル

同じタグがついた質問を見る

  • Python 2.7

    1344questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • TensorFlow

    758questions