質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.91%

文字列を判定し、前行と比較して値を変更する

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,742
退会済みユーザー

退会済みユーザー

(file1)
PRO B   2
PRO B   2
PRO B   2
PRO B   2
PRO B   2
PRO B   2
GLY B   3
GLY B   3
GLY B   3
GLY B   3
GLY B  10   # 1列めの文字列は同じだが、3列めの数字が2以上増えている。
GLY B  10
GLY B  10
GLY B  10
TRP B  11    
TRP B  11
TRP B  11
LEU B   6
LEU B   6
LEU B   6
LEU B   6
ILE B  13    
ILE B  13
(file2)
PRO B   2
PRO B   2
PRO B   2
PRO B   2
PRO B   2
PRO B   2
GLY B   3
GLY B   3
GLY B   3
GLY B   3
GLY B   4
GLY B   4
GLY B   4
GLY B   4
TRP B   5
TRP B   5
TRP B   5
LEU B   6
LEU B   6
LEU B   6
LEU B   6
ILE B   7
ILE B   7


file1をfile2のように書き換えたいです。

具体的には
・3列めの数字が前の行より2以上増えているとき、(その前の行の3列めの数+1)に変更する。
・1列めの文字列が同じ行では3列めの数字を同じにする。
ただし、file1で1列めの文字列が同じでも、3列めの数字が2以上増えているとき、(その前の行の3列めの数+1)に変更する。

file1を2行目から読み込んだfile1_2を作成し、1行ずつ比較していたのですが、3列目の数字を変えても、その次の行の数字を前行に揃えることができず、このやり方では無理と判断しました。

path = 'file1'

with open(path) as f:    #file1の2行目からを取り出したfile1_2を作成
   next(f)
   for line in f:
       fileobj = open("file1_2","a")
       print >> fileobj, line.rstrip()

path = 'file1'
path2 = 'file1_2'
f = open(path).readlines()
f2 = open(path2).readlines()

for (line, line2) in zip(f, f2):
  line_res = line[0:3]
  line_num = line[7:9]
  line2_res = line2[0:3]
  line2_num = line2[7:9] 
  if (line_res == line2_res) and (line_num == line2_num):  
 #file1とfile1_2の1列目と3列目が同じならば、file1をそのまま出力
      fileobj = open("file2","a")
      print >> fileobj, line.rstrip()
  elif (line_res != line2_res) and ((int(line_num) + 1) == (int(line2_num))): 
  #file1とfile1_2の1列目が違うかつ3列目が1増えているならば、file1をそのまま出力
      fileobj = open("file2","a")
      print >> fileobj, line.rstrip()
  elif (line_res != line2_res) and ((int(line_num) + 1) != (int(line2_num))):  
 #file1とfile1_2の1列目が違うかつ3列目が2以上増えているとき、3列目をfile1の3列目の数字+1にして出力
      line_num_1 = ((int(line_num)) + 1)
      line_num_2 = (str(line_num_1)).rjust(1)
      tmp = line[:30] + line_num_2 + line[33:]
      fileobj = open("file2","a")
      print >> fileobj, tmp.rstrip()    
(file1)       (file1_2)
PRO B   2          PRO B   2
PRO B   2          PRO B   2
PRO B   2          PRO B   2
PRO B   2          PRO B   2
PRO B   2          PRO B   2
PRO B   2          GLY B   3
GLY B   3          GLY B   3
GLY B   3          GLY B   3
GLY B   3          GLY B   3
GLY B   3          GLY B  10
GLY B  10          GLY B  10   
GLY B  10          GLY B  10
GLY B  10          GLY B  10
GLY B  10          TRP B  11
TRP B  11          TRP B  11        
TRP B  11          TRP B  11
TRP B  11          LEU B   6
LEU B   6          LEU B   6
LEU B   6          LEU B   6
LEU B   6          LEU B   6
LEU B   6          ILE B  13
ILE B  13          ILE B  13
ILE B  13


しかし、この方法では 

(file2)
PRO B   2
PRO B   2
PRO B   2
PRO B   2
PRO B   2
PRO B   2
GLY B   3
GLY B   3
GLY B   3
GLY B   3
GLY B   4
GLY B  10
GLY B  10
GLY B  10
TRP B  11    
TRP B  11
TRP B  11
LEU B   6
LEU B   6
LEU B   6
LEU B   6
ILE B   7    
ILE B  13

  
となってしまいます。
前の行の変更を反映して次の行に移るようにするにはどうすればよいのでしょうか。
それとも他にやりようがあるのでしょうか。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • dice142

    2018/10/24 19:42

    コードをご提示ください。

    キャンセル

  • 退会済みユーザー

    退会済みユーザー

    2018/10/25 10:33

    追加しました。ご確認お願いします。

    キャンセル

回答 1

checkベストアンサー

+1

pandas 使って行うと良いのではないでしょうか。

import pandas as pd
import numpy as np

df = pd.read_csv('file1', header=None, sep=' ', skipinitialspace=True)
df[2] = df[2].astype('int')
df[2] = (df[2].diff() != 0).cumsum() + df.iloc[0,2] - 1
print(df)
np.savetxt('file2', df.values, fmt='%s %s %3d')

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/25 16:58

    ちなみに、np.savetxtで列をタブ区切りはできないのでしょうか。
    np.savetxt('file2', df.values, delimiter="\t", fmt='%s %s %3d')
    としても、区切りが空白一つのままになっています。

    キャンセル

  • 2018/10/25 17:03

    その場合は fmt側にて指定します。TABは'\t'ですので
    np.savetxt('file2', df.values, fmt='%s\t%s\t%3d')
    でしょうか

    キャンセル

  • 2018/10/25 17:05

    できました!
    ありがとうございます!!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.91%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る