CSVファイルから文字列を抽出・格納したい

前提・実現したいこと

Test3.csvのうちV2列の2行目以降全ての文字列において．11-15番目，51-60番目の文字列を抽出して新たな列に格納すると同時に，"-"が登場した際にそれを削除するようなコードを書きたいと考えています．
お知恵をお貸し頂けますと幸いです．宜しくお願い致します．
尚，こちらは本データ(1000行以上)を簡略化したものです．

該当のソースコード

python
1#!/usr/bin/python
2# -*- coding: utf-8 -*-
3import pandas as pd
4
5slice_range1 = slice(11, 15)
6slice_range2= slice(51, 60)
7input_path = "Test3.csv"
8output_path = "separated.csv"
9
10with open(input_path) as f:
11    element = f.read()
12
13with open(output_path, "w") as g:
14    for index, row in element.iterrows():
15         csv_input['Part1'][index] = slice_range1
16         csv_input['Part2'][index] = slice_range2
17
18# 文字列の途中の改行を消す
19text = re.sub(r"-", "", text)
20
21csv_input.to_csv(g, index=False)

現実の出力結果

separated.csv
1Entry,V2,Part1,Part2
2A0K7T1,----MSNKGQL-LQDPFLNALRKEHVPVSIYLVNGIKLQGNIESFDQYVVL-------LR,"slice(11, 15, None)","slice(51, 60, None)"
3A0KGS1,-----MAKGQS-LQDPFLNALRRERIPVSIYLVNGIKLQGQIESFDQFVIL-------LK,"slice(11, 15, None)","slice(51, 60, None)"
4A0KSR7,-----MAKGQS-LQDPFLNALRRERVPVSIYLVNGIKLQGQVESFDQFVIL-------LK,"slice(11, 15, None)","slice(51, 60, None)"
5A0Q0M9,-----MNKSTNNLQDLFLNNARINRISVTIFLTNGYKLEGLVKGFDNFTII-------LD,"slice(11, 15, None)","slice(51, 60, None)"
6A0Q6S3,-----MSRISS-LQDPFLNALRKEKVSVSVYLVNGIKLQGQVEAFDQFCIV-------LR,"slice(11, 15, None)","slice(51, 60, None)"

理想の出力結果

output.csv
1Entry,V2,Part1,Part2
2A0K7T1,LLQD,LLR
3A0KGS1,SLQD,LLK
4A0KSR7,SLQD,LLK
5A0Q0M9,NNLQD,ILD
6A0Q6S3,SLQD,VLR

使用ファイル

Test3.csv
1Entry,V2
2A0K7T1,----MSNKGQL-LQDPFLNALRKEHVPVSIYLVNGIKLQGNIESFDQYVVL-------LR
3A0KGS1,-----MAKGQS-LQDPFLNALRRERIPVSIYLVNGIKLQGQIESFDQFVIL-------LK
4A0KSR7,-----MAKGQS-LQDPFLNALRRERVPVSIYLVNGIKLQGQVESFDQFVIL-------LK
5A0Q0M9,-----MNKSTNNLQDLFLNNARINRISVTIFLTNGYKLEGLVKGFDNFTII-------LD
6A0Q6S3,-----MSRISS-LQDPFLNALRKEKVSVSVYLVNGIKLQGQVEAFDQFCIV-------LR

補足情報（FW/ツールのバージョンなど）

macOS10.15.4 Python3.7.3 Atom

8524ba23

2020/11/09 07:37 編集

使用ファイルと理想の出力結果は正しく対応しているでしょうか？結果の２行２列目の「LLQD」や３列目「VLLR」がどのような規則で抽出されたのかより詳しく具体的に記載ください。

Male_soprano

2020/11/09 07:44

説明が足りず失礼しました．例えば2行目2列のうち11-15番目の文字列"L-LQD"ですが，こちらのうち"-"を削除した結果が「LLQD」になります．同様に，51-60番目の文字列"L-------LR"も「LLR」となります．(*) (*)先頭のVはカウントミスでした．先程消去しました．失礼致しました．

行動規範の内容に同意します

回答2件

PandasのDataFrameに読み込んで、str[]でスライスを取得し、str.replaceで-を削除。
V2列を取り除いて、インデックスなしでCSVに出力。

Python
1import pandas as pd
2import io
3
4txt = """
5Entry,V2
6A0K7T1,----MSNKGQL-LQDPFLNALRKEHVPVSIYLVNGIKLQGNIESFDQYVVL-------LR
7A0KGS1,-----MAKGQS-LQDPFLNALRRERIPVSIYLVNGIKLQGQIESFDQFVIL-------LK
8A0KSR7,-----MAKGQS-LQDPFLNALRRERVPVSIYLVNGIKLQGQVESFDQFVIL-------LK
9A0Q0M9,-----MNKSTNNLQDLFLNNARINRISVTIFLTNGYKLEGLVKGFDNFTII-------LD
10A0Q6S3,-----MSRISS-LQDPFLNALRKEKVSVSVYLVNGIKLQGQVEAFDQFCIV-------LR
11"""
12
13df = pd.read_csv(io.StringIO(txt))
14# df = pd.read_csv('target.csv')
15
16df['Part1'] = df['V2'].str[10:15].str.replace('-', '')
17df['Part2'] = df['V2'].str[50:60].str.replace('-', '')
18
19df.drop(columns='V2', inplace=True)
20
21print(df)
22
23df.to_csv('result.csv', index=None)

result
1Entry,Part1,Part2
2A0K7T1,LLQD,LLR
3A0KGS1,SLQD,LLK
4A0KSR7,SLQD,LLK
5A0Q0M9,NNLQD,ILD
6A0Q6S3,SLQD,VLR

投稿2020/11/09 07:57

Daregada

総合スコア11990

Daregada

2020/11/09 08:06

見事にかぶりました。

Male_soprano

2020/11/09 09:41

有難うございます．参考になります．大変恐縮ですが，ファイル名を指定してから処理を行う形だとどのような書き方になるのか，後学の為にご教示いただいても宜しいでしょうか？

Daregada

2020/11/09 12:19

「df = 」の行の下にコメントで書いてある通りです。

行動規範の内容に同意します

str[開始:終了]にて文字列を抽出しstr.replaceで-を``に置換することで削除できます。

Python
1import pandas as pd
2from io import StringIO
3
4s = """Entry,V2
5A0K7T1,----MSNKGQL-LQDPFLNALRKEHVPVSIYLVNGIKLQGNIESFDQYVVL-------LR
6A0KGS1,-----MAKGQS-LQDPFLNALRRERIPVSIYLVNGIKLQGQIESFDQFVIL-------LK
7A0KSR7,-----MAKGQS-LQDPFLNALRRERVPVSIYLVNGIKLQGQVESFDQFVIL-------LK
8A0Q0M9,-----MNKSTNNLQDLFLNNARINRISVTIFLTNGYKLEGLVKGFDNFTII-------LD
9A0Q6S3,-----MSRISS-LQDPFLNALRKEKVSVSVYLVNGIKLQGQVEAFDQFCIV-------LR"""
10df = pd.read_csv(StringIO(s))
11
12df['V2'] = df['V2']
13df['Part1'] = df['V2'].str[10:15].str.replace('-','')
14df['Part2'] = df['V2'].str[50:60].str.replace('-','')
15
16print(df.iloc[:,[0,2,3]])
17#    Entry  Part1 Part2
18#0  A0K7T1   LLQD   LLR
19#1  A0KGS1   SLQD   LLK
20#2  A0KSR7   SLQD   LLK
21#3  A0Q0M9  NNLQD   ILD
22#4  A0Q6S3   SLQD   VLR