正規表現を使ってreplace処理を実現したいのですが、ご教授頂けないでしょうか。

修正前

Python
1def convert(tmp_file_path):
2    try:
3        with open(tmp_file_path, encoding='utf-8') as file:
4            insert_info = next(file)
5            data_lines = file.read()
6        # 文字列置換
7        data_lines = data_lines.replace(",,,,,,,,", "")
8

上記は　

AAAA, BBB,,,,,,,,

というレコードを

AAAA, BBB

に置換する処理です。　

これを下記にも対応できるようにしたいです。
※BBBのあと2カラム(CCCCとDDDDのところ)に任意の値が入ります。

AAAA, BBB,CCCC,DDDD,,,,,,
や
AAAA, BBB,1234,9876,,,,,,
や
AAAA, BBB,,ZZZZ,,,,,,

などのデータが来た時に

AAAA, BBB

に置換するようにしたいです。

追記

仕様の説明が不足していたため追記します。

任意の文字列1,任意の文字列2,任意の文字列3,,,,,,

というデータを

任意の文字列1

にしたいと考えています。

68user

2021/01/28 04:52 編集

詳細な仕様の追記、ありがとうございます。「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」というデータの出力結果については理解しましたが、「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」というデータで *ない* 場合の出力結果はどうあるべきですか? また、「任意の文字列1,任意の文字2,任意の文字列3,,,,,,」の「任意の文字列」とは 1文字以上ということですか? 0文字も含みますか? 任意の文字がカンマそのものであった場合はどうなりますか? さらに入力データはカラム数 9 の CSV と見受けられますが、カラム数が多い、または少ない場合のパターンはどうなりますか?

yositigu

2021/01/28 05:04

はい、入力データはカラム数 9 の CSV になります。「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」というデータで *ない* 場合の出力結果 ⇒CSVには少なくとも1レコード以上のデータが存在する前提でお願い致します。「任意の文字列」は0文字の可能性もあります。任意の文字はカンマ以外とさせてください。カラム数が多い少ないといったことも起きない想定でお願い致します。

68user

2021/01/28 05:09

例えば AAA,BBB,CCC,DDD,,,,, は任意の文字列1,任意の文字列2,任意の文字列3,,,,,, に合致しませんが (第4カラムに文字列が入っているため)、そのようなデータはないという前提でしょうか?

68user

2021/01/28 05:10

つまり、「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」の場合は理解しましたが、「そうでない場合」はありえない、と考えてよいかを確認したいです。

yositigu

2021/01/28 06:10

すみません。混乱してしまいました。正確には任意の文字列1,任意の文字列2,・・・・・,任意の文字列29,CCC,DDD,,,,, を任意の文字列1,任意の文字列2,・・・・・,任意の文字列29 としたい。というのが本当にやりたいことです。任意の文字列1~29を任意の文字列1としてまとめて記載してしまっておりました。

68user

2021/01/28 06:13

任意の文字列30が"CCC"で、任意の文字列が"DDD"の場合、そのようにするという意味でしょうか。あるいは任意の文字列30と31の両方に1文字以上の任意文字列が入っている場合、そのようにするという意味でしょうか。また、いずれの意味であっても、それに合致しない場合はどうするべきなのでしょうか。

yositigu

2021/01/28 06:17

任意の文字列1,任意の文字列2,・・・・・,任意の文字列29,任意の文字列30,任意の文字列31,,,,, を任意の文字列1,任意の文字列2,・・・・・,任意の文字列29 にしたいです。

68user

2021/01/28 06:20

つまり、任意の文字列30と31の両方に1文字以上の任意文字列が入っている場合、そのようにするという意味ですね。で、その条件に合致しない場合はどうするべきでしょうか。そのようなケースはありえない? あるいはそのまま出力する?

yositigu

2021/01/28 06:30

任意の文字列30と31は０文字の場合もあり得ます。条件に合致しない場合はありえない想定でお願いいたします。

68user

2021/01/28 06:39

> 任意の文字列30と31は０文字の場合もあり得ます。となると、任意の文字列1,任意の文字列2,・・・・・,任意の文字列29,,,,,,, も条件に合致するので (0文字もありえるので)、任意の文字列1,任意の文字列2,・・・・・,任意の文字列29 になってしまいますが、それでよいのでしょうか? それはつまり「常に任意の文字列29 以降のカラムを削除する」と同じな気がしますが、正しいでしょうか?

yositigu

2021/01/28 06:40

説明が下手ですみません。「常に任意の文字列29 以降のカラムを削除する」であっています。

68user

2021/01/28 07:38

であれば、わたしが先日提示した > print(columns[0] + ', ' + columns[1]) を print(columns[0] + ',' + (略) + ',' + columns[28]) などとすれば OK です (0番目から 28番目までの 29個)。他の皆様のコードも、数を変えたり増やしたりという点では同じです。

Daregada

2021/01/29 02:08 編集

仕様が追記され、しかもココ(質問への追記依頼)を読むと、その仕様の記述が間違っている(実際には「常に任意の文字列29 以降のカラムを削除する」のですよね?)んですが、質問文の追記部分を修正してもらえませんかね。元の質問に合わせるとすれば、「任意の文字列1,任意の文字列2」を残し、「常に任意の文字列3以降のカラムを削除する」になるのかな。あと、「入力データでカンマの後に空白が入るのか入らないのか、どちらもあり得るのか」、「出力データではカンマの後に空白を付けるのか付けないのか」もはっきり記述してほしかった。 > 任意の文字列1~29を任意の文字列1としてまとめて記載してしまっておりました。えっと、これで相手に通じると思っていたのかな。

行動規範の内容に同意します

回答4件

ベストアンサー

「正規表現を使う」以外の要件を満たしました。

python
1buf="""AAAA, BBB,,,,,,,,
2AAAA, BBB,CCCC,DDDD,,,,,,
3AAAA, BBB,1234,9876,,,,,,
4AAAA, BBB,,ZZZZ,,,,,,"""
5
6for line in buf.split('\n'):
7   columns = line.split(',')
8   print(columns[0] + ', ' + columns[1])

結果

AAAA,  BBB
AAAA,  BBB
AAAA,  BBB
AAAA,  BBB

投稿2021/01/27 10:25

68user

総合スコア2022

68user

2021/01/27 10:27

あ、余計なスペースが増えてしまった！

行動規範の内容に同意します

subはreplace なのだろうか。

python
1>>> import re
2>>> a='AAAA, BBB,CCCC,DDDD,,,,,,'
3>>> print(re.sub('(?<=AAAA, BBB).*', '', a))
4AAAA, BBB

そうだ、ごまかそう。

python
1>>> import re
2>>> replace = re.sub
3>>> a='AAAA, BBB,CCCC,DDDD,,,,,,'
4>>> print(replace('(?<=AAAA, BBB).*', '', a))
5AAAA, BBB

投稿2021/01/27 10:54

編集2021/01/27 10:57

ppaul

総合スコア24670

正規表現使わずにpadas使う奴。

Python
1import pandas as pd
2import io
3
4txt = """AAAA, BBB,,,,,,,,
5AAAA, BBB,CCCC,DDDD,,,,,,
6AAAA, BBB,1234,9876,,,,,,
7AAAA, BBB,,ZZZZ,,,,,,"""
8
9df = pd.read_csv(io.StringIO(txt), skipinitialspace=True, header=None)
10df = df.drop(columns=list(range(2, len(df.columns))))
11buf = io.StringIO()
12df.to_csv(buf, header=None, index=None)
13print(buf.getvalue().replace(",", ", "))

result
1AAAA, BBB
2AAAA, BBB
3AAAA, BBB
4AAAA, BBB

投稿2021/01/27 10:43

編集2021/01/27 10:44

Daregada

総合スコア11990

Daregada

2021/01/27 10:44

一応、replaceは使ってる(苦しい)。

行動規範の内容に同意します

正規表現使うやつ
要件がほとんどわからないので、68userさんと同様最初の2カラムだけ表示する仕様

python
1import re
2
3buf="""AAAA, BBB,,,,,,,,
4AAAA, BBB,CCCC,DDDD,,,,,,
5AAAA, BBB,1234,9876,,,,,,
6AAAA, BBB,,ZZZZ,,,,,,"""
7
8for line in buf.split('\n'):
9    m = re.match(r'^([^,]+,[^,]+)', line)
10    if m:
11        print(m.groups()[0])
12