質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

4回答

1141閲覧

正規表現を使ったreplace処理

yositigu

総合スコア17

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2021/01/27 10:16

編集2021/01/28 04:44

正規表現を使ってreplace処理を実現したいのですが、ご教授頂けないでしょうか。

修正前

Python

1def convert(tmp_file_path): 2 try: 3 with open(tmp_file_path, encoding='utf-8') as file: 4 insert_info = next(file) 5 data_lines = file.read() 6 # 文字列置換 7 data_lines = data_lines.replace(",,,,,,,,", "") 8

上記は 

AAAA, BBB,,,,,,,,

というレコードを

AAAA, BBB

に置換する処理です。 

これを下記にも対応できるようにしたいです。
※BBBのあと2カラム(CCCCとDDDDのところ)に任意の値が入ります。

AAAA, BBB,CCCC,DDDD,,,,,, や AAAA, BBB,1234,9876,,,,,, や AAAA, BBB,,ZZZZ,,,,,,

などのデータが来た時に

AAAA, BBB

に置換するようにしたいです。

追記

仕様の説明が不足していたため追記します。

任意の文字列1,任意の文字列2,任意の文字列3,,,,,,

というデータを

任意の文字列1

にしたいと考えています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

68user

2021/01/28 04:52 編集

詳細な仕様の追記、ありがとうございます。 「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」というデータの出力結果については理解しましたが、 「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」というデータで *ない* 場合の出力結果はどうあるべきですか? また、「任意の文字列1,任意の文字2,任意の文字列3,,,,,,」の「任意の文字列」とは 1文字以上ということですか? 0文字も含みますか? 任意の文字がカンマそのものであった場合はどうなりますか? さらに入力データはカラム数 9 の CSV と見受けられますが、カラム数が多い、または少ない場合のパターンはどうなりますか?
yositigu

2021/01/28 05:04

はい、入力データはカラム数 9 の CSV になります。 「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」というデータで *ない* 場合の出力結果 ⇒CSVには少なくとも1レコード以上のデータが存在する前提でお願い致します。 「任意の文字列」は0文字の可能性もあります。 任意の文字はカンマ以外とさせてください。 カラム数が多い少ないといったことも起きない想定でお願い致します。
68user

2021/01/28 05:09

例えば AAA,BBB,CCC,DDD,,,,, は 任意の文字列1,任意の文字列2,任意の文字列3,,,,,, に合致しませんが (第4カラムに文字列が入っているため)、そのようなデータはないという前提でしょうか?
68user

2021/01/28 05:10

つまり、「任意の文字列1,任意の文字列2,任意の文字列3,,,,,,」の場合は理解しましたが、「そうでない場合」はありえない、と考えてよいかを確認したいです。
yositigu

2021/01/28 06:10

すみません。混乱してしまいました。 正確には 任意の文字列1,任意の文字列2,・・・・・,任意の文字列29,CCC,DDD,,,,, を 任意の文字列1,任意の文字列2,・・・・・,任意の文字列29 としたい。というのが本当にやりたいことです。 任意の文字列1~29を任意の文字列1としてまとめて記載してしまっておりました。
68user

2021/01/28 06:13

任意の文字列30が"CCC"で、任意の文字列が"DDD"の場合、そのようにするという意味でしょうか。 あるいは 任意の文字列30と31の両方に1文字以上の任意文字列が入っている場合、そのようにするという意味でしょうか。 また、いずれの意味であっても、それに合致しない場合はどうするべきなのでしょうか。
yositigu

2021/01/28 06:17

任意の文字列1,任意の文字列2,・・・・・,任意の文字列29,任意の文字列30,任意の文字列31,,,,, を 任意の文字列1,任意の文字列2,・・・・・,任意の文字列29 にしたいです。
68user

2021/01/28 06:20

つまり、 任意の文字列30と31の両方に1文字以上の任意文字列が入っている場合、そのようにするという意味ですね。 で、その条件に合致しない場合はどうするべきでしょうか。 そのようなケースはありえない? あるいはそのまま出力する?
yositigu

2021/01/28 06:30

任意の文字列30と31は0文字の場合もあり得ます。 条件に合致しない場合はありえない想定でお願いいたします。
68user

2021/01/28 06:39

> 任意の文字列30と31は0文字の場合もあり得ます。 となると、 任意の文字列1,任意の文字列2,・・・・・,任意の文字列29,,,,,,, も条件に合致するので (0文字もありえるので)、 任意の文字列1,任意の文字列2,・・・・・,任意の文字列29 になってしまいますが、それでよいのでしょうか? それはつまり「常に任意の文字列29 以降のカラムを削除する」と同じな気がしますが、正しいでしょうか?
yositigu

2021/01/28 06:40

説明が下手ですみません。 「常に任意の文字列29 以降のカラムを削除する」 であっています。
68user

2021/01/28 07:38

であれば、わたしが先日提示した > print(columns[0] + ', ' + columns[1]) を print(columns[0] + ',' + (略) + ',' + columns[28]) などとすれば OK です (0番目から 28番目までの 29個)。 他の皆様のコードも、数を変えたり増やしたりという点では同じです。
Daregada

2021/01/29 02:08 編集

仕様が追記され、しかもココ(質問への追記依頼)を読むと、その仕様の記述が間違っている(実際には「常に任意の文字列29 以降のカラムを削除する」のですよね?)んですが、質問文の追記部分を修正してもらえませんかね。 元の質問に合わせるとすれば、「任意の文字列1,任意の文字列2」を残し、「常に任意の文字列3以降のカラムを削除する」になるのかな。 あと、「入力データでカンマの後に空白が入るのか入らないのか、どちらもあり得るのか」、「出力データではカンマの後に空白を付けるのか付けないのか」もはっきり記述してほしかった。 > 任意の文字列1~29を任意の文字列1としてまとめて記載してしまっておりました。 えっと、これで相手に通じると思っていたのかな。
guest

回答4

0

ベストアンサー

「正規表現を使う」以外の要件を満たしました。

python

1buf="""AAAA, BBB,,,,,,,, 2AAAA, BBB,CCCC,DDDD,,,,,, 3AAAA, BBB,1234,9876,,,,,, 4AAAA, BBB,,ZZZZ,,,,,,""" 5 6for line in buf.split('\n'): 7 columns = line.split(',') 8 print(columns[0] + ', ' + columns[1])

結果

AAAA, BBB AAAA, BBB AAAA, BBB AAAA, BBB

投稿2021/01/27 10:25

68user

総合スコア2005

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

68user

2021/01/27 10:27

あ、余計なスペースが増えてしまった!
guest

0

subはreplace なのだろうか。

python

1>>> import re 2>>> a='AAAA, BBB,CCCC,DDDD,,,,,,' 3>>> print(re.sub('(?<=AAAA, BBB).*', '', a)) 4AAAA, BBB

そうだ、ごまかそう。

python

1>>> import re 2>>> replace = re.sub 3>>> a='AAAA, BBB,CCCC,DDDD,,,,,,' 4>>> print(replace('(?<=AAAA, BBB).*', '', a)) 5AAAA, BBB

投稿2021/01/27 10:54

編集2021/01/27 10:57
ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

正規表現使わずにpadas使う奴。

Python

1import pandas as pd 2import io 3 4txt = """AAAA, BBB,,,,,,,, 5AAAA, BBB,CCCC,DDDD,,,,,, 6AAAA, BBB,1234,9876,,,,,, 7AAAA, BBB,,ZZZZ,,,,,,""" 8 9df = pd.read_csv(io.StringIO(txt), skipinitialspace=True, header=None) 10df = df.drop(columns=list(range(2, len(df.columns)))) 11buf = io.StringIO() 12df.to_csv(buf, header=None, index=None) 13print(buf.getvalue().replace(",", ", "))

result

1AAAA, BBB 2AAAA, BBB 3AAAA, BBB 4AAAA, BBB

投稿2021/01/27 10:43

編集2021/01/27 10:44
Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Daregada

2021/01/27 10:44

一応、replaceは使ってる(苦しい)。
guest

0

正規表現使うやつ
要件がほとんどわからないので、68userさんと同様最初の2カラムだけ表示する仕様

python

1import re 2 3buf="""AAAA, BBB,,,,,,,, 4AAAA, BBB,CCCC,DDDD,,,,,, 5AAAA, BBB,1234,9876,,,,,, 6AAAA, BBB,,ZZZZ,,,,,,""" 7 8for line in buf.split('\n'): 9 m = re.match(r'^([^,]+,[^,]+)', line) 10 if m: 11 print(m.groups()[0]) 12

投稿2021/01/27 10:37

TakaiY

総合スコア12825

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

TakaiY

2021/01/27 10:40

でも、replaceじゃなかった。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問