例文

現状

○○を使って行きます。
詳しくは以下URLをご覧ください。
<https://teratail.com/que
stions/input>

また上記URL以外にも以下が参考になります。
[テストリンク]h(ttps://teratail.com/que
stions/output)

完成理想型

○○を使って行きます。
詳しくは以下URLをご覧ください。
https://teratail.com/questions/input

また上記URL以外にも以下が参考になります。
[テストリンク]h(ttps://teratail.com/questions/output)

実現したいこと

上記おかしな改行入りURLを改行なしURLに置換したい

困っていること

数十人が編集する文章のため、URLの挿入方法が複数あるため、抽出は出来ても、うまく置換ができずにいる。

実行すると、文章の最後まで一致してしまい、ほぼすべての文章が消えてしまう。

今やっていること

python
1    urls = re.findall(r'[[^]]+]([^)]+)', body,
2                      flags=re.MULTILINE | re.DOTALL)
3    urls2 = re.findall(
4        r'<https://hogehoge[\s\S]*?>', body, flags=re.MULTILINE)
5    for n in urls2:
6        urls.append(n)
7
8    # 抽出したURLのリストを適切な形に直していく
9    if len(urls) != 0:
10        for i in urls:
11            url = i
12            print(i)
13            url = re.sub("\n", "", url)
14            url = re.sub("[>()]", "", url)
15            url = re.sub(".*https", "https", url)
16            url = re.sub("[.*]", "", url)
17            url = re.sub("\s", "", url)
18            url = re.sub(" ", "", url)
19            url = re.sub("<", "", url)
20            url = re.sub(">", "", url)
21            endText = url[-10:]
22            reg = "http[\s\S]*?" + endText
23            body = re.sub(reg, url, body)

行動規範の内容に同意します

回答2件

以下です。

python
1import re
2
3text = '''○○を使って行きます。
4詳しくは以下URLをご覧ください。
5<https://teratail.com/que
6stions/input>
7
8また上記URL以外にも以下が参考になります。
9[テストリンク](https://teratail.com/que
10stions/output)'''
11
12text2 = re.sub(r'(<[^>]*)\n([^>]*>)', r'\1\2', text)
13text3 = re.sub(r'([[^]]*](http[^)]*)\n([^)]*))', r'\1\2', text2)

実行結果です。

python
1>>> print(text3)
2○○を使って行きます。
3詳しくは以下URLをご覧ください。
4<https://teratail.com/questions/input>
5
6また上記URL以外にも以下が参考になります。
7[テストリンク](https://teratail.com/questions/output)

投稿2021/11/22 08:52

ppaul

総合スコア24670

ベストアンサー

※ URL 文字列は > か ) までという前提です

python
1import re
2
3text = '''
4○○を使って行きます。
5詳しくは以下URLをご覧ください。
6<https://teratail.com/que
7stions/input>
8
9また上記URL以外にも以下が参考になります。
10[テストリンク](https://teratail.com/que
11stions/output) 
12'''.strip()
13
14result = re.sub(r'http.+?[>)]',
15           lambda m: m.group(0).replace('\n', ''),
16         text, flags=re.S)
17
18print(result)
19
20#
21○○を使って行きます。
22詳しくは以下URLをご覧ください。
23<https://teratail.com/questions/input>
24
25また上記URL以外にも以下が参考になります。
26[テストリンク](https://teratail.com/questions/output)