質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.69%
HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

279閲覧

Pythonで文章を要素ごとに区切りたい

退会済みユーザー

退会済みユーザー

総合スコア0

HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2022/07/30 04:18

pythonで以下ののような処理をしたいです。

python

1test = "今日の天気は晴れ 明日は雨かな  曇りかな 2    どうだろうか"

これを.split()を使って改行すると以下のようになります。

python

1test..split() 2["今日の天気は晴れ", "明日は雨かな", "曇りかな", "どうだろうか"]

これを以下のように、空白も改行も含めた上でリスト化したいのですが、良い方法が見つかりません。

python

1["今日の天気は晴れ", " ", "明日は雨かな", " ", "曇りかな", "<br>", "どうだろうか"]

解決策をご存知でしたら教えて頂けると助かります。
よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

melian

2022/07/30 05:37

例えば、 test = '今日の天気は晴れ、 明日は雨かな?' の場合はどの様に分割されるのが望ましいのでしょうか?
退会済みユーザー

退会済みユーザー

2022/07/31 02:13

追記ありがとうございます。 test = '今日の天気は晴れ、 明日は雨かな?' の場合ですと、['今日の天気は晴れ', ' ', '明日は雨かな?'] というようにしたいです。
melian

2022/07/31 02:25

句読点は削除するということでしょうか?
退会済みユーザー

退会済みユーザー

2022/07/31 05:15

大変失礼致しました。 ['今日の天気は晴れ,’, ' ', '明日は雨かな?'] で句読点もそのままでした。
melian

2022/07/31 05:33

ありがとうございます。もしも句読点を削除する場合は回答を書き替えるつもりでした。
退会済みユーザー

退会済みユーザー

2022/07/31 10:13

大変丁寧な回答ありがとうございました。 ベストアンサーとさせて頂きました。 今後ともよろしくお願いします。

回答2

1

ベストアンサー

python

1import re 2 3test = ''' 4今日の天気は晴れ 明日は雨かな  曇りかな 5    どうだろうか 6'''.strip() 7 8splited = re.split(r'(\s+)', test) 9print(splited) 10 11# 12['今日の天気は晴れ', '\u3000', '明日は雨かな', '\u3000\u3000', '曇りかな', '\n\u3000\u3000\u3000 ', 'どうだろうか']

投稿2022/07/30 04:49

melian

総合スコア18138

退会済みユーザー👍を押しています

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

また依頼した内容が修正された場合は、修正依頼を取り消すようにしましょう。

0

別案です。

単語と空白文字の間は「単語境界(\b)」なので。

python

1word_list = re.split(r'\b', test)

追記

最初と最後に付いてしまう空文字を取り除くのであれば、こうすればいいでしょう。

python

1word_list = re.split(r'\b', test)[1:-1]

投稿2022/07/30 05:03

編集2022/07/30 05:19
TakaiY

総合スコア11973

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

また依頼した内容が修正された場合は、修正依頼を取り消すようにしましょう。

回答へのコメント

melian

2022/07/30 05:15

単語境界で区切ると、word_list の最初と最後に ''(空文字)が追加されてしまいます。
TakaiY

2022/07/30 05:17

なるほど、ほんとだ。そうですね。 追記しておきます。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.69%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

同じタグがついた質問を見る

HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。