🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

5回答

3697閲覧

pythonで先頭にある全角空白文字を数える。

Drthomas

総合スコア17

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/11/24 11:28

pythonで文字列の先頭にある全角空白文字を数える。

上記のことを文字コードUTF-8で行ないたいと思っています。

普通にすべての全角空白文字列を数えるだけなら、

python

1str = '   2019/11/2    今日の日付' 2pritnt str.count('\u3000')

とすると

python

17

と返ってきます。

今したいこと

「   2019/11/2    今日の日付」の
2019/11/2の前にある全角空白文字列数である

python

13

が返ってくるようにしたいのです。
どうにかよい方法がないか教えていただけないでしょうか。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答5

0

ベストアンサー

python

1>>> import re 2>>> s = '   2019/11/2    今日の日付' 3>>> re.match(r"\u3000*", s).end() 43

re.matchが文字列の先頭でのみマッチすることを都合よく利用しています。
re --- 正規表現操作 — Python 3.8.0 ドキュメント

raw-stringsにしているので\u3000は正規表現パーサによって全角空白と認識されていること、*を使っているので必ずマッチすること(先頭が全角空白でない場合はspan=(0, 0)のマッチオブジェクトが返る)も、念の為に言い添えておきます。

投稿2019/11/24 12:41

編集2019/11/24 13:54
hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Drthomas

2019/11/24 13:06

回答いただきありがとうございます。 すっきりした書き方なので、この書き方で、試してみたいと思います。
guest

0

python

1>>> import re 2>>> str = '   2019/11/2    今日の日付' 3>>> re.search(r'[^\u3000]',str).start() 43

投稿2019/11/24 12:35

NCC1701

総合スコア1680

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Drthomas

2019/11/24 13:04

回答いただきありがとうございます。 試してみます。
guest

0

処理的には少し冗長ですが・・・

Python

1>>> import re 2>>> str = '   2019/11/2    今日の日付' 3>>> print(len(re.split('[^\u3000]',str)[0])) 43

投稿2019/11/24 12:02

nomuken

総合スコア1627

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Drthomas

2019/11/24 13:03

import re を使う方法があるとは知りませんでした。 ありがとうございます。
guest

0

とりあえず思い付いた方法です。

Python

1src = '   2019/11/2    今日の日付' 2print( 3 len(src) - len(src.lstrip(' ')) 4)

投稿2019/11/24 11:58

LouiS0616

総合スコア35668

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Drthomas

2019/11/24 13:02

文字列数を引く方法は思いつきませんでした。ありがとうございます。
guest

0

分かりやすい方法としては、1文字のスライスを使って、先頭文字から順番に見ていって、全角空白でない文字になるか、文字列が尽きるときまで、数えればいいです。

投稿2019/11/24 11:54

otn

総合スコア85882

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Drthomas

2019/11/24 11:57

回答ありがとうございます。やはり、一文字ずつ見ていくしか方法はないですか... もう少し回答を待ってみようと思います。
otn

2019/11/24 12:44

いや、他にたくさん方法がありますよ。原理がわかりやすい方法ということで書きました。 私ならこうは書きませんが。
otn

2019/11/24 12:50

import re print(re.search("[^ ]",str).start()) このままだと、「strが全角空白以外の文字がない」場合にエラーです。
Drthomas

2019/11/24 13:01

ありがとうございます。試してみます。
otn

2019/11/24 13:14

他の回答を見ると、やはり正規表現が第一感という人が多いようです。 「strが全角空白以外の文字がない」場合に対応すると、 print(re.search("[^ ]",str+"X").start()) ですが、それよりhayataka2049 さんの回答がさすがです。
Drthomas

2019/11/24 13:34

確かにそう思いますので、ベストアンサーにさせていただきます。 otnさんも、丁寧なご回答ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問