質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

2回答

279閲覧

HTMLコードのpythonによる正規表現で指定した部分が取得できない理由は?

kazuh1r010

総合スコア23

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2018/04/04 05:55

編集2018/04/04 06:11

こんちには、現在、HTMLコードのpythonによる正規表現をしています。

以前から取り組んでいるスクレイピングだけでは取得が複雑な部分を
正規表現で取得することで、カバーしようと試みています。

ある程度は、値を他の部分では取得できているのですが、
正規表現で絞ったhtmlから、再度、正規表現を
行っている部分の値がうまく取得できません。

コードは以下のようになります。

python

1 """(seleniumで取得した)htmlの絞り込み""" 2 pattern1 = '<th>合計</th>(.*?)</tr>' 3 total_html = re.findall(pattern1,html,re.S) 4 """確認用に表示""" 5 print(total_html) 6 7 pattern2 = '<td class=".cost">(.*?)</td>' 8 total = re.findall(pattern2,total_html,re.S) 9 print("合計金額:"+total[0])#合計金額部分の表示

確認用に表示したhtmlコード部分([]も表示されてしまっています)

['\n<td class="cost">1,000円</td>\n<td class="cost">0円</td>\n<td class="cost">0円</td>\n\n<td class="cost">500円</td>\n\n']

自分がまだまだ正規表現について知識が未熟なので
原因が分かりません。

なぜ値をうまく取得できないのでしょうか?

原因がお分かりになる方、いらっしゃいましたら
ご教授お願いできないでしょうか?
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

元htmlおよびやりたいことがうまく把握できているか自信がありませんが、以下のような感じでしょうか?

Python

1src_html = """ 2<th>合計</th> 34<td class="cost">1,000円</td>\n<td class="cost">0円</td>\n<td class="cost">0円</td>\n\n<td class="cost">500円</td> 56</tr> 7""" 8 9total_html = re.findall( '<th>合計</th>(.*?)</tr>', src_html, re.S) 10if total_html: 11 # とりあえず最初のみ(total_html[0])でよい? 12 for td in re.findall( r'<td class="cost">(.*?)</td>', total_html[0], re.S): # '.cost'->'cost' 13 print('合計金額:' + td)

投稿2018/04/04 06:25

can110

総合スコア38262

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kazuh1r010

2018/04/04 06:32

回答ありがとうございます! また、私の少ない情報からやりたいことを察していただき ありがとうございます! 回答のように修正したところ、値が取得できました、助かりました!
guest

0

pattern2 = '<td class=".cost">(.*?)</td>'

とclassアトリビュートの値が.costですが、入力された文字列中のclassアトリビュートはclass="cost"となっています。
それで正規表現にヒットしないのではないでしょうか。
正規表現の方の.costをcostにしたら、どうなるでしょうか。

投稿2018/04/04 06:16

kazto

総合スコア7196

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kazuh1r010

2018/04/04 06:23 編集

回答ありがとうございます! .costは色々試行錯誤して cost→.*? に置き換えたらどうかと 試したあとに修正したときの漏れです。 修正しましたがヒットしませんでした、、、
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問