スクレイピング時のデータの加工

スクレイピングを行なっております。以下のようにbeautifulsoup4によってタグから情報を一括で所得した時に〇〇線/〇〇駅　歩〇分という情報のみに加工したいのですが何か良い方法はありますでしょうか？

python
1station = soup.find_all("div",{'class':'detailnote-box'})
2station

→出力
[<div class="detailnote-box">

<div>都営浅草線/高輪台駅歩8分</div> <div>ＪＲ山手線/五反田駅歩12分</div> <div>ＪＲ山手線/品川駅歩10分</div> </div>, <div class="detailnote-box"> <div class="detailnote-box-item">  <input id="clipkey" type="hidden" value="100189944780"> <div><a class="js-noCassetteLink" href="/chintai/kaisha/kc_030_158045001/" title="MINATO STYLE (株)3B ARROWS">MINATO STYLE (株)3B ARROWS</a></div>  <div class="ui-text--bold"> 0037-625-05623</div> </input></div> </div>, <div class="detailnote-box"> <div>都営浅草線/高輪台駅歩8分</div> <div>ＪＲ山手線/品川駅歩10分</div> <div>ＪＲ山手線/五反田駅歩13分</div> </div>, <div class="detailnote-box"> <div class="detailnote-box-pct"><span class="ellipse_pct">見学予約可</span></div> <div class="detailnote-box-item">  <input id="clipkey" type="hidden" value="100189886085"/> <div><a class="js-noCassetteLink" href="/chintai/kaisha/kc_030_144978001/" title="(株)東京アーバンディライト">(株)東京アーバンディライト</a></div>  <div class="ui-text--bold">

行動規範の内容に同意します

回答1件

ベストアンサー

以下でどうでしょう？

python3
1stations = [div.text for div in soup.select('.detailnote-box > div') if re.match(r'.+線/.+駅\s+歩\d+分', div.text)]

動作確認用Repl.it: https://repl.it/@jun68ykt/Q246983

本題とは関係のない余談ですが、高輪台、五反田、品川の中間あたりというと、（今でもこう呼ばれているかは知りませんが、）3Sと呼ばれるお嬢さま女子大のひとつがある辺りですかね。お家賃、それなりにいいお値段しそうですね。

投稿2020/03/14 00:26

jun68ykt

総合スコア9058

fallout_boy

2020/03/15 13:37

ありがとうございました。回答を参考に各物件の最短(一番上)の時間のみをとってくるようにsplitなどを使って試行錯誤していますが、できません。教えていただけますでしょうか。

jun68ykt

2020/03/15 17:18

どういたしまして。 > 各物件の最短(一番上)の時間のみをとってくるということだと、以下でいけるかと思います。 minutes = [re.search('歩(\d+)分', div.text).group(1) for div in soup.select('.detailnote-box > div:first-child') if re.match(r'.+線/.+駅\s+歩\d+分', div.text) ] 要素のセレクターに、 :first-child を追加することで、.detailnote-box　直下のdiv のうち、最初のものだけを取得し、そのテキストが、'.+線/.+駅\s+歩\d+分'　に一致するのものについて、歩と分の間に挟まれた数字を取得します。動作確認用Repl.it： https://repl.it/@jun68ykt/Q246983-2

jun68ykt

2020/03/15 17:27

または、リスト内包表記で頑張り過ぎると可読性が落ちるので、以下です。動作確認用Repl.it： https://repl.it/@jun68ykt/Q246983-3

fallout_boy

2020/03/17 00:57

何度も何度もすいません。抽出したいデータの中に~~線に該当しないゆりかもめがありました。これがすり抜けていました。以下のようなテキストも含まれていた場合、どのようにすれば良いでしょうか。 </div>, <div class="detailnote-box"> <div>新交通ゆりかもめ/高輪台駅歩8分</div> <div>ＪＲ山手線/品川駅歩10分</div> <div>ＪＲ山手線/五反田駅歩13分</div> </div>, <div class="detailnote-box"> 回答者様のコードからこのようにifを並列させてみましたがうまくいきません minutes = [re.search('歩(\d+)分', div.text).group(1) for div in soup.select('.detailnote-box > div:first-child') if re.match(r'.+線/.+駅\s+歩\d+分', div.text) if re.match(r'新交通ゆりかもめ/.+駅\s+歩\d+分', div.text)] どのようにすれば良いでしょうか...

fallout_boy

2020/03/17 08:19

解決しました、度々ご迷惑をおかけしてすいません。ありがとうございました！

行動規範の内容に同意します