Python BeautifulSoupを使用したスクレイピング

実案件でのスクレイピング学習を行なっています。

このURLのページで表示されている、"会社名"を抽出したいです。

会社名が記載されているHTMLコードはこのようになっており、これをもとに現在下のようなコードを書いてみました。
しかし、会社名が記載されている<span>タグがその下の"NEW"と"締め切り間近"にもかかっている為、
表示結果として、画像のようになってしまいます。

これを踏まえて、会社名のみを抽出したい場合どのようなコードに修正すればよかったでしょうか、ご教授いただけますでしょうか。

Python
1from time import sleep
2import pandas as pd
3import requests
4from bs4 import BeautifulSoup
5import re
6
7url = 'https://doda.jp/DodaFront/View/JobSearchList.action?ss=1&pr=13&pic=1&ds=0&oc=0112M%2C0113M%2C010401S%2C010402S%2C010404S&so=50&tp=1'
8r = requests.get(url)
9
10soup = BeautifulSoup(r.content , 'lxml')
11post_first = (soup.find('section' , id="shStart" , class_="mainRight"))
12
13
14for div in post_first.find_all('span' , 'company' , 'width688'):
15    print(div.text)

行動規範の内容に同意します

回答1件

ベストアンサー

以下でいかがでしょうか。

python:
1for div in post_first.find_all('span', class_='company width688'):
2    print(div.contents[0])

【結果】
アデコ株式会社
株式会社TMJ（セコムグループ）
Ｔａｌｋｎｏｔｅ株式会社
ヤフー株式会社
（中略）
プロイク株式会社
株式会社Ｃ－ｍｉｎｄ
株式会社ＬＩＦＥ　ＳＯＵＮＤ
株式会社ハンデックス

投稿2021/10/28 06:26

_whitecat_22

総合スコア1305

oasi

2021/10/28 07:09

ありがとうございます！希望通りの動作をしてくれました。解釈としては、<span class="company width688">の子要素ということでcontents使用、その中からインデックス番号指定という意味で[0]を使用、ということでよろしかったでしょうか...。

_whitecat_22

2021/10/28 07:26

解釈は仰る通りです！お役に立てて嬉しいです^^

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Python BeautifulSoupを使用したスクレイピング

関連した質問