実案件でのスクレイピング学習を行なっています。
このURLのページで表示されている、"会社名"を抽出したいです。
会社名が記載されているHTMLコードはこのようになっており、これをもとに現在下のようなコードを書いてみました。
しかし、会社名が記載されている<span>タグがその下の"NEW"と"締め切り間近"にもかかっている為、
表示結果として、画像のようになってしまいます。
これを踏まえて、会社名のみを抽出したい場合どのようなコードに修正すればよかったでしょうか、ご教授いただけますでしょうか。
Python
1from time import sleep 2import pandas as pd 3import requests 4from bs4 import BeautifulSoup 5import re 6 7url = 'https://doda.jp/DodaFront/View/JobSearchList.action?ss=1&pr=13&pic=1&ds=0&oc=0112M%2C0113M%2C010401S%2C010402S%2C010404S&so=50&tp=1' 8r = requests.get(url) 9 10soup = BeautifulSoup(r.content , 'lxml') 11post_first = (soup.find('section' , id="shStart" , class_="mainRight")) 12 13 14for div in post_first.find_all('span' , 'company' , 'width688'): 15 print(div.text)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/10/28 07:09
2021/10/28 07:26