前提・実現したいこと
BeautifulSoupのスクレイピングで表の中の特定の文字を取得したい。
取得した文字(作家の名前)をデータベースに登録したい。
テーブルは以下のようなHTMLで構成されています。
HTML
1<div class="tab-content" id="myTabContent"> 2 3 <div id="no9" class="tab-pane fade active in"> 4 <dl> 5 <dt><span class="no">回</span><span class="year">受賞年</span></dt><dd><span class="name">受賞者</span><span class="title head">受賞作</span><span class="magazine ">掲載誌</span></dd> 6 7 <dt><span class="no">160</span><span class="year">2018下</span></dt><dd><span class="name">上田岳弘</span><span class="title">ニムロッド</span><span class="magazine ">群像</span></dd> 8 <dt><span class="no">160</span><span class="year">2018下</span></dt><dd><span class="name">町屋良平</span><span class="title">1R<span class="small">(いちらうんど)</span>1分34秒</span><span class="magazine ">新潮</span></dd> 9 10 11 </dl> 12 </div> 13
発生している問題・エラーメッセージ
<dd>タグ内にある作者の名前だけを抽出したいのですが、最初の<dd>タグにある「受賞者」という文字列も取得されてしまいます。<span class="name">という指定も同じなので、作家名だけを抜き出すという指定ができずにおります。
試したこと
find_allなどで引数にいろんな条件を指定してみましたが、いかんせんタグの構成やクラスもまったく同じなので何もできませんでした。
最終的に作家名をデーターベースに登録できればいいのですが、他の方法などがあれば合わせてご教授願います。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2019/03/02 11:25
2019/03/02 11:35 編集
退会済みユーザー
2019/03/02 11:42