質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

1回答

528閲覧

selenium 特定のテキストを指定して情報取得したい

T1T1T1

総合スコア2

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2021/06/20 08:34

編集2021/06/20 15:39

前提・実現したいこと

下記のコードを実行した後、当該サイトから全てのAbstractのテキストのみを抽出したいと考えています。
様々なサイト様を参考にさせていただいているのですが、なかなかうまくいきません、、、
何卒よろしくお願いします

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2021/06/20 09:33

> 全てのAbstractのテキストのみ とは、HTML的に何のことを言ってますか?
T1T1T1

2021/06/20 09:51

otn 様 お忙しいところ質問のご確認いただきありがとうございます。 Abstractのテキストの件ですが、該当箇所のHTMLの方写真にて添付させていただきました。 Abstractがこちらのページに複数箇所ありますので、こちらのテキストを全て抽出したいと考えております。 初心者の私にはなかなか難しく頭を悩ませておりましたので、ご協力いただけますと助かります。 何卒よろしくお願いします。
otn

2021/06/20 09:58

HTMLのどの部分のことを言ってるのか、文章で書いてください。
T1T1T1

2021/06/20 10:03

お忙しいところご返信いただきありがとうございます。 <div id="abstract_0" style="display: block;"><span>Abstract:</span>支援に難渋した、認知症をもつ<span class="hilite">糖尿病</span>の70歳代の独居女性患者の事例を報告した。認知症をもつ2型<span class="hilite">糖尿病</span>の70歳代の独居女性患者とその次男を対象に、加齢や<span class="hilite">糖尿病</span>による身体的変化、生活の中で感じる困難さ、<span class="hilite">糖尿病</span>の自己管理の困難さ、対象患者自身を取り巻く環境について、インタビューを実施し、カルテの経過の記述から自己管理に関する記述を情報収集した。インタビュー内容の分析から、認知症をもつ<span class="hilite">糖尿病</span>独居高齢者の自己管理の困難さの要因として、21コード、10サブカテゴリー、「病気や治療への負担感や煩わしさ」「インスリン自己注射の困難さ」「患者と家族間の療養生活上の困りごとについての認識の相違」「家族に迷惑をかけたくない」「孫に会いたいが会えない」「退院への不安」の5つのカテゴリーが抽出された。「患者と家族間での療養生活上の困りごとについての認識の相違」は、生命の危機や生活の質(QOL)の低下に関与することが示唆された。</div> となっております。 何卒よろしくお願いします。
otn

2021/06/20 10:07 編集

「HTML的に何のこと」とか、「文章で」というのはそういう意味じゃ無いです。 「id が "abstract_0" であるような div」ということですか?
T1T1T1

2021/06/20 10:10

ご返信いただきありがとうございます。 otn 様のご認識で間違いないです。 よろしくお願いしますm(_ _)m
T1T1T1

2021/06/20 10:23

otn 様 ご回答いただきありがとうございます。 どのようにして出力すればいいのでしょうか、、、 print(abstract_text)では何も表示されません、、、 お忙しいところ大変恐縮ですが、何卒よろしくお願いします。
guest

回答1

0

ベストアンサー

Python

1abstract_text = webdriver.find_element_by_css_selector("div#abstract_0").text

でしょうか。

投稿2021/06/20 10:17

otn

総合スコア85778

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

T1T1T1

2021/06/20 10:39

otn 様 ご回答いただきありがとうございます。 どのようにして出力すればいいのでしょうか、、、 print(abstract_text)では何も表示されません、、、 お忙しいところ大変恐縮ですが、何卒よろしくお願いします。
otn

2021/06/20 15:50

表示の仕方は、それで合ってます。 表示されないと言うことは、何も無いと言うことでしょう。もしくは実行の仕方がおかしいか。 find_element_by_css_selectorがエラーになっていないのであれば、ノードはあるということですが。
T1T1T1

2021/06/21 06:06

お世話になっております。 otn 様のおかげで解決しました。 助かりました。ありがとうございました。
otn

2021/06/21 09:12

「何も表示されません」の原因は分かったのでしょうか?
T1T1T1

2021/06/21 12:13

Abstractを開くようなコードを追加したところ表示されるようになりました。Abstractはデフォルトでは隠れてしまっております。 この度はご対応いただきありがとうございました(^ ^) もしよろしければ、私の他の質問にもお答えいただけないでしょうか。 何卒よろしくお願いしますm(_ _)m
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問