質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

653閲覧

Coraboratory Python Webスクレイピング

退会済みユーザー

退会済みユーザー

総合スコア0

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/03/19 07:04

<h1 class="mainvisual_title">あいうえお</h1> <p class="mainvisual_category">かきくけこ</p>

あるwebサイトの「あいうえお」「かきくけを」を抜き取りたいのですが、titleからxpathをコピーすると順番が逆になり余計なものが入ってきてしまう為、
copy selectorで試してみました。

print(soup.select("#wrap > div.contents.entries_wrap > div.main.js-contents-top > div.mainvisual._a.pb60 > div > div.mainvisual_main > p.mainvisual_category")) print(soup.select("#wrap > div.contents.entries_wrap > div.main.js-contents-top > div.mainvisual._a.pb60 > div > div.mainvisual_main > h1"))

結果、以下のように希望通り文字は抜き取れたのですが、

<p class="mainvisual_category">と[<h1 class="mainvisual_title">が不要です。
[<p class="mainvisual_category">あいうえお</p>] [<h1 class="mainvisual_title">かきくけこ</h1>]

いろいろ試してもうまくいかないので、詳しい方、ご教示いただきたくよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

soup.selectを使うと質問にあるようにタグ付きでリストで返ってきます。抜き取りたいものが一つだけの場合はsoup.select_oneを使うようにして、get_text()でテキストだけにするといいです。テキストだけにする処理をtextプロパティを使っているケースが多いようですが、公式ドキュメントにはget_text()の方だけしか記載がないようなのでget_text()にしておきました。

python

1print(soup.select_one("#wrap > div.contents.entries_wrap > div.main.js-contents-top > div.mainvisual._a.pb60 > div > div.mainvisual_main > p.mainvisual_category").get_text()) 2print(soup.select_one("#wrap > div.contents.entries_wrap > div.main.js-contents-top > div.mainvisual._a.pb60 > div > div.mainvisual_main > h1").get_text())

投稿2019/03/19 16:35

編集2019/03/19 16:36
YasuhiroNiji

総合スコア584

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2019/03/20 04:52

ありがとうございます。 何時間やってもうまくいかず、すごく勉強になりました。
退会済みユーザー

退会済みユーザー

2019/03/21 05:30

行き詰ってしまい、もしおわかりになればご教示いただきたいのですが、この出力した内容をスプレッドシートに出力したいです。 worksheet.update_acell('A1', '****')の形ですと、***の文字は表示されますが、soup.select_oneを引っ張ってくるにはどのようにしたらよいのでしょうか?
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問