質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.57%

[Python3] 検索した文字列からhtmlタグを取得

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,468

Yukiya025

score 80

検索して一致した文字列のhrefタグはどうやれば取得できるでしょうか。
re.search(r"privacy policy|プライバシーポリシー|個人情報", html1).start()

htmlタグからリンクを取得したことはあるのですが、
検索して見つかった文字列のタグをキーとしてhrefリンクを取得する方法がわかりません。

「個人情報」という文字列をキーとしてhrefリンクを取得する方法はあるでしょうか。

    priv_htm = re.search(r"privacy policy|プライバシーポリシー|個人情報", html1).start()
    if priv_htm != -1:
        print(priv_htm)
        print(re.search(r"privacy policy|プライバシーポリシー|個人情報", html1))
        print("hrefを取得します")
        # ここにhrefを取得する処理を入れたい
    else: print("ありませんでした")

html1の中身
以下のhref のリンクを取得したいです。

<li>
    <a href="/orj/privacypolicy.shtml">
        個人情報について
    </a>
</li>

<!-- 
<a href="/orj/privacypolicy.shtml">までの位置関係↓
html > body#index.home > div#page > section#content > div#right > 
div.footer.clearfix > div.footer-item.footer-right > 
ul.footer-category.service > li > a
-->

 できました<3

jun68ykt様のアドバイスのおかげで解決しました。text = で指定できるとは(≧▽≦) ありがとうございますヽ(`▽´)/

from bs4 import BeautifulSoup
import requests
import re
"""
privacy policyまたはプライバシーポリシー、個人情報がサイトにあるか。
あればTrueなければFalse
"""
import warnings
warnings.filterwarnings('ignore')

def get_html():
    """
    - bs4, requestsが必要
    スクレイピングするならこの関数を最初に使う
    指定したURLのhtml文書を整列して.htmlに保存。
    ページからタグを除去して全テキストを抽出。
    用途: スクレイピングをするときにファイル構造を見る
    """
    r = requests.get("https://www.oreilly.co.jp/index.shtml")
    r.encoding = r.apparent_encoding
    html_doc = r.text
    soup = BeautifulSoup(html_doc)

    html1 = open('Oreilly.html', 'w')
    html1.write(soup.prettify())
    html1 = soup.prettify()

    text1 = open('Oreilly.text', 'w')
    text1.write(soup.get_text())
    text1 = soup.get_text()

    """
    以下からは需要に応じてオプション
    プライバシーポリシー系を探す
    Privacy policy、プライバシーポリシー、個人情報
    """

    pattern = r"privacy policy|個人情報|プライバシーポリシー"

    with open('Oreilly.html') as f:
        soup = BeautifulSoup(f.read(), 'lxml')

        for link in soup.findAll('a', text=re.compile(pattern, re.IGNORECASE)):
            print(link['href'])


get_html()
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

こんにちは。

BeautifulSoupを使って、以下でどうでしょうか? (入力するHTML をtest.html、 Pythonスクリプトを main.py で作成しました)

(teratail) [jun68ykt@macmini q153175]$ date
2018年 10月20日 土曜日 19時07分03秒 JST
(teratail) [jun68ykt@macmini q153175]$ python3 -V
Python 3.7.0
(teratail) [jun68ykt@macmini q153175]$ pip3 list | grep beautifulsoup4
beautifulsoup4  4.6.3    
(teratail) [jun68ykt@macmini q153175]$ cat test.html 

<!DOCTYPE html>
<html lang="ja">
<head>
    <meta charset="UTF-8">
    <title>q153175</title>
</head>
<body>
    <ul>
        <li>
             <a href="/orj/top.shtml">
                トップページ
            </a>
        </li>
        <li>
            <a href="/orj/privacypolicy.shtml">
                個人情報について
            </a>
        </li>
        <li>
            <a href="/orj/aboutus.shtml">
                運営会社
            </a>
        </li>
    </ul>
    <div>
        <a href="/orj/privacypolicy2.shtml">
            弊社のプライバシーポリシー
        </a>
    </div>


    <a href="/orj/privacypolicy3.shtml">
        Our Privacy Policy Statement
    </a>
</body>
</html>

[jun68ykt@macmini q153175]$ cat main.py

from bs4 import BeautifulSoup
import re

pattern = r"privacy policy|個人情報|プライバシーポリシー"

with open('./test.html') as f:
    soup = BeautifulSoup(f.read(), 'lxml')

    for link in soup.findAll('a', text=re.compile(pattern, re.IGNORECASE)):
        print(link['href'])

(teratail) [jun68ykt@macmini q153175]$ python3 main.py
/orj/privacypolicy.shtml
/orj/privacypolicy2.shtml
/orj/privacypolicy3.shtml

なお、上記で作成した main.py と test.html は以下に上げておきました。

以上参考になれば幸いです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/20 20:04

    私もGitHubに上げました(≧▽≦)
    https://github.com/Yukiya025/CompanyScraping

    キャンセル

  • 2018/10/20 20:15

    拝見しました。頑張ってますね!★ お付けしておきました〜

    キャンセル

  • 2018/10/20 20:27

    ありがとうございます(≧▽≦)

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.57%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る