質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

Q&A

2回答

3368閲覧

cssselectライブラリで指定したセレクターの中身を丸々表示させる方法

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

0グッド

0クリップ

投稿2018/03/20 09:23

編集2018/03/20 09:23

###該当のソースコード

import requests import lxml.html import pymysql #DBに接続後(コードは省略),テーブルのデータを全部取得。urlカラムにはクロールしたいurlを、selectorカラムにはそのurlの中で取得したい部分のcssセレクターを記載 cursor.execute('SELECT * from テーブル名') results = cursor.fetchall() for row in results: req = requests.get(row["url"])#辞書形式で取得できる設定のためキーで取得 html = req.text root = lxml.html.fromstring(html) qabc = root.cssselect(row["seletcor"]) content = qabc[0].text_content().strip() content2 = qabc[0].attrib["href"]

これで指定したcssセレクターの中に含まれているテキストと、aタグのhref属性の値のurlを取得することができます。
ただこれですとテキストとURLの二行になってしまうためテキストのみ表示されるようにしテキストをクリックしたらそのurlのページに飛べるようにしたいと思っています。

あああああ
http://www.aaa

ではなく
<a href=http://www.aaa>あああああ<a/>

にしたいです。その場合どのようにすればいいのでしょうか?cssselectライブラリーを使っているのですがこれだとできないのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

cssselectと言っても結局lxmlを扱うことになるので、あくまで**lxmlでどう書くか?**ということを考える/調べる必要がある内容です。

http://effbot.org/zone/element.htm#xml-namespaces のちょっと上のところ。
ただし、ここでいうstringはPython3でいうbytes型の様ですね。
おかげで一手間必要でちょっと回りくどいし、tailつまり要素の後続文字列がくっついてきてしまう問題があるみたいですが、これで十分でしょうか?

Python

1import lxml.etree 2 3def to_html(elm, encoding='utf-8', method='html'): 4 return lxml.etree.tostring(elm, encoding=encoding, method=method).decode(encoding) 5 6() 7 8qabc = root.cssselect(row["seletcor"]) 9html = to_html(qabc[0])

投稿2018/03/20 13:29

quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/03/20 18:16

試してみます。ご回答ありがとうございます。
guest

0

普通に文字列連結して出力だとダメですか。

python

1print('<a href="' + content2 +'">' + content + '<a/>')

投稿2018/03/20 12:59

hiromichinomata

総合スコア294

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/03/20 14:45

ご回答ありがとうございます。 それですと3倍処理の時間がかかってるようなので、contentとcontent2にわけて取得をするのではなく一回で取得ができないかなと思っていました
退会済みユーザー

退会済みユーザー

2018/03/20 15:02

すいませんそこまで速度は変わってなかったです。
退会済みユーザー

退会済みユーザー

2018/03/20 18:15

一度に取り出す方法がわからなかったらこのやり方でやってみようと思います。ご回答ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問