cssselectライブラリで指定したセレクターの中身を丸々表示させる方法

###該当のソースコード

import requests
import lxml.html
import pymysql

#DBに接続後（コードは省略）,テーブルのデータを全部取得。urlカラムにはクロールしたいurlを、selectorカラムにはそのurlの中で取得したい部分のcssセレクターを記載
cursor.execute('SELECT * from テーブル名')
    results = cursor.fetchall()

    for row in results:
        req = requests.get(row["url"])#辞書形式で取得できる設定のためキーで取得
        html = req.text
        root = lxml.html.fromstring(html)
        qabc = root.cssselect(row["seletcor"])
        content = qabc[0].text_content().strip()
        content2 = qabc[0].attrib["href"]

これで指定したcssセレクターの中に含まれているテキストと、aタグのhref属性の値のurlを取得することができます。
ただこれですとテキストとURLの二行になってしまうためテキストのみ表示されるようにしテキストをクリックしたらそのurlのページに飛べるようにしたいと思っています。

あああああ
http://www.aaa

ではなく
<a href=http://www.aaa>あああああ<a/>

にしたいです。その場合どのようにすればいいのでしょうか？cssselectライブラリーを使っているのですがこれだとできないのでしょうか？

行動規範の内容に同意します

回答2件

cssselectと言っても結局lxmlを扱うことになるので、あくまで**lxmlでどう書くか?**ということを考える/調べる必要がある内容です。

http://effbot.org/zone/element.htm#xml-namespaces のちょっと上のところ。
ただし、ここでいうstringはPython3でいうbytes型の様ですね。
おかげで一手間必要でちょっと回りくどいし、tailつまり要素の後続文字列がくっついてきてしまう問題があるみたいですが、これで十分でしょうか?

Python
1import lxml.etree
2
3def to_html(elm, encoding='utf-8', method='html'):
4    return lxml.etree.tostring(elm, encoding=encoding, method=method).decode(encoding)
5
6(略)
7
8qabc = root.cssselect(row["seletcor"])
9html = to_html(qabc[0])

投稿2018/03/20 13:29

quickquip

総合スコア11038

退会済みユーザー

2018/03/20 18:16

試してみます。ご回答ありがとうございます。

行動規範の内容に同意します

普通に文字列連結して出力だとダメですか。

python
1print('<a href="' + content2 +'">' + content + '<a/>')

投稿2018/03/20 12:59

hiromichinomata

総合スコア294

退会済みユーザー

2018/03/20 14:45

ご回答ありがとうございます。それですと３倍処理の時間がかかってるようなので、contentとcontent2にわけて取得をするのではなく一回で取得ができないかなと思っていました

退会済みユーザー

2018/03/20 15:02

すいませんそこまで速度は変わってなかったです。

退会済みユーザー

2018/03/20 18:15

一度に取り出す方法がわからなかったらこのやり方でやってみようと思います。ご回答ありがとうございました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

cssselectライブラリで指定したセレクターの中身を丸々表示させる方法

関連した質問