質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Q&A

解決済

2回答

4414閲覧

python requestsモジュールで取得したHTML文字列について

nob

総合スコア8

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

0グッド

0クリップ

投稿2015/01/20 13:46

requests.getで取得したHTML文字列を行単位で編集したいのですが、
取得した文字列が1文字毎に改行コードが入っており、編集しづらい状態となっております。
どのようにすれば本来の行構成で扱うことができるのでしょうか?

python $ python --version
Python 2.7.5

python $ cat web.py
#!/usr/bin/env python
#coding: utf-8
import requests

s = requests.get("https://www.google.com")
for line in s.text:
print line

以下、実行結果抜粋

o
a
d
.
t
)
{
g
o
o
g
l
e
.
t
i
m
e
r
s
.
l
o
a
d
.
t
.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

既に解決されているようですが、
公式ドキュメントにこういう方法が書かれていました。
これでも出来ますでしょうか?

lang

1for line in s.iter_lines(): 2 if line: 3 print line

参考: Advanced Usage — requests-docs-ja 1.0.4 documentation

投稿2015/01/20 14:13

ryunix

総合スコア1656

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nob

2015/01/20 14:49

ryunixさん、ご回答ありがとうございます。 確認したところ期待した動作となりました。 下記のとおり、requests.getで取得したオブジェクト s のアトリビュートを確認したところ、iter_linesが存在してました。こちらの方がシンプルです。 s = requests.get("https://www.google.com") print dir(s) ・実行結果 ['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__getstate__', '__hash__', '__init__', '__iter__', '__module__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']
ryunix

2015/01/20 14:51

期待した動作となり、よかったです :)
guest

0

自己解決

自己解決しました。
pythonの文字列は1文字毎のリストで格納されていることを意識しておりませんでした。
下記のように改行コード毎に切り出すようにすると、期待したとおりの動作となりました。

lang

1s = requests.get("https://www.google.com") 2for line in s.text.split("\n"): 3 print line

失礼しました。

投稿2015/01/20 14:07

nob

総合スコア8

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問