今、いろいろとスクレイピングを勉強しているのですが、詳しい方がいれば、
お知恵を貸していただけないでしょうか?
FlipboardやGunoseyなどから送られてくるニュースメールで使用されている画像には、
例えば以下のようなURLが使われています。
・画像URL(例):https://ci5.googleusercontent.com/proxy/Esp24z23noCmQL3CjaH-vclVulDFahdQ_Nn0Gz0mWjcI9gKQbIpk4E23pwQvK9G9K1U3fTYqd44P7LSDV0qjkRrmUWOJwoeC_9_AMQKBUA1wf9qT5IFmUBPZNvV-DkRwCyMLtyA=s0-d-e1-ft#http://news.bbcimg.co.uk/media/images/82009000/jpg/_82009401_art-landis-top.jpg
(※リンクをクリックすると画像がダウンロードされます)
・対象ページ:http://www.bbc.com/news/magazine-31818367
画像のURLに、「googleusercontent.com」がつくのが特徴です。
Googleキャッシュページをスクレイピングしているのかと思って、
キャッシュページのURLも調べてみたのですが、「ci5.googleusercontent.com」とは異なるようです。
・上記サイトのキャッシュページ:
http://webcache.googleusercontent.com/search?q=cache:dJtHB8TuuCcJ:www.bbc.co.uk/news/magazine-31818367+&cd=1&hl=ja&ct=clnk&gl=jp
この、「ci5.googleusercontent.com」とは、どういうURLなのでしょうか?
また、どのような手法でスクレイピングすれば、このような画像URLになるのでしょうか?
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。