質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

987閲覧

Pythonで日本語、英語交じりのURLのエンコードができない

Technohead

総合スコア14

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/05/28 13:33

編集2019/05/29 14:08

wikiのURLをエンコードしようとしています。
wikiのURLは、基本的には、

https://ja.wikipedia.org/wiki/hogehoge

となりますが、hogehogeが、日本語オンリーの場合、英語オンリーの場合、日本語・英語交じりの場合があります。具体的には下記の感じです。

  1. https://ja.wikipedia.org/wiki/飯伏幸太
  2. https://ja.wikipedia.org/wiki/MIKAMI
  3. https://ja.wikipedia.org/wiki/NOSAWA論外

これらのwiki/より後ろを、うまい具合に日本語部分のみAsciiエンコードする方法はありますでしょうか。

現在、下記のコードを作ったのですが、これですと、(1)はasciiエンコードできるのですが、(2)もエンコードしてしまっているようです。(3)は、今後対応が必要になるかなと思っています。

Pyhon

1def get_html_object(url): 2 myURL_list = url.split('wiki/') 3 myURL_list[0] = url.replace(myURL_list[1],'') 4 myURL_list[1] = urllib.parse.quote(myURL_list[1]) 5 6 html_obj = urllib.request.urlopen(myURL_list[0] + str(myURL_list[1])) 7 print(myURL_list[0] + str(myURL_list[1])) 8 return html_obj 9

包括的にうまいこと処理してくれるモジュールがあってもおかしくないと思うのですが、見つからない状況です。
ご存じの方いらっしゃれば、ぜひ教えてください。
どうぞよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

quickquip

2019/05/28 13:53 編集

「Asciiエンコード」とはなんでしょう? パーセントエンコーディング https://ja.wikipedia.org/wiki/%E3%83%91%E3%83%BC%E3%82%BB%E3%83%B3%E3%83%88%E3%82%A8%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0 (まさにこれ)のことでしょうが普通そうは呼ばないと思ったので。 それとソースは正しく読めるようにしましょう。 https://teratail.com/help/question-tips#questionTips3-5-1https://teratail.com/help#about-markdown を参考に(コードを選択して<code>ボタン等で)コードの前後を ``` で括ってみてください。
quickquip

2019/05/28 14:09

"(2)もエンコードしてしまっているようです"の部分ですが、なにをどう確認してそう判断したのかも追記してもらうといいかと思いました。
Technohead

2019/05/29 14:26

ご指摘ありがとうございます。 少し直しました。
guest

回答1

0

ベストアンサー

こんにちは

包括的にうまいこと処理してくれるモジュールがあってもおかしくないと思うのですが、見つからない状況です。

とのことですが、urllib.parse モジュールの quote を使えばよいのではと思います。以下、サンプルです。

python3

1import urllib.parse 2 3 4URL_BASE = 'https://ja.wikipedia.org/wiki/' 5 6for word in [ '飯伏幸太', 'MIKAMI', 'NOSAWA論外' ]: 7 url = '%s%s' % (URL_BASE, urllib.parse.quote(word)) 8 print(word, url) 9

上記を実行すると、以下のように表示されます。

飯伏幸太 https://ja.wikipedia.org/wiki/%E9%A3%AF%E4%BC%8F%E5%B9%B8%E5%A4%AA MIKAMI https://ja.wikipedia.org/wiki/MIKAMI NOSAWA論外 https://ja.wikipedia.org/wiki/NOSAWA%E8%AB%96%E5%A4%96

以下は、上記のコードを動作確認できるように、Repl.it に上げたものです。

参考になれば幸いです。

投稿2019/05/28 15:10

jun68ykt

総合スコア9058

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Technohead

2019/05/29 14:24

有難うございます。 repl.itで確認できました。自分のコードに組み込んで解決できそうです。 素早いコメントをいただいていたようで、本当にありがとうございました。 PS repl.itは初めて知りました。便利ですね。
jun68ykt

2019/05/30 02:37

どういたしまして。解決されたようでよかったです ???? > repl.itは初めて知りました。便利ですね。 はい。 回答するときに、Python のコードを書くときは repl.it で、 JavaScript のときは JSFiddle をよく使ってます。
Technohead

2019/06/17 13:08

私も使いたいと思います。またよろしくお願いします!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問