質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

2回答

2109閲覧

URLは、UTF-8以外はあるのでしょうか

gasorin

総合スコア15

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2020/09/23 14:44

###実現したいこと
URLについてUTF-8以外を想定する必要があるのか知りたいです。

※最終的にはユーザーがWEBサイトのURLを入力し、DBに保存する仕組みを実装したいです。その過程の検証が現状でしてその質問を投稿したのですが、そもそも検証すべきURLにどのようなものがありうるのか?を調べるために当質問をさせていただきました。

宜しくお願い致します。

###調べた内容と質問
調べているうちに下記Qiitaスライドの(8/17 ページ)を見つけまして、これに関して質問がございます。
https://qiita.com/sisisin/items/3efeb9420cf77a48135d

たとえば「ウィキペディア」を、各種の文字コードを用いてパーセントエンコーディングで符号化すると以下のようになる。

Shift_JIS - %83E%83B%83L%83y%83f%83B%83A
EUC-JP - %A5%A6%A5%A3%A5%AD%A5%DA%A5%C7%A5%A3%A5%A2
UTF-8 - %E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87%E3%82%A3%E3%82%A2

とのことですが、UTF-8以外がなぜ想定されているのかわかりません。

エンコードされたURL(前提にあるようにユーザー入力のものです)はUTF-8以外はありえないと思うのですが、入力されることはあるのでしょうか?

もしあれば、それはどのようなURLですか?

###UTF-8以外はありえないと思う理由
実際に以下アクセスしてみたのですが、日本語版とUTF-8版しかアクセスできませんでした。
なのでなぜEUC-JPやUTF-8が想定されているのか、というのが疑問なのです。

日本語 - https://ja.wikipedia.org/wiki/ウィキペディア
Shift_JIS - https://ja.wikipedia.org/wiki/%83E%83B%83L%83y%83f%83B%83A
EUC-JP - https://ja.wikipedia.org/wiki/%A5%A6%A5%A3%A5%AD%A5%DA%A5%C7%A5%A3%A5%A2
UTF-8 - https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87%E3%82%A3%E3%82%A2

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

「UTF-8以外はありえない」というのが間違ってますね。

UTF-8以外はありえないと思う理由

それは、https://ja.wikipedia.orgのサイトがUTF-8を採用していることが分かっただけです。

今から構築するサイトであれば、UTF-8以外を選択する理由は無いですが、10年、20年前に作成されてそのまま継続しているサイトだと、それ以外のエンコーディングを採用しているサイトもあるでしょう。

投稿2020/09/23 15:09

otn

総合スコア84505

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2020/09/23 15:19

Pukiwikiという日本製のWikiCMSだとUTF-8版が出たのが2006年のようです。それ以前にPukiwikiで構築されたwikiサイトのURLの日本語はEUC-JPですね。UTF-8版が出た後もEUC-JP版はあるので、2000年代だとEUC-JPを選んだ人もいるかと。
gasorin

2020/09/23 15:59

たしかに。仰る通りwikipediaで採用されているというだけですね。以前のお話など大変勉強になりました。ありがとうございます。
otn

2020/09/23 16:24

ブラウザのアドレスバーに、 https://ja.wikipedia.org/wiki/ウィキペディア と入力するとUTF-8でURLエンコードしてからリクエストしてくれる機能も多分十数年前からだったんじゃ無かったかと思います。
gasorin

2020/09/24 02:57

そうなんですか。ここ1、2年しか知らず驚くばかりです。勉強になります。
guest

0

パーセントエンコーディングを使えば、すべてのデータが使えます。Shift_JIS や EUT_JP どころか、文字列にデコードすることのできない URL も考えられるので、UTF-8 に直ると思ってはいけません。
たとえば URL の一部としてクエリを含むものであれば、何かのハッシュをパーセントエンコーディングしていることも十分考えられます。

また、otn さんも触れられていますが、昔は Shift_JIS や EUC_JP をパーセントエンコーディングした URL は普通にありました。今でも探せば残っていると思います。

投稿2020/09/23 15:20

Zuishin

総合スコア28660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

gasorin

2020/09/23 16:03

みなさんご経験豊富ですね。質問してよかったです。ありがとうございました。 > URL の一部としてクエリを含むものであれば というのがイメージできなかったのですが、具体的にどんなURLになりますか? 「クエリを含む」というのは以下のように「?」がある場合のことだと思いますが、 http://example.com/search?query=hello&page=1 ここに「ハッシュをパーセントエンコーディングしている」というのがわからない状態です。
Zuishin

2020/09/23 21:52

文字列だけでなくバイナリをエンコードしたものも使えるという意味です。 たとえばアフィリエイトキーなどはそのサイトを特定する値でしょうし、それはテキストである必要はないでしょう。
gasorin

2020/09/24 02:55

ご返信ありがとうございます。「>バイナリをエンコード」ですか。まだいまいちわからずにいまして(理解が追い付かずすみません)、バイナリの値である「101」はエンコードしても「101」ですよね。するとクエリにアフィリエイトキーを含んでも次のようになる http://example.com/search?query=hello&page=1&affiliate_key=101 ので、「> UTF-8 に直ると思ってはいけません」ということはなく、というかそもそもUTF-8のままなので問題ないのではないか、と思ってしまいます。
Zuishin

2020/09/24 02:56 編集

バイナリの値である 101(二進数) をエンコードすると %05 になります。UTF-8 にはできません。
gasorin

2020/09/24 03:06

失礼いたしました。数値とバイナリというのは異なる型になるということですね。urlencode(101) を考えていました。 最後に1つだけ、お手数ですみません。バイナリのエンコードだけ教えてください。ただいま(数分ですが)検索しても、base64やhex2binしか見当たらず、2進数という型に対してエンコードをかける関数を見つけることができません。どのようなコードで「101」は「%05」に変換されるのでしょうか?
gasorin

2020/09/24 03:11

なるほど。wikipediaまでどうもありがとうございます!お手数おかけしました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問