ユーザーが掲示板などにURLを投稿した際、URLに使用できない文字を削除するなどして、安全な状態に整形してからWEB上に表示したいと考えております。
===追記===
ユーザーが投稿したURLは、リンクするために使用します。
========
以前はWordpressを使っていたので、Wordpressのesc_url()という関数を使用していました。
esc_url()という関数にURLの文字列を通すと、URLに使用できない文字などを一括で削除してくれて非常に便利だったのですが、今回はWordpressを使用せずに生phpでサイトを作ろうと思っているため、esc_url()関数を使用することができません。
POSTされてきたURLを安全にWEB上に表示するため、一般的にどのような方法が使われているのかわからず、この度質問してみました。
初歩的な質問で大変恥ずかしいのですが、ご存知の方がいらっしゃいましたら、ご教授いただけましたら幸いです。
何卒、宜しくお願いいたします。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/17 07:40
回答4件
0
ベストアンサー
単に表示するだけであればhtmlspecialcharsでHTMLエスケープすればよいですが、追記で示されたようにA要素等を用いてリンクの形にする場合は、スキーム(プロトコル)の確認は必須です。
通常は、前方一致で、http: か https: で始まっていることを確認すればよいと思います。esc_urlはtelnetやgopherなどもデフォルトで許容していますが、通常これらは不要かと思います。
スキームのチェックをしていないと、以下のようなリンクが作られてしまい、クロスサイトスクリプティング脆弱性になります。
HTML
1<a href="javascript:alert(1)">外部へのリンク</a>
上記の例では、リンクを選択するとJavaScriptとしてalert()関数が実行します。
したがって手順としては下記の通りとなります。
- まずURLが http: または https: で始まっていることを確認する
- 前記検査がOKならば、URL全体をhtmlspecialcharsでエスケープする
- URLをhrefなどの属性値として表示する場合はダブルクォートで囲むことを忘れないこと
投稿2019/10/17 09:31
総合スコア11705
0
WordPress のディレクトリ内で、
grep -r "function esc_url(" ./
で検索すると、定義部分が見つかります。
同じように実装すればよろしいのではないかと思います。
php
1 2/** 3 * Checks and cleans a URL. 4 * 5 * A number of characters are removed from the URL. If the URL is for displaying 6 * (the default behaviour) ampersands are also replaced. The {@see 'clean_url'} filter 7 * is applied to the returned cleaned URL. 8 * 9 * @since 2.8.0 10 * 11 * @param string $url The URL to be cleaned. 12 * @param array $protocols Optional. An array of acceptable protocols. 13 * Defaults to return value of wp_allowed_protocols() 14 * @param string $_context Private. Use esc_url_raw() for database usage. 15 * @return string The cleaned $url after the {@see 'clean_url'} filter is applied. 16 */ 17function esc_url( $url, $protocols = null, $_context = 'display' ) { 18 $original_url = $url; 19 20 if ( '' == $url ) { 21 return $url; 22 } 23 24 $url = str_replace( ' ', '%20', $url ); 25 $url = preg_replace( '|[^a-z0-9-~+_.?#=!&;,/:%@$\|*\'()[]\x80-\xff]|i', '', $url ); 26 27 if ( '' === $url ) { 28 return $url; 29 } 30 31 if ( 0 !== stripos( $url, 'mailto:' ) ) { 32 $strip = array( '%0d', '%0a', '%0D', '%0A' ); 33 $url = _deep_replace( $strip, $url ); 34 } 35 36 $url = str_replace( ';//', '://', $url ); 37 /* If the URL doesn't appear to contain a scheme, we 38 * presume it needs http:// prepended (unless a relative 39 * link starting with /, # or ? or a php file). 40 */ 41 if ( strpos( $url, ':' ) === false && ! in_array( $url[0], array( '/', '#', '?' ) ) && 42 ! preg_match( '/^[a-z0-9-]+?.php/i', $url ) ) { 43 $url = 'http://' . $url; 44 } 45 46 // Replace ampersands and single quotes only when displaying. 47 if ( 'display' == $_context ) { 48 $url = wp_kses_normalize_entities( $url ); 49 $url = str_replace( '&', '&', $url ); 50 $url = str_replace( "'", ''', $url ); 51 } 52 53 if ( ( false !== strpos( $url, '[' ) ) || ( false !== strpos( $url, ']' ) ) ) { 54 55 $parsed = wp_parse_url( $url ); 56 $front = ''; 57 58 if ( isset( $parsed['scheme'] ) ) { 59 $front .= $parsed['scheme'] . '://'; 60 } elseif ( '/' === $url[0] ) { 61 $front .= '//'; 62 } 63 64 if ( isset( $parsed['user'] ) ) { 65 $front .= $parsed['user']; 66 } 67 68 if ( isset( $parsed['pass'] ) ) { 69 $front .= ':' . $parsed['pass']; 70 } 71 72 if ( isset( $parsed['user'] ) || isset( $parsed['pass'] ) ) { 73 $front .= '@'; 74 } 75 76 if ( isset( $parsed['host'] ) ) { 77 $front .= $parsed['host']; 78 } 79 80 if ( isset( $parsed['port'] ) ) { 81 $front .= ':' . $parsed['port']; 82 } 83 84 $end_dirty = str_replace( $front, '', $url ); 85 $end_clean = str_replace( array( '[', ']' ), array( '%5B', '%5D' ), $end_dirty ); 86 $url = str_replace( $end_dirty, $end_clean, $url ); 87 88 } 89 90 if ( '/' === $url[0] ) { 91 $good_protocol_url = $url; 92 } else { 93 if ( ! is_array( $protocols ) ) { 94 $protocols = wp_allowed_protocols(); 95 } 96 $good_protocol_url = wp_kses_bad_protocol( $url, $protocols ); 97 if ( strtolower( $good_protocol_url ) != strtolower( $url ) ) { 98 return ''; 99 } 100 }
投稿2019/10/17 06:54
退会済みユーザー
総合スコア0
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/17 07:02
退会済みユーザー
2019/10/17 07:10
2019/10/17 07:42
0
補足的なところを別途回答します。
基本的にユーザーの入力情報は加工してはならず、表示時は登録した通りに出すべきです。
なので対策をするのであれば「表示時に削除する」のではなく「登録時にバリデーションをする」にとどめてください。
URLの形式として正しいかのチェックを行えば「使えない文字列」が登録されるのを防ぐことができますし、パラメータ(クエリストリング)を不可としたチェックをすれば、パラメータ付与により何かしらの処理を実行させないようにすることも可能です。
XSS対策でHTMLエスケープはすべきですが、画面上は登録した通りに表示させられるので可です。
ということで、おそらくシステム的にできるのはここまでと考えられます。
あとは「安全である」基準ですね。サイトとしてどこまでを許容するのか。ここはブラックリスト方式になってしまうかもしれませんが…。
それなら「URLとして正しい」のみで受け入れても良いかと思います。あとはパラメータ付加を許容するかどうかですね。
投稿2019/10/17 07:48
総合スコア80875
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/17 07:54
2019/10/17 07:59
2019/10/18 02:45
0
POSTされてきたURLを安全にWEB上に表示するため、一般的にどのような方法が使われているのかわからず
単に文字列として表示するだけなら、どんな文字列を「URL」に混ぜようと、表示したこと自体でなにか起きることはありません。
逆に、リンク先の安全性は、チェックすることはほぼできないと考えて間違いありません(著名なサイトの広告に、「あなたのパソコンは危険にさらされています」系の広告が混入していたことがありました)。
つまり、一般的な対応としては、
- URL自体をNGワードにして完全排除
- URLを単なる文字列として表示するだけ
のどちらかで十分です。
投稿2019/10/17 06:49
総合スコア145967
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/17 06:56 編集
2019/10/17 06:58
2019/10/17 07:39 編集
2019/10/17 07:42
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。