先頭に指定文字があったら削除を実装する際、正規表現を使用した方が良いか、計測する方法を知りたい

Question

**最終的にやりたいこと**
・先頭に指定文字※があったら削除

**前提条件**
・対象文字列の先頭に※が1回含まれるか、全く含まれないの何れか

**分からないこと**
・下記何れで実装した方が良い？
案1.先頭一文字を取得後、条件分岐処理
案2.正規表現

**質問背景**
・正規表現は遅いからなるべく使用しないほうが良い、とどこかで聞いたことがあるため
・一般的にはどちらで実装するのでしょうか？
・あるいはこれら以外？

Accepted Answer

比較するなら `RegExp#test` にしないと不公平な気はしますね。

# 比較検証用コード

- [前方一致検索の速度比較 - JSFiddle](https://jsfiddle.net/Ldyjr88a/)

```JavaScript
'use strict';
function test (target, search) {
  var i = 50000,
      regExp = new RegExp('^' + search.replace(/(\W)/g, '\u005C$1'));

  while (i--) {
    regExp.test(target);
  }

  return regExp.test(target);
}

function propertyAccess (target, search) {
  var i = 50000;

  while (i--) {
    target[0] === search;
  }

  return target[0] === search;
}

function charAt (target, search) {
  var i = 50000;

  while (i--) {
    target.charAt(0) === search;
  }

  return target.charAt(0) === search;
}

function indexOf (target, search) {
  var i = 50000;

  while (i--) {
    target.indexOf(search) === 0;
  }

  return target.indexOf(search) === 0;
}

function lastIndexOf (target, search) {
  var i = 50000;

  while (i--) {
    target.lastIndexOf(search, 0) === 0;
  }

  return target.lastIndexOf(search, 0) === 0;
}

function startsWith (target, search) {
  var i = 50000;

  while (i--) {
    target.startsWith(search);
  }

  return target.startsWith(search);
}


function benchmark (fn, name, target, search) {
  console.time(name);
  var result = fn(target, search);
  console.timeEnd(name);
  console.log(result);
}

var matchedString = '※' + Array(50000).join('a'),
    noMatchString = Array(50001).join('a');

benchmark(test, 'RegExp#test (matched)', matchedString, '※');
benchmark(test, 'RegExp#test (no match)', noMatchString, '※');
benchmark(propertyAccess, 'propety access on strings (matched)', matchedString, '※');
benchmark(propertyAccess, 'propety access on strings (no match)', noMatchString, '※');
benchmark(charAt, 'String#charAt (matched)', matchedString, '※');
benchmark(charAt, 'String#charAt (no match)', noMatchString, '※');
benchmark(indexOf, 'String#indexOf (matched)', matchedString, '※');
benchmark(indexOf, 'String#indexOf (no match)', noMatchString, '※');
benchmark(lastIndexOf, 'String#lastIndexOf (matched)', matchedString, '※');
benchmark(lastIndexOf, 'String#lastIndexOf (no match)', noMatchString, '※');
benchmark(startsWith, 'String#startsWith (matched)', matchedString, '※');
benchmark(startsWith, 'String#startsWith (no match)', noMatchString, '※');
```

# 検証結果

Google Chrome 49.0.2623.87 m

```
RegExp#test (matched): 6.640ms
true
RegExp#test (no match): 3.348ms
false
propety access on strings (matched): 4.925ms
true
propety access on strings (no match): 1.420ms
false
String#charAt (matched): 5.177ms
true
String#charAt (no match): 2.596ms
false
String#indexOf (matched): 5.453ms
true
String#indexOf (no match): 5.050ms
false
String#lastIndexOf (matched): 5.788ms
true
String#lastIndexOf (no match): 3.901ms
false
String#startsWith (matched): 13.675ms
true
String#startsWith (no match): 4.301ms
false
```

# 実装

「何を選択するか」はコードの設計指針によりますが、私自身は次の事に気をつけています。

- アルゴリズムに無駄が無い事
- 汎用性が高い事

例えば、`String#indexOf` は対象文字列の先頭から検索してHITした時点で `index` 値を返す関数です。その為、検索でマッチしないと最後まで検索し続ける事になります。先頭1文字だけ探せば良いところを最後まで探し続けるのは無駄です。
`String#indexOf` が候補から外れます。

汎用性とは今回の要件だけでなく、広範囲の要件を網羅できる機能を指します。
今回は先頭の1文字だけを検索すればすみますが、先頭の2文字を削除したい場合も対応できる方が汎用性が高いといえます。
`string[0]`, `String#charAt` は先頭1文字だけが対象なので汎用性が低いといえます。

```JavaScript
function removeStartsWith1 (targetString, searchString) {
  if (targetString.startsWith(searchString)) {
    targetString = targetString.slice(searchString.length);
  }

  return targetString;
}

function removeStartsWith2 (targetString, searchString) {
  return targetString.replace(new RegExp('^' + searchString.replace(/(\W)/g, '\u005C$1'), 'g'), '');
}

function removeStartsWith3 (textNode, searchString) {
  if (textNode.data.startsWith(searchString)) {
    textNode.deleteData(0, searchString.length);
  }

  return textNode;
}

console.log(removeStartsWith1('※aaa', '※'));  // "aaa"
console.log(removeStartsWith1('aaa', '※'));    // "aaa"
console.log(removeStartsWith2('※aaa', '※'));  // "aaa"
console.log(removeStartsWith2('aaa', '※'));    // "aaa"
console.log(removeStartsWith3(document.createTextNode('※aaa'), '※'));  // "aaa"
console.log(removeStartsWith3(document.createTextNode('aaa'), '※'));    // "aaa"
```

`String#startsWith` は IE11- に対応する為に Polyfill が必要なので後述します。
先頭文字列削除に特化するなら `String#replace` の実装がお手軽だと思います。
対象がテキストノードなら `CharacterData.prototype.deleteData` でテキストノード自身を操作できるのでお勧めです。

# String.prototype.startsWith の Polyfill

`String.prototype.startsWith` は ES6 規定の為、IE11- で使用できませんが、Polyfill を使うことで対応できます。

- [es6-string-prototype-startswith.js: String.prototype.startsWith の Polyfill (ES6 規定)](https://gist.github.com/think49/908b8d5f08c9945beea7)

# 結論

いろいろ書きましたが、個人的には `String#replace` と `CharacterData#deleteData` の二択ですね。
テキストノードをゴリゴリ操作するなら `CharacterData#deleteData`、文字列操作なら `String#replace` というところでしょうか。
テキストノードも `data` プロパティから `String#replace` を使用してもいいのですが、画面の再描画コストが `CharacterData#deleteData` の方が低そうな気がします(未検証)。

# 参考リンク

- [ECMAScript 5 compatibility table](http://kangax.github.io/compat-table/es5/)
- [ECMAScript 6 compatibility table](http://kangax.github.io/compat-table/es6/)
- [String.prototype.startsWith() - JavaScript | MDN](https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/String/startsWith)
- [1.1.3.18 String.prototype.startsWith – ECMA-262 6th Edition](http://www.ecma-international.org/ecma-262/6.0/#sec-string.prototype.startswith)

**(更新履歴)**

- 2016/03/27 11:55 `String#lastIndexOf` のコード追加
- 2016/03/28 10:21 `String#lastIndexOf` のコードが追加できていなかったのを修正。jsperfが削除されていたので比較検証用コードを作成してjsfiddleにUP
- 2016/03/29 18:30 `String#startsWith` の Polyfill 追加。「実装」「結論」節の追加。

Re: re97 さん

Answer

# コード

```js
'use strict';

[
    ['※abc', 'マッチする短い文字列'],
    ['abc', 'マッチしない短い文字列'],
    ['※' + new Array(10000).join('a'), 'マッチする長い文字列'],
    ['' + new Array(10000).join('a'), 'マッチしない長い文字列'],
].map(function (item) {
    var i;
    var str = item[0];

    console.time('indexOf-' + item[1]);
    for (i = 0; i < 10000000; ++i) {
        str.indexOf('※') === 0;
    }
    console.timeEnd('indexOf-' + item[1]);

    console.time('RegExp-' + item[1]);
    for (i = 0; i < 10000000; ++i) {
        str.match(/^※/);
    }
    console.timeEnd('RegExp-' + item[1]);

    console.time('startsWith-' + item[1]);
    for (i = 0; i < 10000000; ++i) {
        str.startsWith('※');
    }
    console.timeEnd('startsWith-' + item[1]);
    
    console.log();
    
});
```

# 結果

## V8系

###### Node.js

```
indexOf-マッチする短い文字列: 451.954ms
RegExp-マッチする短い文字列: 1168.502ms
startsWith-マッチする短い文字列: 656.937ms

indexOf-マッチしない短い文字列: 451.098ms
RegExp-マッチしない短い文字列: 377.314ms
startsWith-マッチしない短い文字列: 673.922ms

indexOf-マッチする長い文字列: 458.273ms
RegExp-マッチする長い文字列: 1188.736ms
startsWith-マッチする長い文字列: 678.872ms

indexOf-マッチしない長い文字列: 442.082ms
RegExp-マッチしない長い文字列: 377.708ms
startsWith-マッチしない長い文字列: 649.069ms
```

###### Chrome

```
indexOf-マッチする短い文字列: 676.688ms
RegExp-マッチする短い文字列: 1360.670ms
startsWith-マッチする短い文字列: 1462.866ms

indexOf-マッチしない短い文字列: 541.262ms
RegExp-マッチしない短い文字列: 617.367ms
startsWith-マッチしない短い文字列: 851.028ms

indexOf-マッチする長い文字列: 636.199ms
RegExp-マッチする長い文字列: 1344.160ms
startsWith-マッチする長い文字列: 1424.883ms

indexOf-マッチしない長い文字列: 506.433ms
RegExp-マッチしない長い文字列: 517.285ms
startsWith-マッチしない長い文字列: 780.458ms
```

## SpiderMonkey系

###### Firefox

```
indexOf-マッチする短い文字列: 284.28ms
RegExp-マッチする短い文字列: 3639.21ms
startsWith-マッチする短い文字列: 265.69ms

indexOf-マッチしない短い文字列: 276.58ms
RegExp-マッチしない短い文字列: 1038.85ms
startsWith-マッチしない短い文字列: 285.4ms

indexOf-マッチする長い文字列: 294.38ms
RegExp-マッチする長い文字列: 3774.39ms
startsWith-マッチする長い文字列: 303.2ms

indexOf-マッチしない長い文字列: 26592.07ms
RegExp-マッチしない長い文字列: 1386.18ms
startsWith-マッチしない長い文字列: 285.8ms
```

# 考察

- `String#match`が**マッチするときに遅い**となっているのは，返り値の生成にコストがかかるから．
- `String#startsWith`は，V8においてはあまり最適化されておらず，`String#indexOf`よりも低速．一方SpiderMonkeyにおいては最適化されており，安定して高速．
- `String#indexOf`は，V8においては最適化されており，安定して高速．一方SpiderMonkeyにおいてはあまり最適化されておらず，**「マッチしない長い文字列」において著しく動作が遅くなる**傾向にある．

V8の`String#indexOf`が**「マッチしない長い文字列」に対して高速**な理由が気になりますね．右辺の値を先に見て，それ以上無駄な走査を行わないようにする…という高度な最適化でもやってるんでしょうか．

Answer

こんなコードで試してみましたよ。

```ここに言語を入力
	var arr=['※あいう', 'かきく'];
	var time;
	time = (new Date().valueOf());
	for(var i = 0; i < 10000000; i++){
		var str = arr[i%2];
		var v = str.match(/^※.*/i);
	}
	console.log('regexp:' + (new Date().valueOf() - time));
	
	time = (new Date().valueOf());
	for(var i = 0; i < 10000000; i++){
		var str = arr[i%2];
		var v = str.indexOf('※') == 0;
	}
	console.log('indexOf:' + (new Date().valueOf() - time));

	time = (new Date().valueOf());
	for(var i = 0; i < 10000000; i++){
		var str = arr[i%2];
		var v = str.startsWith('※');
	}
	console.log('startsWith:' + (new Date().valueOf() - time));

```

結果：
1回目
regexp:640
indexOf:701
startsWith:252

2回目
regexp:643
indexOf:678
startsWith:239

3回目
regexp:651
indexOf:671
startsWith:237

先頭文字限定ならstartsWithが速いみたい。

コード

結果

V8系

Node.js

Chrome

SpiderMonkey系

Firefox

考察

比較検証用コード

検証結果

実装

String.prototype.startsWith の Polyfill

結論

参考リンク

関連した質問