配列の中から配列を検索する

Question

お世話になります。主題の通りなのですが、配列から配列を検索する手法、または直接的なメソッドを探しています。現在はとりあえず以下のようなコードで実現していますが、よりよい方法があればぜひお教えください。また、C#に限らず他の言語でも、「この言語なら一行で書ける」等ございましたらお聞かせください。 ```lang-csharp // 拡張メソッド定義 public static class IEnumerableExtensions { public static int IndexOf(this IEnumerable source, IList list) { if (list == null || list.Count == 0) return -1; int index = 0; foreach (T item in source) { if (item != null && item.Equals(list[0])) { // 最初の1要素が一致したら切り出して比較 var part = source.Skip(index).Take(list.Count); if (part.SequenceEqual(list)) return index; } ++index; } return -1; } } ``` ```lang-csharp var sentence = "Lorem ipsum dolor sit amet, consectetur adipisicing elit".Select(Convert.ToByte); byte[] searchBytes = { 0x6f, 0x6c }; // 'o', 'l' Console.WriteLine(sentence.IndexOf(searchBytes)); // ==> 13 ```

Accepted Answer

文字列探索という課題になりますね。質問文中でお示しの方法は、長さmの文字列中で長さnの文字列を探すのに最悪でほぼmn回の比較が発生し、効率的ではありません。よく知られている（情報科学の講義で教わる）効率的な手法としてはKMP法、BM法というのがあります。その他に、BM法の改良型で実装しやすく効率も良い手法としてSunday法、またの名をクイックサーチと呼ぶものがあり、以前C#で書いたコードがあるので明日まだ質問が開いていたら載せます。 .NET Frameworkには文字列探索のメソッド用意されてないんですよね。 --- 追記 ```c# ///

/// byte配列の中からbyteパターンと一致する並びを検索する。 /// アルゴリズムはSunday法。 ///

/// 探すパターン /// 探索範囲となる配列 /// 発見した場合は開始位置、発見できなかった場合は-1 public static int SearchBytes(this byte[] text, byte[] pattern) { int patternLen = pattern.Length, textLen = text.Length; // 移動量テーブルの作成 int[] qs_table = new int[byte.MaxValue + 1]; // デフォルト（パターン中に存在しないキャラクタが比較範囲の直後にあった）の場合、 // 次の比較範囲はそのキャラクタの次。（＝比較範囲ずらし幅はパターン長＋１） for (int i = qs_table.Length; i-- > 0; ) qs_table[i] = patternLen + 1; // パターンに存在するキャラクタが比較範囲の直後にあった場合、 // 次の比較範囲は、そのキャラクタとパターン中のキャラクタを一致させる位置に。 for (int n = 0; n < patternLen; ++n) qs_table[pattern[n]] = patternLen - n; int pos; // 移動量テーブルを用いて、文章の末尾に達しない範囲で比較を繰り返す for (pos = 0; pos < textLen - patternLen; pos += qs_table[text[pos + patternLen]]) { // 一致するか比較。一致したら、そのときの比較位置を返す。 if (CompareBytes(text, pos, pattern, patternLen)) return pos; } // 文章の末尾がまだ未比較なら、そこも比較しておく if (pos == textLen - patternLen) { // 一致するか比較。一致したら、そのときの比較位置を返す。 if (CompareBytes(text, pos, pattern, patternLen)) return pos; } // 一致する位置はなかった。 return -1; } ///

/// 配列(pattern)が別の配列(text)に含まれているかを判定する。 /// /// pos + patternLen が text.Length より大きかったり /// pos や patternLen が 0 未満だったり、 /// needdleLen が pattern.Length より大きかったりすると /// ArrayOutOfBoundException が発生する。 ///

/// この配列の pos 番目からを pattern と比較する /// text のどこから比較するか /// この配列全体が、text の pos 番目からと一致しているかを判定する /// patternのうち一致判定する長さ /// static bool CompareBytes(byte[] text, int pos, byte[] pattern, int patternLen) { for (int comparer = 0; comparer < patternLen; ++comparer) { if (text[comparer + pos] != pattern[comparer]) return false; } return true; } ```

Answer

不具合あるかもしれませんが ```C# public static class IEnumerableExtensions { public static IEnumerable IndicesOf(this IEnumerable source, IList target) { if (target == null || target.Count == 0) return Enumerable.Empty(); return source .Select((x, i) => new { index = i, value = source.Skip(i).Take(target.Count) }) .Where(x => x.value.SequenceEqual(target)) .Select(x => x.index); } public static int IndexOf(this IEnumerable source, IList target) { return source.IndicesOf(target).DefaultIfEmpty(-1).First(); } } ``` ```C# var source = new int[] { 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, }; var target = new int[] { 3, 4 }; foreach(var x in source.IndicesOf(target)) { Console.WriteLine(x); } //3 //8 Console.WriteLine(source.IndexOf(target)); //3 ```

Answer

すみません、大勘違いしてしまいました...

---

```csharp
var elm = sentence.Select((v, i) => new {val = (byte)v, idx = i}).FirstOrDefault(f => searchBytes.Contains(f.val));
var index = (elm == null) ? -1 : elm.idx;
```

Answer

力押しでいいならRubyだと何も考えずに一行でかけます。
```Ruby
sentence = "Lorem ipsum dolor sit amet, consectetur adipisicing elit".each_byte.to_a
searchBytes = [0x6f, 0x6c] # 'o', 'l'
puts sentence.each_cons(searchBytes.size).find_index(searchBytes) # ==> 13
```
最悪計算量はO(mn)ですし、最悪m個もArray生成するし、速度は度外視です。
(yubaさんが言っているKMP法やBM法を応用したやりかたはちょっと後から試そうかな)

Answer

C#よりもC++の方が得意なので、まずはC++だとこんな感じというのをお見せします。

C++
1#include <iostream>
2#include <algorithm>
3#include <vector>
4
5int main()
6{
7	std::string sentenceText = "Lorem ipsum dolor sit amet, consectetur adipisicing elit";
8	std::vector<uint8_t> sentence(sentenceText.begin(), sentenceText.end());
9	std::vector<uint8_t> searchBytes = {0x6f, 0x6c};
10
11	// 1行で書けます
12	auto iter = std::search(sentence.begin(), sentence.end(), searchBytes.begin(), searchBytes.end());
13
14	// 結果は13
15	std::cout << iter - sentence.begin() << std::endl;
16    return 0;
17}

C#でこんな感じに書けるのかどうか、私も興味あります。