ngramのコードの仕組みについてご教示頂きたいです。

pythonの勉強をしています。
自然言語処理のNgramについてのコードを理解しようとしたのですが、躓いてしまったためご教示お願い致します。

python
1def ngrams(seq, n):
2    return [seq[i:i+n] for i in range(len(seq)-n+1)]
3
4sent = ["I", "have", "an", "apple"]
5
6print(ngrams(sent, 2))
7
8# [['I', 'have'], ['have', 'an'], ['an', 'apple']]

＊上記のコードは引用させていただきました。
https://termina.io/posts/n-gram-explanation-and-implementation

自分の認識：
逆算的な考え方をしてみました。

出力結果になるようにするには
seq[i:i+n]の部分のインデックス値が

[0:1][1:2][2:3]

となる必要があると考えたのですが
forループを基準として考えた場合

リストngramの引数は２で
リストlenはリストの要素をカウントするため

for i in range(４-２+1)

つまり、iは３になり最初のインデックス値から
[3:5]
となるのではないかと考えました。

どうして異なるのかがわかりません。
ご教示いただけると幸いです。
よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

for i in range(4-2+1)

は

for i in range(3)

であり、

for i in [0, 1, 2]

です。そのため、iは0から始まり、2で終わります。
ですので、index値は

[0:2][1:3][2:4]

となり、正常に動きます。

投稿2020/06/10 14:25

編集2020/06/10 14:45

Mashiro

総合スコア654

jury_new

2020/06/10 14:32

Mashiroさん、ご回答ありがとうございます。 range関数は繰り返し処理ということが理解しきれていませんでした。この度はありがとうございました。

jury_new

2020/06/10 14:43

[0:2][1:3][2:4] もう一度考え直した結果、インデックス値にも自身の誤りを発見しました。

Mashiro

2020/06/10 14:45 編集

確かにそうですね。左側のINDEXしか見てなくて、そのままコピーしたので、回答も間違ってますね。修正しときます。

jury_new

2020/06/10 14:50

ご丁寧にありがとうございます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

ngramのコードの仕組みについてご教示頂きたいです。

関連した質問