llama.cppの実行時にレイヤーのログを出力させたい

実現したいこと

以下のリンクに書いてある
https://zenn.dev/turing_motors/articles/f5f19f875bd8ba
"llama.cpp 上で、LLaMA2-7B-Q4_K_M を実行させると、各 Layer のログが出てきます。"
と同様の処理を行いたいです。

前提

約1年前のものでllama.cppの仕様が変わっているのか、
./llama.cpp/llama-cli -ngl 32 -m ./llama.cpp/models/llama-2-7b-chat.Q4_K_M.gguf -c 4096 --repeat_penalty 1.1 -n -1 -p "[INST]<<SYS>>\n How tall is Tokyo Tower? \n<<SYS>>\n{prompt}[/INST]"
のように実行しても、望んでいるログは出力されません。

理想としては、前述のリンク先にもあるように
llama_model_loader: - tensor 0: token_embd.weight q4_K [ 4096, 32000, 1, 1 ]
llama_model_loader: - tensor 1: output_norm.weight f32 [ 4096, 1, 1, 1 ]
...
のようなものが理想です。

該当のソースコード

-----上記のコマンドを実行した結果-----
build: 4067 (54ef9cfc) with cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0 for x86_64-linux-gnu
main: llama backend init
main: load the model and apply lora adapter, if any
llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ./llama.cpp/models/llama-2-7b-chat.Q4_K_M.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = llama
llama_model_loader: - kv 1: general.name str = LLaMA v2
llama_model_loader: - kv 2: llama.context_length u32 = 4096
llama_model_loader: - kv 3: llama.embedding_length u32 = 4096
llama_model_loader: - kv 4: llama.block_count u32 = 32
llama_model_loader: - kv 5: llama.feed_forward_length u32 = 11008
llama_model_loader: - kv 6: llama.rope.dimension_count u32 = 128
llama_model_loader: - kv 7: llama.attention.head_count u32 = 32
llama_model_loader: - kv 8: llama.attention.head_count_kv u32 = 32
llama_model_loader: - kv 9: llama.attention.layer_norm_rms_epsilon f32 = 0.000001
llama_model_loader: - kv 10: general.file_type u32 = 15
llama_model_loader: - kv 11: tokenizer.ggml.model str = llama
llama_model_loader: - kv 12: tokenizer.ggml.tokens arr[str,32000] = ["<unk>", "<s>", "</s>", "<0x00>", "<...
llama_model_loader: - kv 13: tokenizer.ggml.scores arr[f32,32000] = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,32000] = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
llama_model_loader: - kv 15: tokenizer.ggml.bos_token_id u32 = 1
llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 2
llama_model_loader: - kv 17: tokenizer.ggml.unknown_token_id u32 = 0
llama_model_loader: - kv 18: general.quantization_version u32 = 2
llama_model_loader: - type f32: 65 tensors
llama_model_loader: - type q4_K: 193 tensors
llama_model_loader: - type q6_K: 33 tensors
llm_load_vocab: special_eos_id is not in special_eog_ids - the tokenizer config may be incorrect
llm_load_vocab: special tokens cache size = 3
llm_load_vocab: token to piece cache size = 0.1684 MB
llm_load_print_meta: format = GGUF V2
llm_load_print_meta: arch = llama
llm_load_print_meta: vocab type = SPM
llm_load_print_meta: n_vocab = 32000
llm_load_print_meta: n_merges = 0
llm_load_print_meta: vocab_only = 0
llm_load_print_meta: n_ctx_train = 4096
llm_load_print_meta: n_embd = 4096
llm_load_print_meta: n_layer = 32
llm_load_print_meta: n_head = 32
llm_load_print_meta: n_head_kv = 32
llm_load_print_meta: n_rot = 128
llm_load_print_meta: n_swa = 0
llm_load_print_meta: n_embd_head_k = 128
llm_load_print_meta: n_embd_head_v = 128
llm_load_print_meta: n_gqa = 1
llm_load_print_meta: n_embd_k_gqa = 4096
llm_load_print_meta: n_embd_v_gqa = 4096
llm_load_print_meta: f_norm_eps = 0.0e+00
llm_load_print_meta: f_norm_rms_eps = 1.0e-06
llm_load_print_meta: f_clamp_kqv = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: f_logit_scale = 0.0e+00
llm_load_print_meta: n_ff = 11008
llm_load_print_meta: n_expert = 0
llm_load_print_meta: n_expert_used = 0
llm_load_print_meta: causal attn = 1
llm_load_print_meta: pooling type = 0
llm_load_print_meta: rope type = 0
llm_load_print_meta: rope scaling = linear
llm_load_print_meta: freq_base_train = 10000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_ctx_orig_yarn = 4096
llm_load_print_meta: rope_finetuned = unknown
llm_load_print_meta: ssm_d_conv = 0
llm_load_print_meta: ssm_d_inner = 0
llm_load_print_meta: ssm_d_state = 0
llm_load_print_meta: ssm_dt_rank = 0
llm_load_print_meta: ssm_dt_b_c_rms = 0
llm_load_print_meta: model type = 7B
llm_load_print_meta: model ftype = Q4_K - Medium
llm_load_print_meta: model params = 6.74 B
llm_load_print_meta: model size = 3.80 GiB (4.84 BPW)
llm_load_print_meta: general.name = LLaMA v2
llm_load_print_meta: BOS token = 1 '<s>'
llm_load_print_meta: EOS token = 2 '</s>'
llm_load_print_meta: UNK token = 0 '<unk>'
llm_load_print_meta: LF token = 13 '<0x0A>'
llm_load_print_meta: EOG token = 2 '</s>'
llm_load_print_meta: max token length = 48
llm_load_tensors: CPU_Mapped model buffer size = 3891.24 MiB
..................................................................................................
llama_new_context_with_model: n_seq_max = 1
llama_new_context_with_model: n_ctx = 4096
llama_new_context_with_model: n_ctx_per_seq = 4096
llama_new_context_with_model: n_batch = 2048
llama_new_context_with_model: n_ubatch = 512
llama_new_context_with_model: flash_attn = 0
llama_new_context_with_model: freq_base = 10000.0
llama_new_context_with_model: freq_scale = 1
llama_kv_cache_init: CPU KV buffer size = 2048.00 MiB
llama_new_context_with_model: KV self size = 2048.00 MiB, K (f16): 1024.00 MiB, V (f16): 1024.00 MiB
llama_new_context_with_model: CPU output buffer size = 0.12 MiB
llama_new_context_with_model: CPU compute buffer size = 296.01 MiB
llama_new_context_with_model: graph nodes = 1030
llama_new_context_with_model: graph splits = 1
common_init_from_params: warming up the model with an empty run - please wait ... (--no-warmup to disable)
main: llama threadpool init, n_threads = 16

sampler seed: 1154323793
sampler params:
repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
dry_multiplier = 0.000, dry_base = 1.750, dry_allowed_length = 2, dry_penalty_last_n = -1
top_k = 40, top_p = 0.950, min_p = 0.050, xtc_probability = 0.000, xtc_threshold = 0.100, typical_p = 1.000, temp = 0.800
mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
sampler chain: logits -> logit-bias -> penalties -> dry -> top-k -> typical -> top-p -> min-p -> xtc -> temp-ext -> dist
generate: n_ctx = 4096, n_batch = 2048, n_predict = -1, n_keep = 1

[INST]<<SYS>>
How tall is Tokyo Tower?
<<SYS>>
{prompt}[/INST] Tokyo Tower stands at a height of 250 meters (820 feet) above ground level. It was originally constructed in 1958 and was the tallest structure in Japan until the completion of the Tokyo Skytree in 2012, which stands at a height of 634 meters (2,080 feet). Despite being shorter than the Skytree, Tokyo Tower remains an iconic landmark in Tokyo and is known for its distinctive "T" shape and bright orange and white color scheme. [end of text]

llama_perf_sampler_print: sampling time = 25.11 ms / 142 runs ( 0.18 ms per token, 5654.67 tokens per second)
llama_perf_context_print: load time = 1829.46 ms
llama_perf_context_print: prompt eval time = 2051.91 ms / 29 tokens ( 70.76 ms per token, 14.13 tokens per second)
llama_perf_context_print: eval time = 11614.49 ms / 112 runs ( 103.70 ms per token, 9.64 tokens per second)
llama_perf_context_print: total time = 13702.49 ms / 141 tokens

試したこと

-hオプションで、レイヤーのログを出力できそうなものを探してみたのですが、見つかりませんでした。
-v、--check-tensorsは試してみました。

行動規範の内容に同意します

回答1件

ベストアンサー

ここらへんはllamaの内部実装なのでだいぶがらっと変わっていますね。
ブログの投稿日から2023/12/17以前にリリースされたコードで確認する限り、ご要望の出力部分はこちらになると思います。

cpp
1LAMA_LOG_INFO("%s: - tensor %4d: %32s %-8s [ %s ]\n", __func__, i, name, ggml_type_name(meta->type), llama_format_tensor_shape(meta).c_str());

https://github.com/ggerganov/llama.cpp/blob/b1645/llama.cpp#L2070

この1年で大幅にコードの構成が変わってしまっていて、最新のb4265で極力該当していると思われる部分はこちらになると思います。(間違っていたら指摘してください)

cpp
1if (trace > 0) {
2   const uint16_t sid = w.idx;
3   LLAMA_LOG_INFO("%s: - tensor split %2d: %32s %-8s [ %s ]\n", __func__, sid, ggml_get_name(tensor), ggml_type_name(type), llama_format_tensor_shape(tensor).c_str());
4}

https://github.com/ggerganov/llama.cpp/blob/b4265/src/llama.cpp#L4552

この出力を制御しているのはtrace変数なのですが、これはこちらで設定されています。

cpp
1int trace = 0;
2if (getenv("LLAMA_TRACE")) {
3    trace = atoi(getenv("LLAMA_TRACE"));
4}

ということなので、

環境変数LLAMA_TRACEに0以上の値を設定して、llamaを実行する
で、完全一致ではないにせよ、似たような内容を出力できるようになるのではないかと思います。

試してみてもらえますか？

投稿2024/12/04 17:19

toge_

総合スコア317

salmonyukke

2024/12/10 04:42

ご回答ありがとうございます。自分でも同じ箇所のコード部分を見つけていて、既に実行していました。お手数おかけしてすみませんでした。ご丁寧にありがとうございます。

toge_

2024/12/10 05:40

ああ、もっと早く回答できればよかったのですが。自己解決されたのであればよかったです。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

実現したいこと

前提

該当のソースコード

試したこと

関連した質問