質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.86%

  • C

    3321questions

    C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

  • アセンブリ言語

    100questions

    アセンブリ言語とは、機械語を人間にわかりやすい形で記述した低水準言語です。

アセンブリでハードコーディングされた情報はどこにあるのか

解決済

回答 6

投稿

  • 評価
  • クリップ 2
  • VIEW 1,497
退会済みユーザー

退会済みユーザー

最近すこしアセンブリをかじり始めた者です。

以下のプログラムを、"objdump -d"で逆アセンブルしたものを見ていたのですが、ハードコーディングした文字列や数値がどこにも書いておらず疑問に思いました。

#include<stdio.h>

int main(){
  char str[] = "HelloWorld";
  int num = 4;

  printf("%s\n%d\n",str,num);

  return 0;
}

この場合、"HelloWorld"という文字列や4という数値がアセンブリのどこかにかいていそうなものですが見当たりませんでした。

ハードコーディングした情報はどこに保存されているのでしょうか。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 6

checkベストアンサー

+2

こんにちは。

私もそのコードなら"HelloWorld"がオブジェクト内のどこかにこのままの形で入っていると思っていたのですが、a.exeを直接バイナリーエディタでみても入ってなかったです。

objdump -dを見ると、char str[] = "HelloWorld";は、__do_global_ctors()という関数でコンストラクトされるようです。
gcc 4.9.2のソースをgrepしたところ、この関数の中身は、下記でした。

gcc\gcc-4.9.2\libgcc\config\arc\initfini.c

static void
__do_global_ctors (void)
{
  func_ptr *p;
  for (p = __CTOR_END__ - 1; *p != (func_ptr) -1; p--)
    (*p) ();
}

正直、内容はよく分かりませんが、どうも1文字1文字、コンストラクタを呼び出して設定しているようです。これに適合するような初期化バイナリーは少なくともHelloWorldが単純に並んだようなバイト列ではないということと思います。

試しに、下記コードをMinGWでビルドして、a.exeをバイナリーエディタで確認したところ、"HelloWorld "は入っていました。

#include<stdio.h>

int main(){
  char const* str = "HelloWorld";

  printf("%s\n\n",str);

  return 0;
}


ただし、objdump -d結果には出てきませんでしたので、定数領域は逆アセンブル出力してくれないようです。

しかし、逆アセンブラはオブジェクトからアセンブラ・コードを生成するので、元のソースに較べて失われている情報が多いです。
学習目的なら、otnさんの回答のようにコンパイラにアセンブラ・コードを出力させた方が残っている情報が多いので、より分かりやすいと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/05/01 22:05

    皆さまご回答ありがとうございました。なんとなくですが納得しました。
    ソース内に書かれた定数情報を調べるなら-sオプションで地道に調べるしかなさそうですね。アセンブリ内で変数として格納されているものとばかり思っていましたが予想以上に奥が深い...。

    キャンセル

  • 2016/05/02 15:51 編集

    気になって調べてみたところ、最近のCコンパイラでは一定条件をみたす文字列定数を、コード領域(.text section)に直接を埋め込んでしまうようです。これにより、バイナリエディタで実行可能ファイルを覗いても文字列が見当たらない or バラバラに配置されているように見えるようですね。例えばGCC 6.1/x86_64/-O0オプションでは、"HelloWorld"の部分が movabsq $8245905578810697032, %rax と movw $25708, -8(%rbp) のように分解されていました。

    素直なコンパイラなら読取専用データ領域(.rodata section)に配置するはずですが、別メモリアドレスからのロード命令を避けるために、命令列に直値として埋め込んで最適化するようです。

    キャンセル

  • 2016/05/02 21:47

    yohhoyさんありがとうございます。定数の扱いはコンパイル時に一定ではないのですね。

    キャンセル

+2

文字列定数は、プログラムとは別な領域に書かれています。

数値定数については、最適化で消えることもあります。たとえば、レジスタに0を格納する場合、直接0を代入せずにXOR EAX, EAXと同じレジスタ同士のXORでクリアするほうがx86では命令長・速度ともに有利となります。

セクションとか.textとか ※Linux ELFについて

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

gccを使っているなら、gcc -S ~.cでコンパイルのみとなり、アセンブラソースが拡張子sで出力されますので、それを見ると色々分かるかと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

objdump -s a.out
で見て下さい。
私の環境では .text の
4005b0 45f831c0 48b84865 6c6c6f57 6f724889  E.1.H.HelloWorH.
4005c0 45e066c7 45e86c64 c645ea00 c745dc04  E.f.E.ld.E...E..
にありました。因みに
400690 01000200 25730a25 640a00             ....%s.%d..     
が printf() の書式文字列だと思います。
”HelloWor"と”ld"が分かれている理由は不明です。
(4byte長でダンプしているから、分かれているように見えるだけ?)
当然コンパイラやOSが違えば、文字列を保持する場所は違います。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

よくわかりませんが、このへんが参考になるかも
http://qiita.com/usagi/items/a0889903e09c1af2b462

紹介したページでは
objdump でシンボルの位置を探ったのち
od で確認してます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

環境がわからないので外してるかもですが・・
stringsコマンドはどうでしょう?
あるなしぐらいなら確認できると思います。
STRINGS(1)
(今環境がないので確認していません)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/05/02 21:45

    stringsコマンドも有用ですね。アセンブリのどのセクションに属しているかが分からないため、第一分析として使っています。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.86%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • C

    3321questions

    C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

  • アセンブリ言語

    100questions

    アセンブリ言語とは、機械語を人間にわかりやすい形で記述した低水準言語です。