htmlのパソコン上の解釈

htmlのパソコンでの解釈について質問です。pythonなんですがrequestsでとってきた情報に対して
調べるとres.contentはバイナリデータを返し,res.textはテキストデータを返すとありました。しかし実際に確かめてみると、res.contentの方はhtmlのtagはそのまま残っていました。バイナリデータというのは0,1のみで表されるものと思っていたので疑問に思って質問しました。またurlに画像を指定した場合帰ってきたres.contentを拡張子がjpegのファイルに書き込むことができたのでそれはバイナリデータを帰していることは納得できたのですが,htmlはパソコン上でどのような解釈が行われているのでしょうか？

res=requests.get("https://qiita.com/Senple/items/c8faf02a944945529f6b")
soup=BeautifulSoup(res.text)
print(res.content)
print(res.text)
print(soup)

行動規範の内容に同意します

回答1件

バイナリデータというのは0,1のみで表されるものと思っていたので疑問に思って質問しました。

そうではありません。

まず、TF-8（ユーティーエフエイト）とは？文字コードの仕組みを知れば文字化けでも慌てないを読んで、文字コード、符号化(encode)、復号化(decode)について理解してください。

それでわからないところは別途質問してください。

投稿2022/01/18 02:36

ppaul

総合スコア24672

watasihadarena

2022/01/18 03:42

ご回答ありがとうございます。教えていただいた通り文字コードを調べて自分なりの結論に達したので間違ってる点などがあれば教えていただきたいです。バイナリデータは0,1で表されている。 vscodeではUTF-8になっていたのでバイナリデータを出力しようとしても文字コードによって変換された結果が出力されていた。 htmlの場合タグは文字列として認識されていない機械が認識しているのはバイナリデータであり、それを文字列としてとらえるなら文字コードによって変換し、画像としてならデータを変換するためにjpegファイルを使って書き込み出力する。

ppaul

2022/01/18 12:08

物理的なデータと、通信で送受信するデータと、ソフトウェアが認識しているデータはどれも別のものです。「バイナリデータ」とか「テキストデータ」なんていうものは物理的には存在しません。言い換えれば、コンピュータという機械のもつデータは、ある意味ではどれも同じです。ただし、ストレージにあるときとメモリにあるときと、レジスタにあるときには物理的には違うものになっているというのも正しいです。通信で送受信するデータは、途中で抜け落ちたりしないように、分割したり、修正情報を入れたりいろいろなことをしています。それにはIPプロトコルだったり、TCPプロトコルだったり、HTTPプロトコルだったりいろいろなものが絡みます。このようなプロトコルで送られてきたデータをコンピュータという機械のもつデータに変換するのは、ある階層はハードウェア、ある階層はデバイスドライバ、ある階層は通信ライブラリ、ある階層はアプリケーションです。そこには「バイナリデータ」とか「テキストデータ」というものは存在しません。ソフトウエェアが認識しているがデータはソフトウェアごとに違います。C/C++にとってのデータとPythonにとってのデータは同じではありません。それは、コンピュータという機械にとってのデータにそれをどう解釈するかという情報を付け加えたものかもしれませんし、そこにあるデータをどう解釈するかはそのアプリケーションを構成する機械命令によるかもしれません。テキストデータと言っているものは、アプリケーションやそれを記述するプログラミング言語がテキストだと考えているものです。どんなデータでも、人間が見るためには何らかの目に見えるものにしなければなりません。それは0と1の羅列である場合もありますし、0-9とA-Fの羅列で表現される場合もあります。それはデータそのものではなく、データを見えるようにするためのいくつもある方法のひとつであることを理解してください。 Pythonというプログラミング言語では、watasihadarenaさんが「バイナリデータ」と呼んでいるものをバイトコードと呼んでいます。Pythonでバイトコードを表示すると、ASCIIコードで文字として扱えるものはその文字を表示するという仕様になっています。VSCODEは関係ありません。

行動規範の内容に同意します