コメントを残したまま数値データを読み込みたい

Question

### 実現したいこと
sample.txtは次のようなファイルです。

0	#num
1	#a[1]
2	#a[2]
3	#ns

0、1、2、3これらの変数は入力パラメータで、変数の説明のために「#以下の部分」を残したいです。このファイルを読み込みたくて、「該当のソースコード」を書きました。（昔に作ったコードなので、参考にしたサイトのURLは分かりませんでした。申し訳ありません）

行数も比較的少なく、正しく動きます。しかし、このような問題に出会ったときに「該当のソースコード」は自然なコードなのか、皆様がどのようなコードを書かれるかが気になりました。もっと自然なコードがあれば教えてください。（「自然」をどう考えるかが難しいですが・・・）

### 該当のソースコード

```python
a   = [0 for i in range(3)]

with open("sample.txt", "r", encoding="utf-8") as f:
    list = f.readlines()
    
para= []
for i in list:
    word = i.split()
    para.append(word)

num  = para[0][0] 
a[1] = para[1][0]
a[2] = para[2][0]
ns   = para[3][0]

print(num)  #0
print(a[1]) #1
print(a[2]) #2
print(ns)   #3
```

Accepted Answer

> もっと自然なコードがあれば教えてください。（「自然」をどう考えるかが難しいですが・・・）

確かに「自然なコード」という表現は解釈に困るところですが、例えば Numpy を利用すると以下の様に書くことができます。

※ `numpy.loadtxt()` のデフォルト設定では `#` をコメント文字列の開始と見なして読み飛ばします
[numpy.loadtxt — NumPy v2.3 Manual](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt)
> **comments**: **__str or sequence of str or None, optional__**
> The characters or list of characters used to indicate the start of a comment. None implies no comments. For backwards compatibility, byte strings will be decoded as ‘latin1’. The default is ‘#’.

```python
import numpy as np

a = np.zeros(4)
num, *a[1:3], ns = np.loadtxt('sample.txt')
num, ns = num.astype(int), ns.astype(int)

print(num)  #0
print(a[1]) #1.5
print(a[2]) #2.0
print(ns)   #3
```

Answer

そもそもとして、コメントと値が対応しているのであれば私なら以下のように定義しますね。。。

```txt
num1=0
a[1]=1
a[2]=2
ns=3
```

Answer

回答はいくつかついていますので、

> このような問題に出会ったときに「該当のソースコード」は自然なコードなのか、

について。
問題（やりたいこと）を正しく文章化して、それをコード化するのが良いです。
一般的な言い方をすると、「プログラムの仕様を決めてからその仕様に合わせてコーディングしましょう」ということです。

質問のコードだと、`split()`で分解してその`[0]`をデータとして取得してます。
このコードから、「やりたいこと」を予想して復元すると、
「各行を空白文字で分割して、各行の最初の非空白の塊を文字列型として取り出す」
ですが、これが本当にやりたいことであれば、これで良いです。

ただ、質問文章を読むと「行中に`#`があれば`#`以降を無視して（削除して）、`#`より前の部分を（前後の空白を削除したうえで）文字列型として取り出す」がやりたいことに見えるので、もしそうであれば、このコードはやりたいことをストレートに反映してないので、良くないです。「`#`以降はコメントである」という認識で`1#コメント`という`#`の前に空白が無いデータを作ってしまうと破綻します。

あるいは、「`#`の後に、代入したい変数名が書いてあるので、その変数に代入する」がやりたいことなら、全然違うコードになります。cametanさんの回答はそういう方向ですね。

まあ、「今、目の前にあるこのデータだけで正しく動けばいい」という使い捨てプログラムなら設計段階から手抜きして問題ありません。今回のデータだと、「空白で区切った１つめ」と「`#`以降（と空白）を無視」は同じなので、そこを明確にせずに進めるということです。ただし、再利用されないようにちゃんとプログラムを削除しておきましょう。
一方、使い捨てでないプログラムの場合、「今回はこういうデータだけだけど、今後～～という形式のデータもあり得るので、そういったときにも無修正で対応できるといい（or簡単な修正で対応したい）」ということであれば、それも含めて「やりたいこと」ですから、それに応じたコードにします。

Answer

pythonのテクニックに関するご質問であれば以下は読み飛ばしてください。
(split、スライス、正規表現を使うだとか。については言及しません)

---
Pythonなら関数を定義するのが自然だと思います。

(A) '#'以降の文字列を削除する関数
(B) ファイルの中身の意味のあるデータだけを抽出する中間処理
の二つを私は考えました。

フローとしとしては(B)の処理で(A)を使い行(文字列)毎に処理をします。
以下の例ではジェネレータ構文を使っていますが、想定しているスクリプトは別に全行読み込んで処理をしてもいいとは思います。
理想だけでいえばmap関数のように処理自体を引数として受け取れる方がいいかもしれません。

```py

def remove_after_hash(s: str) -> str:
    # '#'までの文字列を返す
    if '#' in s:
        return s.split('#', 1)[0]
    return s

def extract_data(file: TextIO) -> Iterator[str]:
    # ファイルの必要な部分だけを返す
    for line in file:
        line = remove_after_hash(line)
        yield line

```

remove_after_hashは手続き的な命名なのでコメントを消すとか、意味のある部分だけを残すみたいな意味に変えたほうが人によっては自然に感じるかもしれません。
そうしたほうが空文字を消すみたいな処理もここでカスタマイズしやすいと思います。

> 「該当のソースコード」は自然なコードなのか、皆様がどのようなコードを書かれるかが気になりました。もっと自然なコードがあれば教えてください。（「自然」をどう考えるかが難しいですが・・・）

フローそのものの自然さに着目しても有益なことがないので、カプセル化されているものだと考えたほうが様々な利点があります。
カプセル化というか、関心の分離というか。正しい言葉ではないでしょうがそういうノウハウが活きるという話です。

*もっと汎用性について議論したい人が`extract_data`の関数定義について、指摘してくるかもしれませんが、好きなようにリッチ(笑)にカスタマイズすればよろしいかと思います。空行を無視するだとかね。

Answer

既に解決済みなので，御参考です。

[re.sub()](https://docs.python.org/3.13/library/re.html#re.sub) 関数を用いてコメント部分（`#` から末尾まで）を取り除き，[条件式（三項演算子）](https://docs.python.org/3.13/reference/expressions.html#conditional-expressions) を用いて浮動小数点数（`float()`）と整数（`int()`）を切り替えて数値化しています。

```Python
import re

with open('sample.txt', 'r', encoding='utf-8') as f:
    lst = [s for s in f.read().splitlines()]
lst = [re.sub('#.*$', '', s) for s in lst]
lst = [float(s) if i == 1 or i == 2 else int(s) for i, s in enumerate(lst)]

a = [0.0] * 4
num, a[1], a[2], ns = lst

print(num, a, ns)
# 0 [0.0, 1.5, 2.0, 0.0] 3
```

Answer

データの扱いの要件がわからないのでどうすればいいかは全くわかりませんが、一点、気になったところだけコメント。

データの分割にsplitを使うのは悪手だと思う。  コメントにスペースが含まれていたら、正常に分離できません。コメントが固定なのであれば、それは、とっておく意味がないし。
「#」の前の数値がデータで、以降がコメントだとすると、たとえば正規表現で分離。

```python
import re

para =[]
with open("sample.txt", "r", encoding="utf-8") as f:
    for l in f.readlines():
        m = re.match(r'^(\d+) *#(.*$)', l)
        if m:
            para.append({'value': int(m.groups()[0]),
                         'comment': m.groups()[1]})

print(para)
```

データによってはfloatにしたいとかは、仕様がわからないので対応不能。

Answer

例えばこんなん、とか?

```Python
#!/usr/bin/env python3

import sys

a = [0]

if __name__ == '__main__':
    with open(sys.argv[1], "r") as f:
        para = [x.split() for x in f.readlines()]
        for i, j in para:
            match j:
                case '#num':
                    num = i
                case '#ns':
                    ns = i
                case _:
                    a.append(i)
        print(f'{num}
{a[1]}
{a[2]}
{ns}')

```

個人的には、「リスト内包表記が使えてるのに惜しいな」って感想。もっと縮められる。
それから、せっかく「付属情報を付けてる」状態なんだから、判別に利用すべきだと思った。
そういう場合、Python3.10から追加された[```match文```](https://docs.python.org/ja/3.13/reference/compound_stmts.html#the-match-statement)を上手く使うべきだと思う。
パターンマッチは極めて強力なんで、ガンガン使おう。

そんなトコかな?

![実行例](https://ddjkaamml8q8x.cloudfront.net/questions/2025-08-12/48f1d24e-83b6-45fe-b52c-ae904e40d9d1.png)

実現したいこと

該当のソースコード

関連した質問