辞書型２次元リストで文字列が１文字ずつ出力されてしまう。

ディレクトリを探索しhtmlページを見つけ、２次元配列に”ページ名”と”そのページから他のページへのリンク先”、”そのページの重要度”を記録するプログラムを作成していました。

辞書型二次元配列を作成してリンク先を出力してみようと思ったのですが、文字列が１文字ずつ改行されて出力されます。これは一体なぜなのでしょうか。何卒ご教授よろしくお願いいたします。

以下ソースコードと出力です。

import glob
import re
import os

links = {}
files = glob.glob("source*.html")
for i in range(len(files)):
        html_file = open(files[i], "r")
        txt = html_file.read()
        links[i] = {'NAME': f'{os.path.basename(files[i])}',
                    'LINK': f'{re.findall("[a-zA-Z]+.html", txt)}',
                    'SCORE': 1.0}

for page in links[2]["LINK"]:
        print(page) # ここで一文字ずつ出力されてしまう。

# これが出力です。
[
'
d
a
t
a
.
h
t
m
l
'
,

'
s
e
a
r
c
h
.
h
t
m
l
'
]

行動規範の内容に同意します

回答3件

for page in links[2]["LINK"]:

の部分ですが、links[2]["LINK"]は文字列です。
for page in 文字列:は、文字列を1文字ずつ順番に変数pageにいれて以下を繰り返しますので、そうなります。

linksｎ入れた辞書の"LINK"を表示したいのなら、

Python
1for link in links.values():
2        print(link["LINK"])

linksを辞書にしていますが、リストの方が良いのでは？

投稿2021/05/08 10:01

otn

総合スコア86328

ベストアンサー

正規表現で取りだしたリンク先を順に表示したいのであれば、

python
1for i in range(len(files)):
2        html_file = open(files[i], "r")
3        txt = html_file.read()
4        links[i] = {'NAME': f'{os.path.basename(files[i])}',
5                    'LINK': f'{re.findall("[a-zA-Z]+.html", txt)}',
6                    'SCORE': 1.0}

を

python
1for i in range(len(files)):
2        html_file = open(files[i], "r")
3        txt = html_file.read()
4        links[i] = {'NAME': f'{os.path.basename(files[i])}',
5                    'LINK': re.findall("[a-zA-Z]+.html", txt),
6                    'SCORE': 1.0}