【Python】テキストデータを辞書型やリスト型に変換したい

タイトルにある通り、テキストデータを辞書型やリスト型に変換したいです。
目的はデータ解析と、自分の作業の効率化のためです。
よろしくお願いします。

#主題１

オフラインにあるhtmlデータをpythonの辞書型に落とし込みたいです。スクレイピングではなく、もう少し小規模なものを考えています。ページのソースを表示してコピペできるくらいの数百の要素数を想定しています。

html
1<tr>
2<td title="foo">***</td>
3<th><a href="***">bar</a></th>
4<td>***</td>
5</tr>
6
7<!--このような規則性のあるものが数百並んでいるデータを想定-->

<td>の中のtitleの属性値fooをkey、<a>で囲まれた文字barをvalueとして扱いたいです。 ```python #どこまで考えたか１

info = 'data.txt' #上記htmlの一部をtxtファイルとして保存している想定。

def molding(info):
dict = {}

with open(info) as f:
text = f.read() #文字列として取得

import re
for i in text:
foo = re.match() #titleの属性値をfoo
bar = re.match() #>と</a>で囲まれた部分をbarとする
dict['foo'] = 'bar' #追加

f.close()

return dict


#主題２

成分表示
`りんご、みかん, にんじん　,すいか,,レモン  ,なす`
この文字列をリスト型に変換したいです。
```python
#どこまで考えたか２

txt='りんご、みかん, にんじん　,すいか,,レモン  ,なす'

def transform(txt):
	l=[]

	txt.replace(' ' , '').replace('　' , '').replace('、' , ',').replace(',,' , ',')
# txt='りんご,みかん,にんじん,すいか,レモン,なす'

	import re

	for m in txt:
		m = re.match('[\u3041-\u3096 | \u30A1-\u30FF]'+, txt) #先頭から一語をmとする
# IndentationError: ecpected an indented block
		l.append(m) #リストに入れる
		txt.replace(m , '').replace(',' , '') #txtの先頭から一語とカンマ１つを消す
print (l)
# ["''", "''", "''", "''", "''", '', '', '', '', '', '']

##つまり、わからないこと

主題１をどう書き直せばいいか
主題２をどう書き直せばいいか
正規表現でどのようにひらがなカタカナ漢字Alphabet数字を指定すればいいのか

###関連ありそうだな～と調べたことメモ

Beautiful Soup 4でもsoup.find_all('a')すればbarの部分は抽出できるらしいので、pythonでできないということはないはず。
html.parserを使用？
pandasやテキストマイニングはたぶん関係ない。でもたぶんオフラインデータを扱える？
記号&空白で分割してgoogleスプレッドシートに落とし込んでから、そこで成型してpythonのデータ型に変換する。→たぶん同じところで躓く＆より知識不足
EXCELのマクロでもCSVなどの整ったデータのみ？
pythonの辞書をhtmlにするという逆のことはできるらしい。Flaskを使用
行ごとに分割してリストにするならreadlines()

行動規範の内容に同意します

回答2件

ベストアンサー

主題2

ひらがなのパターンの表記と、findallを組み合わせるとリストの取得ができます。

python
1>>> import re
2>>> txt='りんご、みかん, にんじん　,すいか,,レモン  ,なす'
3>>> res = re.findall(r'[\u3041-\u309F]+', txt)
4>>> res
5['りんご', 'みかん', 'にんじん', 'すいか', 'なす']

主題1

BeautifulSoup4で、ローカルのHTMLも対応可能です。
記述例のHTMLであれば下記で出力できます。

python
1from bs4 import BeautifulSoup
2
3
4def molding(td_elms, a_elms, td_length: int) -> dict:
5    # td_lengthにはtrタグ内のtdタグの数を入力する
6    ret_dict = {}
7    for td_elm, a_elm in zip(td_elms[::td_length], a_elms):
8        key = td_elm["title"] # タグからtitleを取り出す
9        ret_dict[key] = a_elm.text # タグ内のテキストを取得する
10    return ret_dict
11
12
13def main():
14    bs = BeautifulSoup(open("html.txt", encoding="utf-8"), "html.parser")
15    td_elms = bs.find_all("td") # tdタグをすべて取得する
16    a_elms = bs.find_all("a") # aタグをすべて取得する
17    ret = molding(td_elms, a_elms, 2)
18    print(ret)  # {'foo': 'bar', 'fooo': 'baar', 'foooo': 'baaar'}
19
20
21if __name__ == "__main__":
22    main()
23

SampleのHTMLは以下の通りです。

html
1<html>
2<!-- 中略 -->
3    <tr>
4        <td title="foo">***</td>
5        <th><a href="***">bar</a></th>
6        <td>***</td>
7    </tr>
8    <tr>
9        <td title="fooo">***</td>
10        <th><a href="***">baar</a></th>
11        <td>***</td>
12    </tr>
13    <tr>
14        <td title="foooo">***</td>
15        <th><a href="***">baaar</a></th>
16        <td>***</td>
17    </tr>
18<-- 以下、略 -->

誤記かもしれませんが、table/tr/th/tdのReferenceを参考程度にシェアします。

HTMLタグリファレンス <TABLE> …… テーブル（表）を作成する

追記

ひらがなとカタカナで正規表現を書いて、レモンも取得できるようにするには下の通りに書きます。

python
1>>> import re
2>>> txt='りんご、みかん, にんじん　,すいか,,レモン  ,なす'
3>>> res = re.findall(r'[\u3041-\u309F\u30A1-\u30FF]+', txt)
4>>> print(res)
5['りんご', 'みかん', 'にんじん', 'すいか', 'レモン', 'なす']

投稿2020/12/13 00:57

編集2020/12/13 10:43

退会済みユーザー

総合スコア0

t.z

2020/12/13 09:55

ご回答ありがとうございます！BeautifulSoup4便利ですね。３つ質問です。 ①主題２の「レモン」を残したいのですが、その場合はどう書けばよいでしょうか？調べてもいい情報が見つかりませんでした。 ②　->　この記号はなんという名前なのですか？ ③def molding()のカッコの中の　: int　はどういう意味ですか？

退会済みユーザー

2020/12/13 10:52 編集

① 回答に追加しました。 ② 記号の名前はわからないですが、型ヒントやアノテーションと調べるとヒントがあるかもです[ref]。 ③ td_length: intはtd_length引数にint型の値が入ることを明示しています。 [ref]: https://qiita.com/icoxfog417/items/c17eb042f4735b7924a3

t.z

2020/12/13 12:08

よくわかりました。ありがとうございます。

行動規範の内容に同意します

主題2

python
1txt='りんご、みかん, にんじん　,すいか,,レモン  ,なす'
2print(txt.translate(str.maketrans(',、', '  ')).split())

投稿2020/12/12 19:08

YouheiSakurai

総合スコア6142

t.z

2020/12/13 09:54

簡潔すぎて魔法みたいです。便利な回答ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

【Python】テキストデータを辞書型やリスト型に変換したい

主題2

主題1

追記

関連した質問