前提・実現したいこと
現在私はpython3系の環境でBeautifulSoupと正規表現を併用して
「宇宙世紀の年代表現を抽出して年代の古い順に一つのリストにまとめていく」プログラムを作成しています。
実現させたいことは「resultsに格納してある内容のうち、空のリストを取り除き、中身をただの文字列として一つのリスト(UC_history)にまとめ直す」ことです。
発生している問題・エラーメッセージ
プログラム内のlistであるresultsから空のリストを取り除いた上で一つのリスト(UC_history)にまとめ直すことがうまくできません。
どうすればよろしいでしょうか?
該当のソースコード
#coding:utf-8 import re from bs4 import BeautifulSoup results = []#年号を格納しておく関数 absobe_pattern = '^U.C.[0-9]{4}'#宇宙世紀の年号 # encoding は取得したページの文字コードを選択 filepath = '/home/urai/crawling/gandamu/gandamu uchuuseiki/1.html' with open(filepath , encoding='utf-8') as f: html = f.readlines() for i in html: soup = BeautifulSoup(i, 'html.parser')#SoupでHTMLからデータを取る for text in soup.find_all(text=True):#Tabを取り除く if text.strip():#テキストであるか判定 results.append(re.findall(absobe_pattern, text))#条件に適合した文を抽出、resultに格納 f.close() #UC_history = [h for h in results if not results[h] == 'null'] #print(UC_history) print(results)
出力
[[], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0001'], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0079'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0080'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0081'], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0083'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0087'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0088'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0088'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0089'], [], [], [], [], [], [], [], ['U.C.0090'], [], [], [], [], [], [], [], ['U.C.0091'], [], [], [], [], [], [], [], ['U.C.0091'], [], [], [], [], [], [], [], ['U.C.0091'], [], [], [], [], [], [], [], ['U.C.0092'], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0093'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0094'], [], [], [], [], [], [], [], ['U.C.0096'], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0096'], [], [], [], [], [], [], [], ['U.C.0097'], [], [], [], [], [], [], [], ['U.C.0099'], [], [], [], [], [], [], [], ['U.C.0100'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0104'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0107'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0120'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0122'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0123'], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0123'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0133'], [], [], [], [], [], [], [], [], [], [], ['U.C.0136'], [], [], [], [], [], [], [], [], [], [], ['U.C.0140'], [], [], [], [], [], [], [], [], [], [], ['U.C.0149'], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0169'], [], [], [], [], [], [], [], ['U.C.0203'], [], [], [], [], [], [], [], [], [], [], ['U.C.0218'], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0223'], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0223'], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0653'], [], [], [], [], [], [], [], ['U.C.1000'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0079'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0084'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0120'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['U.C.0203'], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], []]
試したこと
条件付けでリストのまとめなおしを行いましたが、うまくいきません。
補足情報(FW/ツールのバージョンなど)
もし回答していただけるのであれば、可能な限りソースコードの原型を変えないで解決法の提示をお願いします。
1.thmlの内容は「宇宙世紀」のウィキペディア記事になっています。
gandamu/gandamu uchuuseiki/1.html がないので、回答できません。
回答2件
あなたの回答
tips
プレビュー