BeautifuSoupでスクレイピング結果のprint()とCSV保存

Question

### 前提・実現したいこと tdnetのXBRL（拡張子.htmのファイル）の読み、BeautifuSoupでスクレイピングした結果を print()で表示しています。これの出力結果をCSVに書き出したいのですが、 CSVの作成ができません。 printでの出力はエラーもでず問題ないのですが、 printで出力しつつ、その結果内容をCSVにも保存させることはできるのでしょうか。 ### 発生している問題・エラーメッセージ ``` NameError: name 'df' is not defined ``` ### 該当のソースコード ```Python3 import datetime from urllib.request import urlopen from bs4 import BeautifulSoup import pandas as pd import requests import os import zipfile import re def fn_parse(sic , xbrl_path): # htmファイル読み込み ff = open( xbrl_path , "r" ,encoding="utf-8" ).read() soup = BeautifulSoup( ff ,"html.parser") #ファイル名には命名規則があるので、そこから属性情報等を取得 rpt_nm = xbrl_path.split("-")[1] print(rpt_nm ) #ix:nonnumeric print( "■ix:nonnumeric" ) nms = soup.find_all("ix:nonnumeric") for nm in nms: # print(str(nm.get("name"))) lst = ['SecuritiesCode','URL','CompanyName','FilingDate','FiscalYearEnd'] lst = lst + ['AccountingStandardsDEI','EDINETCodeDEI','CurrentFiscalYearStartDateDEI','CurrentPeriodEndDateDEI'] x = [print(i,nm.text) for i in lst if i in "tse-ed-t:"+nm.get("name") ] #ix:nonfraction elems = soup.find_all("ix:nonfraction" ) print( "■ix:nonfraction" ) for elem in elems: print(str(elem.get("name"))) print(str(elem.get("contextref"))) #print(str(elem.get("decimals"))) #print(str(elem.get("scale"))) #print(str(elem.get("unitref"))) print(elem.text) def fn_htm(sic,fn): url = 'https://www.release.tdnet.info/inbs/' + str(fn) #XBRLダウンロード fn = str(sic) +".zip" os.system("wget -O " + str(fn) + " " + str(url)) # ZIP解凍 with zipfile.ZipFile( str(fn), 'r' ) as myzip: infos = myzip.infolist() for info in infos: base, ext = os.path.splitext(info.filename) # htmの読み込み if ext == '.htm': if str(base).find('Summary')>0 or str(base).find('Attachment')>0 : myzip.extract(info.filename) print('■□■' + info.filename) dict = fn_parse(sic , info.filename) def fn_make_df(url): #変数設定 a,b,c,d,e,f = [],[],[],[],[],[] #リストを６つ用意 df = pd.DataFrame() #取得結果格納用のデータフレーム #ページの閲覧 html = urlopen(url) bsObj = BeautifulSoup(html, "html.parser") tbl3 = bsObj.findAll("table")[3] trs = tbl3.findAll("tr") for tr in trs: lst=[] tds = tr.findAll('td') for td in tds: #各tdの値を各リストに各々格納 if td.get("class")[1] =="kjTime":a += [td.text ] #開示時刻 if td.get("class")[1] =="kjCode":b += [td.text ] #コード if td.get("class")[1] =="kjName":c += [td.text ] #社名 if td.get("class")[1] =="kjTitle": d += [td.text ] if td.get("class")[1] =="kjTitle": #pdfのリンクURL e += [td.a.get("href") ] if td.a is not None else [td.a ] if td.get("class")[1] =="kjXbrl" : #XBRLのDLリンク f += [td.a.get("href") ] if td.a is not None else [td.a ] #取得結果格納リスト群からデータフレーム生成 df = pd.DataFrame( data={'A': a, 'B': b, 'C': c, 'D': d, 'E': e, 'F': f}, columns=['A', 'B', 'C', 'D', 'E', 'F']) return df def fn_tkjkj(date): # URL文字列の生成 url0 = 'https://www.release.tdnet.info/inbs/' url1 = url0 + 'I_list_{}_{}.html'.format('001',date) print(url1) # 該当URLを閲覧 html = urlopen(url1) bsObj = BeautifulSoup(html, "html.parser") tbl1 = bsObj.findAll("table")[1] dv1 = tbl1.findAll("div",{"class":"kaijiSum"}) dv2 = tbl1.findAll("div",{"class":"pager-O"}) dv3 = tbl1.findAll("div",{"class":"pager-M"}) if dv1 ==[]: print('開示0件') else: #print(str(dv1).split('全')[1].split('

Answer

「printでの出力はエラーもでず問題ない」とのことですが、関数内でのprintでは出力されるということでしょうか？

みた感じ、エラー文にもある通り関数外でdfが定義されてませんので、関数の外（例えばfilename = "company_list.csv" の上など）でprint(df)をすると同様にエラーが出ると思います。

return文を書くだけでなく、それを変数に格納してあげないといけないので、

```python
    # 日付
    date =  datetime.datetime.today().strftime("%Y%m%d")
    fn_tkjkj(date)
```

ここを
```python
    # 日付
    date =  datetime.datetime.today().strftime("%Y%m%d")
    df = fn_tkjkj(date)
```
にすれば上手くできると思います。

BeautifuSoupでスクレイピング結果のprint()とCSV保存

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問