保存したHTMLファイルをpythonに参照させたい。

前提・実現したいこと

pythonを用いて既にPC上に保存してあるHTMLファイルを参照させてタグ抽出などの処理を行いたい。

発生している問題

しかし、参照を行わせるためにはどのようにソースコードを書けばよいのか調べてみてもわからなかった。
ディレクトリ構造は添付した写真を参考にしてください。
このディレクトリ構造からHTMLファイルを読み取らせるような処理を行うコードはどのように書けばよろしいでしょうか？

該当のディレクトリ構造

試したこと

添付した写真のように

#res = requests.get('gandamu uchuuseiki/1.html')
with open("1.html", "r") as res:

などの処理を行いました。

補足情報（FW/ツールのバージョンなど）

pythonのバージョンは3.6.5です。

行動規範の内容に同意します

回答1件

ベストアンサー

Beautiful Soup の場合以下のようにします。

python
1# encoding は取得したページの文字コードを選択
2filepath = 'test.html'
3with open(filepath , encoding='utf-8') as f:
4    html = f.read()
5    
6from bs4 import BeautifulSoup
7soup = BeautifulSoup(html, 'lxml')
8
9print(soup)

投稿2018/10/25 07:28

tiitoi

総合スコア21960

gran-1123

2018/11/08 05:25

test.htmlの部分を変更したのですが、 FileNotFoundError: [Errno 2] No such file or directory: '1.html' と出てしまい参照してくれませんでした。別の方法はありますでしょうか？

tiitoi

2018/11/08 05:35

スクリプトを動かしている場所と同じところにファイルを置いてみてください

gran-1123

2018/11/08 05:52

重ね重ねすみません。今までスクリプトを同じ所に置くことを意識せずにしていたのでどの場所に置けばいいのか、そして置く時に何を注意すればよいのかがが全く分からないです。もし可能であれば教えていただけますでしょうか？

tiitoi

2018/11/08 06:11 編集

見た感じ Ubuntu ですかね？同じ場所でなくてもいいのですが、HTML ファイルというのはどこかの場所に存在するわけですよね？そのファイルパスを filepath = 'HTML のパス' のように指定するということです。場所がわからない場合は find ~ -name 1.html のようにコマンドを実行して検索してください。

gran-1123

2018/11/08 07:07

OSはLinixになります。そして試してみた所、 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml.parser. Do you need to install a parser library? というエラーが発生しました。本当にどうすればよいのでしょうか？