HTMLSession で取得したリンク集をさらにクローリングするプログラムを書いているのですが、
pdfファイルやMP4ファイルもリンクとして取得するそうで、回帰文でクローリングしているため、
そのファイルもクローリング対象に含まれてしまい、当然、開くことができず、エラーと返されます。
そこで、pdfやMP4などのファイルを開かない(HTMLSessionで開けない)リンクを選ばない、スクレイピングしない方法(HTMLSessionでそれらを取得しない方法)、または、開けない拡張子付きのファイルがあれば回帰時に無視するようにしたく思っております。これまで後者の方で試していたのですが、たとえば、pdfの場合は、無視するというif文を書いたのですが、pdfやMP4以外にも色々な開けないファイルがあると思い、困っております。
取り急ぎ、ダウンロードファイル(pdf等)すべてを対象にするプログラム構文ってあるのでしょうか。
また、できましたら前者のHTMLSessionでスクレイピング時から開けないファイルは取得できないようにできない方法も併せてご教示いただきたいです。
回答1件
あなたの回答
tips
プレビュー