質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

8829閲覧

スクレイピングを用いたURL出力

dkymmmmmt

総合スコア26

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/07/09 03:38

スクレイピングを用いて、あるサイトからPDFのURLを取得し、それをリスト化するプログラムを作りたいです。
URLの取得まではできたのですが、その取得したURLをテキストファイルに保存しようとするとエラーが出てしまいます。

どなたか解決策のご教授お願いいたします。
コードとエラーは以下の通りです。

python

1コード 2base_url = "URL" 3html = request.urlopen(base_url) 4 5soup = BeautifulSoup(html,'html.parser') 6for i in soup.find_all('a'): 7 j = (urljoin(base_url, i.get('href'))) 8 print(j) 9 10 f = open('scraping.txt') 11 f.write(j) 12 f.close()
f.write(j) io.UnsupportedOperation: not writable

またエラーとは別の話なのですがこのプログラムをrunすると

javascript:window.close() javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0) PDFのURL PDFのURL javascript:void(0) PDFのURL javascript:window.close()

というような感じでjavascript~~というような文字列が出てきてしまいます。
この文字列を除いてPDFのURLのみを出力する方法があればお教えいただけるとありがたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

io.UnsupportedOperation: not writable

書き込みモードでファイルを開いてください。

Python

1f = open('scraping.txt', mode='w') # wはwriteの意味 2f.write(j) 3f.close()

次のように書くとよりモダンです。

Python

1with open('scraping.txt', mode='w') as f: 2 f.write(j)

追記

あれ、このコードだと毎周新しくファイルを作ってしまいますね。
ループ外でファイルを開くべきなのでは。

Python

1with open('scraping.txt', mode='w') as f: 2 for i in soup.find_all('a'): 3 ... 4 5 if j.startswith('javascript'): # ついでに 6 continue 7 8 f.write(j)

投稿2018/07/09 03:42

編集2018/07/09 03:48
LouiS0616

総合スコア35658

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

dkymmmmmt

2018/07/09 04:06

回答ありがとうございます。 書き込みモードのことをすっかり忘れていました・・・ stratswithtで最初の文字列を指定できるのですね、これは初めて知りました。 解決し、テキストファイルに出力することができました。 ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問