編集履歴

回答編集履歴

追記

2018/07/10 05:16

投稿

スコア5846

answer CHANGED Viewed

@@ -59,4 +59,51 @@
 if __name__ == "__main__":
     main()
-```
+```
+---
+> AttributeErrorでread-onlyが出た場合の対処を教えていただけませんか？
+1, まずエラーメッセージ +openpyxl 「AttributeError: 'EmptyCell' object attribute 'value' is read-only　openpyxl 」で検索します。
+そうするとエクセルブックが読み取り専用になったときに発生するというのがわかります。
+[AttributeError with openpyxl](https://stackoverflow.com/questions/45220078/attributeerror-with-openpyxl)
+2, 次に仮定します。
+エクセルが読み取り専用になることはこのコードと実行環境上ありえるのかどうか？
+→ここらへんは直感の部分もあります。
+ありえないと判断したら→次は[公式ドキュメント](https://openpyxl.readthedocs.io/en/stable/index.html#)をみます。
+公式ドキュメントの探し方はopenpyxl docとかあとはopenpyxl githubで検索すると大体ヒットするかと。
+3, 公式ドキュメントのload_workbook部分のコードを検索します。
+[Search Results load_workbook](https://openpyxl.readthedocs.io/en/stable/search.html?q=load_workbook&check_keywords=yes&area=default)そうすると、この[ドキュメント](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.reader.excel.html?highlight=load_workbook)がヒットします
+質問文のコードと引数を見比べます。
+マニュアルを見ると第二引数read_onlyは`True`/`False`ですが、質問文は'w'で渡しています。
+```Python
+wb = op.load_workbook('スクレイピング.xlsx','w')
+```
+怪しいですよね。次に仮定します。
+第二引数に'w'が渡ったときに`load_workbook`はどうなるか。
+[ドキュメント](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.reader.excel.html?highlight=load_workbook)の関数部分のsourceと書いてある部分をクリックしてソースコードを確認します。
+コードが以下のようになっています。
+```Python
+        if read_only:
+            ws = ReadOnlyWorksheet(wb, sheet_name, worksheet_path, None,
+                                   shared_strings)
+            wb._sheets.append(ws)
+```
+ミニマムコードを書いてみて確認します。
+```Python
+def ssss(read_only=False):
+    if read_only:
+        print('done')
+ssss('w')
+```
+`done`が出力されました。ということは`ReadOnlyWorksheet`の部分を通ったということです。
+原因：load_workbookの第2引数に'w'を渡したためそのため、`read_only=True`と判断されて、`AttributeError: 'EmptyCell' object attribute 'value' is read-only`となったのです。
+解決方法は回答文のコードか第二引数を削除する（未検証）でも可能かと。
+以上です。

追記

2018/07/10 05:16

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -28,4 +28,35 @@
         ws['A'+ str(i)].value = j
         i += 1
 wb.save('スクレイピング.xlsx') # ←インデントを一段下げる
+```
+---
+変数名を変更したソースコードです。
+```Python
+# -*- coding: utf-8 -*-
+from urllib import request
+from bs4 import BeautifulSoup
+import requests
+from urllib.parse import urljoin
+import openpyxl as op
+def main() -> None:
+    base_url = "https://docs.python.org/3/"
+    html = request.urlopen(base_url)
+    soup = BeautifulSoup(html,'html.parser')
+    wb = op.Workbook() # 変更
+    ws = wb.active
+    i = 1
+    for a_tag in soup.find_all('a'):
+        href = (urljoin(base_url, a_tag.get('href')))
+        if href.startswith('javascript'):
+            continue
+        ws['A'+ str(i)].value = href
+        i += 1
+    wb.save('スクレイピング.xlsx')
+if __name__ == "__main__":
+    main()
 ```

追記

2018/07/10 04:21

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -21,7 +21,7 @@
 ↓
 ```Python
 i = 1
-for a_tag in soup.find_all('a'):
+for a_tag in soup.find_all('a'): # iから適切な名前に変える
         j = (urljoin(base_url, a_tag.get('href')))
         if j.startswith('javascript'):
             continue

追記

2018/07/10 04:13

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -4,15 +4,28 @@
 エラーメッセージはlist型にvalue属性が存在しないというエラーですが。
 []　←list内包表記
 エクセルのセルに値を設定したいという要件だと思うので以下のコードでどうでしょうか。
-エクセルの行番号は1から始まるので
 [Python openpyxlでExcelを操作](https://qiita.com/tftf/items/07e4332293c2c59799d1)
 ```diff
+-ws = ['A'+str(i)].value = j
++ws['A'+str(i)].value = j
+```
+---
+エクセルのセルの行番号は1から始まるので以下のコードだと、`soup.find_all`の列挙内容が変数:`i`に入ります。
+```Python
+for i in soup.find_all('a'):
+    print(i) # ←print文を追加して変数iの内容を確認してみてくださいな
+    # 中略
+    ws['A'+str(i)].value = j
+```
+↓
+```Python
-i = 0
+i = 1
 for a_tag in soup.find_all('a'):
         j = (urljoin(base_url, a_tag.get('href')))
         if j.startswith('javascript'):
             continue
+        ws['A'+ str(i)].value = j
         i += 1
-        ws['A'+ str(i)].value = j
-        wb.save('スクレイピング.xlsx')
+wb.save('スクレイピング.xlsx') # ←インデントを一段下げる
 ```

追記

2018/07/10 04:12

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -4,9 +4,15 @@
 エラーメッセージはlist型にvalue属性が存在しないというエラーですが。
 []　←list内包表記
 エクセルのセルに値を設定したいという要件だと思うので以下のコードでどうでしょうか。
+エクセルの行番号は1から始まるので
 [Python openpyxlでExcelを操作](https://qiita.com/tftf/items/07e4332293c2c59799d1)
 ```diff
+i = 0
+for a_tag in soup.find_all('a'):
+        j = (urljoin(base_url, a_tag.get('href')))
--ws = ['A'+str(i)].value = j
+        if j.startswith('javascript'):
+            continue
+        i += 1
-+ws['A'+str(i)].value = j
+        ws['A'+ str(i)].value = j
+        wb.save('スクレイピング.xlsx')
 ```

追記

2018/07/10 04:00

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -8,5 +8,5 @@
 [Python openpyxlでExcelを操作](https://qiita.com/tftf/items/07e4332293c2c59799d1)
 ```diff
 -ws = ['A'+str(i)].value = j
-+ws.['A'+str(i)].value = j
++ws['A'+str(i)].value = j
 ```