attributeErrorの解決策

Question

スクレイピングのプログラムを作っています。
URLからリンク先のURLをexcelにリスト化して入れるものです。
リンク先のURLの抽出までは出来るのですが、excelに出力しようとするとエラーが出ます。
以下がコードとエラーです。
ご教授お願いいたします。
```python 
from urllib import request 
from bs4 import BeautifulSoup
import requests
from urllib.parse import urljoin
import openpyxl as op

base_url = "url"
html = request.urlopen(base_url)

soup = BeautifulSoup(html,'html.parser')

wb = op.load_workbook('スクレイピング.xlsx','w')
ws = wb.active`
for i in soup.find_all('a'):
        j = (urljoin(base_url, i.get('href')))
        if j.startswith('javascript'):
            continue
        
        ws = ['A'+str(i)].value = j
        wb.save('スクレイピング.xlsx')        

```
```
ws = ['A'+str(i)].value = j
AttributeError: 'list' object has no attribute 'value'
```

回答者様の回答を反映しました。

```python
from urllib import request 
from bs4 import BeautifulSoup
import requests
from urllib.parse import urljoin
import openpyxl as op

base_url = "url"
html = request.urlopen(base_url)

soup = BeautifulSoup(html,'html.parser')
i = 0
for a_tag in soup.find_all('a'):
        j = (urljoin(base_url, a_tag.get('href')))
        if j.startswith('javascript'):
            continue
        i += 1
        ws['A'+str(i)].value = j
        wb.save('スクレイピング.xlsx')        


   
```
```
s['A'+str(i)].value = j
AttributeError: 'EmptyCell' object attribute 'value' is read-only
```

Accepted Answer

スクリプト文をそのまま実行できるようにimport部分も質問文に記載してくださいな。
> AttributeError: 'list' object has no attribute 'value'

エラーメッセージはlist型にvalue属性が存在しないというエラーですが。
[]　←list内包表記
エクセルのセルに値を設定したいという要件だと思うので以下のコードでどうでしょうか。

[Python openpyxlでExcelを操作](https://qiita.com/tftf/items/07e4332293c2c59799d1)
```diff
-ws = ['A'+str(i)].value = j
+ws['A'+str(i)].value = j
```
---
エクセルのセルの行番号は1から始まるので以下のコードだと、`soup.find_all`の列挙内容が変数:`i`に入ります。
```Python
for i in soup.find_all('a'):
    print(i) # ←print文を追加して変数iの内容を確認してみてくださいな
    # 中略
    ws['A'+str(i)].value = j
```
↓
```Python
i = 1
for a_tag in soup.find_all('a'): # iから適切な名前に変える
        j = (urljoin(base_url, a_tag.get('href')))
        if j.startswith('javascript'):
            continue
        ws['A'+ str(i)].value = j
        i += 1
wb.save('スクレイピング.xlsx') # ←インデントを一段下げる
```
---
変数名を変更したソースコードです。
```Python
# -*- coding: utf-8 -*-
from urllib import request
from bs4 import BeautifulSoup
import requests
from urllib.parse import urljoin
import openpyxl as op

def main() -> None:
    base_url = "https://docs.python.org/3/"
    html = request.urlopen(base_url)

    soup = BeautifulSoup(html,'html.parser')

    wb = op.Workbook() # 変更
    ws = wb.active
    i = 1
    for a_tag in soup.find_all('a'):
        href = (urljoin(base_url, a_tag.get('href')))
        if href.startswith('javascript'):
            continue
        ws['A'+ str(i)].value = href
        i += 1
    wb.save('スクレイピング.xlsx')


if __name__ == "__main__":
    main()
```
---

> AttributeErrorでread-onlyが出た場合の対処を教えていただけませんか？

1, まずエラーメッセージ +openpyxl 「AttributeError: 'EmptyCell' object attribute 'value' is read-only　openpyxl 」で検索します。
そうするとエクセルブックが読み取り専用になったときに発生するというのがわかります。
[AttributeError with openpyxl](https://stackoverflow.com/questions/45220078/attributeerror-with-openpyxl)
2, 次に仮定します。
エクセルが読み取り専用になることはこのコードと実行環境上ありえるのかどうか？
→ここらへんは直感の部分もあります。

ありえないと判断したら→次は[公式ドキュメント](https://openpyxl.readthedocs.io/en/stable/index.html#)をみます。
公式ドキュメントの探し方はopenpyxl docとかあとはopenpyxl githubで検索すると大体ヒットするかと。
3, 公式ドキュメントのload_workbook部分のコードを検索します。
[Search Results load_workbook](https://openpyxl.readthedocs.io/en/stable/search.html?q=load_workbook&check_keywords=yes&area=default)そうすると、この[ドキュメント](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.reader.excel.html?highlight=load_workbook)がヒットします

質問文のコードと引数を見比べます。
マニュアルを見ると第二引数read_onlyは`True`/`False`ですが、質問文は'w'で渡しています。
```Python
wb = op.load_workbook('スクレイピング.xlsx','w')
```

怪しいですよね。次に仮定します。
第二引数に'w'が渡ったときに`load_workbook`はどうなるか。
[ドキュメント](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.reader.excel.html?highlight=load_workbook)の関数部分のsourceと書いてある部分をクリックしてソースコードを確認します。
コードが以下のようになっています。
```Python
        if read_only:
            ws = ReadOnlyWorksheet(wb, sheet_name, worksheet_path, None,
                                   shared_strings)

            wb._sheets.append(ws)

```
ミニマムコードを書いてみて確認します。
```Python
def ssss(read_only=False):
    if read_only:
        print('done')

ssss('w')
```
`done`が出力されました。ということは`ReadOnlyWorksheet`の部分を通ったということです。

原因：load_workbookの第2引数に'w'を渡したためそのため、`read_only=True`と判断されて、`AttributeError: 'EmptyCell' object attribute 'value' is read-only`となったのです。
解決方法は回答文のコードか第二引数を削除する（未検証）でも可能かと。
以上です。

Answer

間にある "=" が不要です。動かしてませんが下のコードで上手く動くかと思います。
```
ws['A'+str(i)].value = j
```

関連した質問