質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

Pythonのループ方法について

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 341

AbcdefgFirst

score 14

お世話になっております。

Pythonモジュールのbeautifulsoupを用いてhtmlを解析した後に、all_tableにtable要素を入れています。

その後のfor文の中でall_tablesから取り出しているvalueの中には<tag>~</tag>の中身が1つずつ入っているかと思うのですが、その中で指定した番号の並びにあるtd要素の値をprocessed_tablesに入れています。

分からない部分

一番下にあるコードにて、for文の中でtd要素の番号を指定している部分があるかと思うのですが、そこを変数などを用いて汎用的に書く方法が分かりません。

具体的には、row_numberに入っている(tr要素の)数だけ番号に+8する処理をして、その値をprocessed_tablesに追加していきたいです。

for文の中にカウント用とtd要素の並び番号を持っておく変数を用意して、下のようなコードを書いてみましたが、iの中にただのintが入ってしまいエラーが出てしまいます。

for index, value in enumerate(all_tables):
        row_number = len(value.tbody.find_all('tr'))

        sequence = 1
        counter = 1

        for i in range(row_number):

            processed_table[index] = {
                'element': [i.find_all('td')[sequence].text],
                'value': [i.find_all('td')[sequence+1].text],
                'remark':[i.find_all('td')[sequence+6].text]
            }

            sequence += 8
            counter += 1


初歩的な質問でお見苦しい点があるかと思いますが、ご教授頂けませんでしょうか。
以上、よろしくお願いします。

コード

#取得するtable数
number = int(input())

#入力された数だけtableタグを取得する
all_tables = soup.find_all('table', limit = number)


#指定数の配列を用意して0で初期化
processed_tables = [ 0 for i in range(number) ]



for index, value in enumerate(all_tables):
        row_number = len(value.tbody.find_all('tr'))

        processed_tables[index] = {
            'element': [
                value.find_all('td')[1].text, 
                value.find_all('td')[9].text,
                value.find_all('td')[17].text,
            ],
            'value': [
                value.find_all('td')[2].text,
                value.find_all('td')[10].text,
                value.find_all('td')[18].text,
            ],
            'remark': [
                value.find_all('td')[7].text,
                value.find_all('td')[15].text,
                value.find_all('td')[23].text,
            ]
        }
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

おそらくC言語とかからプログラムを勉強し始めたのかと思いますが、
pythonではC言語などでやっていたindexを使ったforの回し方とニュアンスが違ってくるので
慣れるまではしっくりこないと思います

しかし慣れてしまえば下記のように非常に理解がしやすい?記述が可能になりますので
ぜひとも慣れてしまうことをお勧めします
自分もC言語から始めたので大変でした(**)

パパっと適当に書いたので間違ってるかもしれませんがこれでおそらくニュアンスがつかめるのではないでしょうか
詳しくはpythonの公式サイトや本を参考にすることをお勧めします

for index, value in enumerate(all_tables):
        row_number = len(value.tbody.find_all('tr'))

        for i in range(0, 8*row_number, 8):
            processed_tables[index]['element'].append(value.find_all('td')[1+i].text)
            processed_tables[index]['value'].append(value.find_all('td')[2+i].text)
            processed_tables[index]['remark'].append(value.find_all('td')[7+i].text)

 追記

#指定数の配列を用意して0で初期化
processed_tables = [ 0 for i in range(number) ]


ここのコードを読み飛ばしておりここがエラーになっていました
processed_tableに入ってるのは数字のリストなのに
数字に添え字で['element']ってやってもアクセスできないよねってことでした

pythonではリストを宣言する際にサイズを気にする必要はありません
初期化してそこに要素をappendすれば勝手に要素数を増やしていってくれます
多分これでエラーを回避できると思います(最初のやつよりだいぶ変わっちゃいました)

#取得するtable数
number = int(input())

#入力された数だけtableタグを取得する
all_tables = soup.find_all('table', limit = number)

# init List
processed_table = []

for value in all_tables:
        row_number = len(value.tbody.find_all('tr'))

        dir_dict = {'element':[], 'value':[], 'remark':[]}
        for i in range(0, 8*row_number, 8):
            dir_dict['element'].append(value.find_all('td')[1+i].text)
            dir_dict['value'].append(value.find_all('td')[2+i].text)
            dir_dict['remark'].append(value.find_all('td')[7+i].text)
        processed_table.append(dir_dict)


おそらくこれで実行できて、
processed_tableにはdir_dictのリストが入っていて
processed_table[all_tableの数]でアクセスできる

processed_table[all_tebleの数]にはdir_dictが入っていて
processed_table[all_tableの数]['element']などでアクセスできる

processed_table[all_tableの数]['element']にはリストが入っていて
processed_table[all_tableの数]['element'][row_number]でアクセスできる

processed_table[all_tableの数]['element'][row_number]には
value.find_all('td')[2+i].textなどが入っていて
そこから先はbeautifulsoupにお任せします

ただdictの中にあんまりlistを入れたくないので、
自分であれば
processed_table[all_tableの数]['element'][row_number]の並びよりも
processed_table[all_tableの数][row_number]['element']の並びにすると思います
なかなか分からない事だらけだと思いますが頑張ってください(^o^)/

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/11/21 21:19

    ko.tu様
    ご回答頂きありがとうございます。
    見慣れない書き方が出てきたので、勉強しておこうと思います。
    アドバイス頂いたコードを試したところ、以下のエラーが出ました。
    processed_tables[index]['element'].append(value.find_all('td')[1+i].text)
    TypeError: 'int' object is not subscriptable
    エラー内容をググってみたのですが、リストで無くタプルを使うと解決するみたいなのですがイマイチよく分かりませんでした。
    何か書き方が違うのでしょうか...?

    キャンセル

  • この投稿は削除されました

  • 2018/11/22 15:32

    追記しました
    もし自分のコメントがまだ残っていても
    勘違いしていた時に書いたコメントが残っているだけなので
    追記の方を参照してください

    キャンセル

  • 2018/11/22 21:13

    ko.tu様
    何とか希望の動作を実装する事が出来ました。
    配列と辞書等の型が入り混じって色々と遠回りしていたようです。。
    ご親切に教えていただき有難うございました。大変助かりました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.34%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る