質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.83%

  • Python 3.x

    4477questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Ubuntu

    1146questions

    Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

投票を行う関数を作成したい

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 120

aoisj

score 19

テキストファイルを使ってLDAモデルを作成しテキストファイルのカテゴリをしたいと考えています。
「学習データのカテゴリ番号」リストと
LDAモデル作成によって得られた「各トピック番号が最大トピックだったファイル番号の一覧」リストを使って
「各トピック番号がそれぞれどのカテゴリを表しているのか」を決定したいと考えています。
まず、関数に用いるデータです。

#学習データのカテゴリ番号
category_list = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9]

#学習データの最大トピック
topic_result = [[11, 13, 26, 34, 37, 41, 46], 
                [7, 30],
                [61],
                [8, 10, 19, 27, 39, 48, 55, 62, 71],
                [3, 14, 17, 24, 32, 51, 56, 60, 70],
                [1, 9, 23, 25, 33, 38, 43, 44, 49, 57, 63], 
                [2, 6, 12, 21, 31, 32, 35, 50, 52, 58, 65],
                [5, 16, 22, 42, 45, 59, 66, 67],
                [18, 29, 53, 68],
                [0, 4, 15, 20, 28, 36, 40, 47, 54, 64, 69]]

#入力データのトピック(最大3つ)
top3 = [9, 6, 4]


このtop3[]場合、トピック9,6,4についてcategory_listとtopic_listを用いて
入力データのカテゴリを推定します。
以下にカテゴリの推定に用いる関数を記します。

def decide_category(category_list,topic_result,top3):
    test_data_category = []
    for i in top3:
        test_topic_list = topic_result[i]
        a = []
        for j in test_topic_list:
            a[category_list[j]] += 1
      test_data_category.append(max(a))
    return test_data_category


イメージとしては学習データの各ファイルがそれぞれ
「自分の最大トピックの番号」に1票投票し、
トピック番号毎に最も票数が多かったトピック番号をそのトピックのカテゴリとする
といったところです。
分かりづらかったら申し訳ありません。
この関数で出てしまったエラーは以下の通りです。

    a[category_list[j]] += 1
IndexError: list index out of range


a[] += 1という表現がまずかったということなのですが、解決策を教えていただきたいです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

+1

リストのまま運用したい場合
前もってaを0のリストに初期化しておけばよいです。

a = [0] * 10

リストのままでなくても良い場合
辞書として扱ってよいなら、collections.defaultdictが便利でしょう。

ひょっとして

こういうことでしょうか?
このデータは何ぞや、という段階から考え直しているので、外していたらすみません。

from collections import Counter

# トピックごとのカテゴリ番号
topic_category_list = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9]

# 各学習データの最大トピック
teacher_topic_list = [
    [11, 13, 26, 34, 37, 41, 46], 
    [7, 30],
    [61],
    [8, 10, 19, 27, 39, 48, 55, 62, 71],
    [3, 14, 17, 24, 32, 51, 56, 60, 70],
    [1, 9, 23, 25, 33, 38, 43, 44, 49, 57, 63], 
    [2, 6, 12, 21, 31, 32, 35, 50, 52, 58, 65],
    [5, 16, 22, 42, 45, 59, 66, 67],
    [18, 29, 53, 68],
    [0, 4, 15, 20, 28, 36, 40, 47, 54, 64, 69]
]

# 入力データと類似した学習データ
similar_teacher_data_indice = [9, 6, 4]

def get_category_list_by_topics(topic_category_list, topic_list):
    return [topic_category_list[i] for i in topic_list]

def decide_category(topic_category_list, teacher_topic_list, similar_teacher_data_indice):
    topic_list = []
    for index in similar_teacher_data_indice:
        topic_list.extend(
            get_category_list_by_topics(topic_category_list, teacher_topic_list[index])
        )

    return Counter(topic_list).most_common(1)[0][0]

print(
    decide_category(
        topic_category_list,
        teacher_topic_list,
        similar_teacher_data_indice
    )
)

同率一位が複数あるときはどうすんだろな、という思いもあります。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.83%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    4477questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Ubuntu

    1146questions

    Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。