pythonでtsvファイルを加工して新しいtsvファイルを作りたい

###前提・実現したいこと
現在音楽の情報系のwebアプリを作ろうとしています。
DBPediaからもってきたtsvのファイルを加工して

ART-SCHOOL,パワー・ポップ
ART-SCHOOL,インディー・ロック
ART-SCHOOL,オルタナティヴ・ロック
ART-SCHOOL,ニュー・ウェーヴ_(音楽)
ART-SCHOOL,ポスト・グランジ
Doa (ミュージシャン),J-POP
Doa (ミュージシャン),ロック_(音楽)

こういう情報を

[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)', 'ポスト・グランジ'],['Doa(ミュージシャン)','J-POP','ロック_(音楽)']]

という形に加工しようと思っています。なお、データはこの二つのアーティストだけでなく、他にもたくさんいます。

###発生している問題・エラーメッセージ

['ART-SCHOOL', 'パワー・ポップ']
0
[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ']]
['ART-SCHOOL', 'インディー・ロック']
0
[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック']]
['ART-SCHOOL', 'オルタナティヴ・ロック']
0
[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック']]
['ART-SCHOOL', 'ニュー・ウェーヴ_(音楽)']
0
[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)']]
['ART-SCHOOL', 'ポスト・グランジ']
0
[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)', 'ポスト・グランジ']]
['Doa (ミュージシャン)', 'J-POP']
0
['Doa (ミュージシャン)', 'ロック_(音楽)']
5
Traceback (most recent call last):
  File "musician3.py", line 19, in <module>
    if output_data[recognize_name_num][0] == array_row[0]:
IndexError: list index out of range

###該当のソースコード

python
1# -*- coding: utf-8 -*-
2import csv
3
4output_data = [['ART-SCHOOL','パワー・ポップ']]
5row_num = 0 #行数を把握するための番号
6recognize_name_num = 0 #rowは無差別に進むので、artistの名前をチェックするための数をチェックする方の番号を調べる。
7
8#全行をまず配列に変換する。
9with open('second_rock_musician.tsv','r') as f:
10    reader = csv.reader(f,delimiter='\n')
11    for row in reader:
12        str_row = ",".join(row) #いったん文字列へ
13        #print(str_row)
14        array_row = str_row.split(',') #扱いやすい配列へ。
15            #rowが思った通りの配列じゃないことが原因。
16        print(array_row)
17        print(recognize_name_num)
18
19        if output_data[recognize_name_num][0] == array_row[0]:
20            rock_genre = array_row[1]
21            output_data[recognize_name_num].append(rock_genre)
22            print(output_data)
23        else:
24            output_data.append(row)
25            recognize_name_num = row_num
26
27        row_num = row_num + 1
28
29

###試したこと
初期データで入れておかないとエラーが出るので、とりあえず1行最初に入れてあります。
index out of rangeの原因はrecognize_name_numで存在しないところがおかしいことだろう、と判断はつくのですがどういう手法で解決したらいいかがわからない状態です。あとはこれでできたらtsvで出力しようと思っています。
考えに考えたのですがうまくいきませんでした、みなさまの知恵を貸してください...!よろしくお願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

無理にゴールとなる形式(listの中にlist)で処理しようとせずに、一度dictなどの扱いやすい形式にして最後に目的の形にしたほうが良いかと。

python
1import csv
2
3# listではなく、dictで入力データを管理
4output_data = {}
5with open('second_rock_musician.tsv','r') as f:
6    reader = csv.reader(f)
7    for row in reader:
8        str_row = ",".join(row) #いったん文字列へ
9        array_row = str_row.split(',') #扱いやすい配列へ。
10        artist = array_row[0]
11        genre = array_row[1]
12        output_data.setdefault(artist, [])
13        output_data[artist].append(genre)
14
15# dictデータを目的のlist形式に変換
16output_data = [[artist, ] + genre for artist, genre in output_data.items()]
17output_data.sort(key=lambda data: data[0]) # 一応、アーティスト名でソート
18
19print(output_data)
20

投稿2016/09/01 15:26

attakei

総合スコア2738

lack_un

2016/09/02 05:11

ありがとうございました。あたらしい知見がひらけました。

行動規範の内容に同意します

単に加工するだけで良くて、データの量がそれほど多くないなら、まとめてグループ化するのが簡単です。

グループ化には、itertools.groupby()を使います。

lang
1import csv
2import itertools
3
4with open("second_rock_musician.tsv") as f:
5    reader = csv.reader(f, delimiter=',')
6    input = [row for row in reader]
7
8output_data = [[k] + [x[1] for x in g] for k, g in itertools.groupby(input, lambda x: x[0])]
9print(output_data)
10# => [['ART-SCHOOL', 'パワー・ポップ', 'インディー・ロック',
11# 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)', 'ポスト・グランジ'],
12#  ['Doa (ミュージシャン)', 'J-POP', 'ロック_(音楽) ']]
13# ※実際の出力は改行されていません

ちなみに、csv.reader()のdelimiterは列の区切り文字です。この場合はカンマ区切りなので、","を指定します。また、","はデフォルトなので、省略できます。（省略の例は、attakeiさんが書かれているとおりです。）

参考リンク：

itertools.groupby(iterable, key=None) （10.1. itertools — 効率的なループ実行のためのイテレータ生成関数 — Python 3.5.2 ドキュメント
http://docs.python.jp/3.5/library/itertools.html#itertools.groupby

投稿2016/09/01 21:35