質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

2762閲覧

pythonでtsvファイルを加工して新しいtsvファイルを作りたい

lack_un

総合スコア58

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2016/09/01 12:00

###前提・実現したいこと
現在音楽の情報系のwebアプリを作ろうとしています。
DBPediaからもってきたtsvのファイルを加工して

ART-SCHOOL,パワー・ポップ
ART-SCHOOL,インディー・ロック
ART-SCHOOL,オルタナティヴ・ロック
ART-SCHOOL,ニュー・ウェーヴ_(音楽)
ART-SCHOOL,ポスト・グランジ
Doa (ミュージシャン),J-POP
Doa (ミュージシャン),ロック_(音楽)

こういう情報を

[['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)', 'ポスト・グランジ'],['Doa(ミュージシャン)','J-POP','ロック_(音楽)']]

という形に加工しようと思っています。なお、データはこの二つのアーティストだけでなく、他にもたくさんいます。

###発生している問題・エラーメッセージ

['ART-SCHOOL', 'パワー・ポップ'] 0 [['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ']] ['ART-SCHOOL', 'インディー・ロック'] 0 [['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック']] ['ART-SCHOOL', 'オルタナティヴ・ロック'] 0 [['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック']] ['ART-SCHOOL', 'ニュー・ウェーヴ_(音楽)'] 0 [['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)']] ['ART-SCHOOL', 'ポスト・グランジ'] 0 [['ART-SCHOOL', 'パワー・ポップ', 'パワー・ポップ', 'インディー・ロック', 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)', 'ポスト・グランジ']] ['Doa (ミュージシャン)', 'J-POP'] 0 ['Doa (ミュージシャン)', 'ロック_(音楽)'] 5 Traceback (most recent call last): File "musician3.py", line 19, in <module> if output_data[recognize_name_num][0] == array_row[0]: IndexError: list index out of range

###該当のソースコード

python

1# -*- coding: utf-8 -*- 2import csv 3 4output_data = [['ART-SCHOOL','パワー・ポップ']] 5row_num = 0 #行数を把握するための番号 6recognize_name_num = 0 #rowは無差別に進むので、artistの名前をチェックするための数をチェックする方の番号を調べる。 7 8#全行をまず配列に変換する。 9with open('second_rock_musician.tsv','r') as f: 10 reader = csv.reader(f,delimiter='\n') 11 for row in reader: 12 str_row = ",".join(row) #いったん文字列へ 13 #print(str_row) 14 array_row = str_row.split(',') #扱いやすい配列へ。 15 #rowが思った通りの配列じゃないことが原因。 16 print(array_row) 17 print(recognize_name_num) 18 19 if output_data[recognize_name_num][0] == array_row[0]: 20 rock_genre = array_row[1] 21 output_data[recognize_name_num].append(rock_genre) 22 print(output_data) 23 else: 24 output_data.append(row) 25 recognize_name_num = row_num 26 27 row_num = row_num + 1 28 29

###試したこと
初期データで入れておかないとエラーが出るので、とりあえず1行最初に入れてあります。
index out of rangeの原因はrecognize_name_numで存在しないところがおかしいことだろう、と判断はつくのですがどういう手法で解決したらいいかがわからない状態です。あとはこれでできたらtsvで出力しようと思っています。
考えに考えたのですがうまくいきませんでした、みなさまの知恵を貸してください...!よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

無理にゴールとなる形式(listの中にlist)で処理しようとせずに、一度dictなどの扱いやすい形式にして最後に目的の形にしたほうが良いかと。

python

1import csv 2 3# listではなく、dictで入力データを管理 4output_data = {} 5with open('second_rock_musician.tsv','r') as f: 6 reader = csv.reader(f) 7 for row in reader: 8 str_row = ",".join(row) #いったん文字列へ 9 array_row = str_row.split(',') #扱いやすい配列へ。 10 artist = array_row[0] 11 genre = array_row[1] 12 output_data.setdefault(artist, []) 13 output_data[artist].append(genre) 14 15# dictデータを目的のlist形式に変換 16output_data = [[artist, ] + genre for artist, genre in output_data.items()] 17output_data.sort(key=lambda data: data[0]) # 一応、アーティスト名でソート 18 19print(output_data) 20

投稿2016/09/01 15:26

attakei

総合スコア2738

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

lack_un

2016/09/02 05:11

ありがとうございました。 あたらしい知見がひらけました。
guest

0

単に加工するだけで良くて、データの量がそれほど多くないなら、まとめてグループ化するのが簡単です。

グループ化には、itertools.groupby()を使います。

lang

1import csv 2import itertools 3 4with open("second_rock_musician.tsv") as f: 5 reader = csv.reader(f, delimiter=',') 6 input = [row for row in reader] 7 8output_data = [[k] + [x[1] for x in g] for k, g in itertools.groupby(input, lambda x: x[0])] 9print(output_data) 10# => [['ART-SCHOOL', 'パワー・ポップ', 'インディー・ロック', 11# 'オルタナティヴ・ロック', 'ニュー・ウェーヴ_(音楽)', 'ポスト・グランジ'], 12# ['Doa (ミュージシャン)', 'J-POP', 'ロック_(音楽) ']] 13# ※実際の出力は改行されていません

ちなみに、csv.reader()delimiter列の区切り文字です。この場合はカンマ区切りなので、","を指定します。また、","はデフォルトなので、省略できます。(省略の例は、attakeiさんが書かれているとおりです。)

参考リンク:

itertools.groupby(iterable, key=None) (10.1. itertools — 効率的なループ実行のためのイテレータ生成関数 — Python 3.5.2 ドキュメント
http://docs.python.jp/3.5/library/itertools.html#itertools.groupby

投稿2016/09/01 21:35

argius

総合スコア9388

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問