質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

2192閲覧

tsvファイル中のテキストを編集して保存したい

kotamu

総合スコア7

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/10/15 15:40

前提・実現したいこと

以下のようなtsvファイルのテキストに、関数で処理を行い保存したい。

#example.tsvの例 text     label 嬉しいいいい!! 1 楽しいいいい!! 1 悲しいいいい!! 2 悔しいいいい!! 2 ・・・

該当のソースコード

プログラムはミスだらけですが、実現したいことの流れは以下の様になります。
1.tsv読み込み
2.テキストを編集
3.tsvで結果を保存

python

1import pandas as pd 2import csv 3 4#tsv読み込み 5f = open("example.tsv", 'r') 6data = csv.reader(f, delimiter = '\t') 7 8#テキスト編集 9for row in data: 10 row=clean_text(row)#文章から記号除去する関数 11 row=reduce(row)#連続語を1語にする関数 12 13f.close() 14 15#tsv書き込み 16f = open('example2.tsv','w',encoding='utf-8',newline='') 17writer = csv.writer(f,delimiter='\t',lineterminator='\n') 18writer.writerow(data) 19 20f.close()

python

1#連続語を1語にする関数 2def reduce(text): 3 result = re.sub(r'(\w)\1+',r'\1', text) 4 return result 5#!を除去する関数 6def clean_text(text): 7 result = re.sub(r'[!]', '', text) 8 return result

###最終目的

#example2.tsvの例 text     label 嬉しい     1 楽しい     1 悲しい     2 悔しい     2

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

y_waiwai

2020/10/15 22:13

提示のコードはどういう動作になるんでしょうか
meg_

2020/10/15 22:50

> 以下のようなtsvファイルのテキストに、関数で処理を行い保存したい。 とありますが、現在の課題は何でしょうか?
guest

回答1

0

ベストアンサー

提示されたコードの問題点は、

  • dataの内容は処理したいtextの値そのものではなく、textとlabelのリストなので、clean_textreduceを呼び出す前に、textを取り出す処理が必要。
  • dataはクローズした時点で使えなくなるので、書き込みの際にdataを参照するとエラーになる。
  • textを取り出して関数で処理しても、元のdataは変わらないので、書き込むデータのリストを別に作って、)writerowではなくwriterowsで書き込む。

といったあたり。

Python

1import csv 2import re 3 4 5def reduce(text): 6 result = re.sub(r'(\w)\1+', r'\1', text) 7 return result 8 9 10def clean_text(text): 11 result = re.sub(r'[!]', '', text) 12 return result 13 14 15result = [] 16 17with open("example.tsv", 'r', encoding='utf-8') as f: 18 data = csv.reader(f, delimiter='\t') 19 for row in data: 20 row[0] = reduce(clean_text(row[0])) 21 result.append(row) 22 23print(result) 24 25with open('example2.tsv', 'w', encoding='utf-8') as f: 26 writer = csv.writer(f, delimiter='\t', lineterminator='\n') 27 writer.writerows(result)

pandasを使って、textの列にmapclean_textreduceを適用し、結果をtextの列に設定したほうが楽かな。

Python

1import pandas as pd 2import re 3 4 5def reduce(text): 6 result = re.sub(r'(\w)\1+', r'\1', text) 7 return result 8 9 10def clean_text(text): 11 result = re.sub(r'[!]', '', text) 12 return result 13 14 15df = pd.read_table("example.tsv", encoding='utf-8') 16# print(df) 17 18df['text'] = df['text'].map(clean_text) 19df['text'] = df['text'].map(reduce) 20print(df) 21 22df.to_csv("example2.tsv", sep='\t', index=None, encoding='utf-8')

投稿2020/10/16 01:11

編集2020/10/16 02:04
Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kotamu

2020/10/17 02:08

リストにすれば良かったのですね! おかげで解決しました。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問