Dataframeの列を一定の文字数に変換したい。

前提・実現したいこと

python 3.5.4 / pandas 0.23.4 で、CSVを読み込み
特定の列に入っている文字数を半角40文字（全角なら20文字）を超える部分は
削除して、書き出す処理をしたい状況です。

今のコードでは、全角文字は20文字以内に収められました。
半角の英数文字の場合は、40文字まではカットしたくないのですが
そのような処理が実現できませんでした。

該当のソースコード

python
1df1 = pd.read_csv(input_file,encoding='cp932', dtype = 'object')
2
3#列名の再割り当て
4df1.columns = ['c01','c02','c03','c04']
5
6# c02 を 20文字以内にする
7# 全角文字は問題ないが、半角文字も20文字になるため、余計にカットされてしまう。
8df1['c02'] = df1['c02'].str[:20]
9
10df1.to_csv(output_file, encoding='cp932',quoting=csv.QUOTE_ALL,index=False,header=None)

試したこと

内部の文字列のエンコードを変換してはどうかと考えましたが
Dataframeに対してencodeは出来ないようでした。

python
1df1['c02'] = df1['c02'].encode('utf-8').str[:20]

行動規範の内容に同意します

回答2件

ベストアンサー

unicodedata.east_asian_width を使用することで、全角か半角かの区別がつくようですので、これを利用して文字列の先頭を抜き出す関数を作ると良いかと思います。

かなりやっつけですがこんな感じ。

Python
1from unicodedata import east_asian_width
2
3def extract_first_part(s, limit_length=40):
4    total_length = 0
5    for i,c in enumerate(s):
6        length = 2 if east_asian_width(c) in list('WFA') else 1
7        total_length += length
8        if total_length > limit_length:
9            return s[:i]
10    return s

あとは Series.apply() 等を使って上記の関数を列に適用するだけでよいかと思います。

Python
1import pandas as pd
2
3df = pd.DataFrame({
4    '文字列':['123456789012345678901234567890123456789012345123456789012345',
5              '１２３４５６７８９０１２３４５６７８９０１２３４５６７８９０',
6              '１２３４５６７８９０1234567890１２３４５６７８９０1234567890']})
7
8print(df)
9#                                                         文字列
10#0  123456789012345678901234567890123456789012345123456789012345
11#1  １２３４５６７８９０１２３４５６７８９０１２３４５６７８９０
12#2  １２３４５６７８９０1234567890１２３４５６７８９０1234567890
13
14df['文字列'] = df['文字列'].apply(extract_first_part)
15print(df)
16#                                     文字列
17#0  1234567890123456789012345678901234567890
18#1  １２３４５６７８９０１２３４５６７８９０
19#2  １２３４５６７８９０1234567890１２３４５