前提・実現したいこと
python データフレームを使用して、同じ言葉で記載された日本語にて2つのファイルを比較して重複して
いるひらがな・カタカナの内容を区別せず抽出したい。
(現在のpyコードは1が抽出できるが、2.3.4の条件内容も抽出をさせたい)
皆様お力をお貸し下さい
pandas : データーフレームで作成中 CR CR
1 東京 東京 ←重複値で抽出可能
2 とうきょう トウキョウ ←このひらがなとカタカナを重複と認識させる方法は
3 池の上 池ノ上 ←1文字ひらがなとカタカナになっているが重複と認識させる方法は
4 池ノ上 池ノ上 ←1文字カタカナの大文字・小文字になっているが重複と認識させる方法は
発生している問題・エラーメッセージ
上記2.3.4の抽出方法のpyコードを検証中ですが、うまくいかない。
エラーメッセージ
該当のソースコード
ファイル比較検証
#ライブラリー呼び出し
import pandas as pd
import numpy as np
import pathlib as path
import re
#CSVファイル読み込み
path_ip = path.WindowsPath(r"c:\Users\Desktop\1.csv")
t1 = pd.read_csv(path_ip, engine="python")
t1['CR'] = t1['CR'].astype(str)
#CSVファイル読み込み
path_ip = path.WindowsPath(r"c:\Users\Desktop\2.csv")
t2 = pd.read_csv(path_ip, engine="python")
t2['CRcode'] = t2['CRcode'].astype(str)
#deta
t1 = pd.DataFrame({'CR': t1['CR']},
columns = ['CR']).astype(str)
#deta
t2 = pd.DataFrame({'CRcode': t2['CRcode']},
columns = ['CRcode']).astype(str)
#deta hikaku
t1.drop_duplicates(subset=('CRcode'),inplace=True)
n = len(t1)
mask = pd.concat([t1,t2]).duplicated(subset=('CRcode'), keep=False)[:n]
t1[mask]
ソースコード``` ### 試したこと str.match関数を検討しましたががうまくいかず ここに問題に対して試したことを記載してください。 (正規表現しか抽出できないのかと思い検証中です) ### 補足情報(FW/ツールのバージョンなど) python3.6を使用 ここにより詳細な情報を記載してください。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/02/26 00:06
退会済みユーザー
2018/02/26 00:10
2018/02/26 01:12