下のテキストを、大学名+数字があるときは数字のみのテキストにしたいです。
括弧に挟まれた部分、たとえば)伊勢崎・県立(という部分は高校名なので取り除きたいです。この括弧がいろいろなものに文字化け?しているので正規表現で取り除こうとしているのですが、うまくいきません。ご教授ください。
text = '尚網学院大東北福祉大2 鎌倉女子大2 新 潟医福大〕伊勢崎・県立(東京海洋大2 北九州市大跡見女子大2 西武文理大2 明海大桜美林大清泉女子大創価大3 多摩大家政 学院大2 東京純心大東京薬大日本女子大3 武蔵大2 武蔵野美 大フェリス女新潟薬大悌教大福山大〕伊勢崎・市立(跡見女子 大尚美学園大聖学院大5) 伊勢崎商(城西国際大2 千葉商大2 山梨学院大〕伊勢崎清明(北海道医療2 跡見女子大2 十文字女大 女子栄養大聖学院大日本薬科大4 明海大中央学院大3 東京成 徳大麗津大2 和洋女子大桜美林大創価大2 家政学院大日本社 事大日本女体大武蔵大フェリス女2 新潟医福大2 山梨学院大 保健衛生大〕板倉(聖学院大〉大泉(城西国際大〉太田(北見工大北 海道教大弘前大東京工大2 東京農工大一橋大2 防衛大愛知教 育大大阪教育大大分大鹿児島大鹿屋体育大福島医大2 岡山県 立大東北学院大上智大昭和薬大創価大大正大多摩美大3 東 京音大東京造形大2 東京薬大2 東邦大2 星薬大2 明治薬大聖 マリ医大新潟医福大新潟薬大2 保健衛生大名城大同志社大7 関西大近畿大〉太田女子〔大阪大お茶女大東京外大2 東京海洋 大2 一橋大国際教養大酪農学園大跡見女子大4 女子栄養大4 千葉科学大東京成徳大和洋女子大桜美林大学習院女子2 共立 女子大3 上智大昭和大3 昭和薬大4 創価大大正大津田塾大14 家政学院大3 東京女子大11 東京造形大東京薬大4 東邦大日本 社事大4 日本女子大6 日本女体大星薬大2 武蔵大4 明治薬大 フェリス女新潟医福大京都女子大2 龍谷大3 藍野大関西外大 神戸女学院立命アジア2) 太田市立商(武蔵大産業能率大〕太田 東(北見工大3 防衛大奈良女子大徳島大岩手県立大宮城大埼 玉県立大山梨県立大酪農学園大東北福祉大跡見女子大十文字 女大日本薬科大明海大2 淑徳大2 城西国際大桜美林大5 共立 女子大2 創価大3 多摩美大津田塾大東京医保大東京女子大東 京薬大2 B本女体大武蔵大和光大産業能率大2 フェリス女長 岡造形大中京大神戸薬大武庫川女大2) 尾瀬(城西国際大駒沢 女子大3) 桐生(東京工大一橋大京都工繊大山形保健大神奈川 保福福井県立大高知工科大東北学院大東北薬大日本薬科大2 神田外語大3 大正大多摩美大東京造形大東京薬大2 東邦大4 武蔵大2 麻布大鎌倉女子大新潟医福大2 金沢医大金沢工大4 中京大同志社大3 近畿大関西学院大広島経大2 広島修道大〉 桐生エ(新潟工科大〕桐生女子(東京農工大島根大琉球大茨城医 療大山梨県立大十文字女大2 神田外語大2 和洋女子大共立女 子大恵泉女学園4 駒沢女子大津田塾大2 家政学院大東京造形 大2 東京薬大日本女子大2 日本女体大4 武蔵大5 和光大東洋 英女大フェリス女2 新潟医福大名古屋女大同志社大龍谷大奈 良大〉桐生市立商(尚美学園大〉桐生南(いわき明星尚美学園大東 京造形大2 二松学舎大和光大2 新潟医福大中京大京都造芸大 2) 渋JIIC 名古屋大大阪大宮城激育大東京ヱ大広島大新潟県立 大福井県立大日本薬科大2 千葉科学大上智大大正大高千穂大 2 多摩美大東邦大2 ニ松学舎大明治薬大和光大6 産業能率大 新潟薬大3 京都産大同志社大2 関西大近畿大関西学院大甲南 大2) 渋川工〔東北福祉大〉渋川女子〔お茶女大東京外大2 常磐大 跡見女子大7 尚美学園大女子栄養大2 聖学院大明海大神田外 語大2 桜美林大8 学習院女子共立女子大5 恵泉女学閤駒沢女 子大3 上智大白百合女大創価大4 大正大4 二松学舎大日本女 子大2 日本女体大2 麻布大フェリス女4 長岡造形大2 健康科 学大愛知淑徳大名古屋学芸京都女子大京都造芸大大阪芸大近 畿大奈良大'
#文字化けの修正 text = ''.join(text.split()) #空白文字、タブを削除 text.strip() text = text.replace('犬', '大') text = text.replace('太', '大') text = text.replace('夫', '大') text = text.replace('匕海道关', '北海道大') text = text.replace('名肯屋', '名古屋') text = text.replace('・', '') text = text.replace('.', '') # text = text.replace('[', '') # text = text.replace(']', '') text = text.replace('1?', '') text = text.replace('|', '') text = text.replace('。 ', '') # text = re.sub(r').+?(', "", text) # text = re.sub(r').+?(', "", text) #うまく行かない箇所 #)か)か〕か〉のあとに文字が1字~8字あり、そのあと(か(か〔か〈がある、という意味のつもりです text = re.sub(r'()|)|〕|〉).{1, 8}?((|(|〔|〈)', "", text) -> 尚網学院大東北福祉大2 鎌倉女子大2潟医福大〕伊勢崎県立(東京海洋大2
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/11/19 15:54