###実現したいこと
機械学習を用いた固有表現抽出を行うためのデータセットを作成しています。
タグ一切なしの状態では形態素解析の結果が多すぎるため、作業に一番多くつけるタグをつけ後ほど修正するという形を取ろうと考えています。
MeCabによる形態素解析の結果の一つ一つにタグをつけたいのですが、いまいちやり方がわかりません。
一行一行の結果の行末に下記の例のようにタグをつけたいです。
###ソースコード
python
1import MeCab 2 3text = "プログラミング教室を手伝ってくれる人を募集中!締め切りは6月23日です。" 4 5t = MeCab.Tagger('') 6test = t.parse(text) 7test = re.sub(r'EOS',"",test) 8 9print(test) 10#タグをつけていない通常の状態 11#プログラミング 名詞,一般,*,*,*,*,プログラミング,, 12#教室 名詞,一般,*,*,*,*,教室,キョウシツ,キョーシツ 13#を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 14#手伝っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,手伝う,テツダッ,テツダッ 15#て 助詞,接続助詞,*,*,*,*,て,テ,テ 16#くれる 動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル 17#人 名詞,一般,*,*,*,*,人,ヒト,ヒト 18#を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 19#募集中 名詞,一般,*,*,*,*,募集中,, 20#! 記号,一般,*,*,*,*,!,!,! 21#締め切り 名詞,一般,*,*,*,*,締め切り,シメキリ,シメキリ 22#は 助詞,係助詞,*,*,*,*,は,ハ,ワ 23#6月23日 名詞,一般,*,*,*,*,6月23日,, 24#です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 25#。 記号,句点,*,*,*,*,。,。,。
出力したい結果は、以下のように各行の行末にOのようなタグがついた状態です。
python
1print(test) 2#タグをつけた状態(期待する結果、タグはとりあえずOとする) 3#プログラミング 名詞,一般,*,*,*,*,プログラミング,,O 4#教室 名詞,一般,*,*,*,*,教室,キョウシツ,キョーシツ,O 5#を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ,O 6#手伝っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,手伝う,テツダッ,テツダッ,O 7#て 助詞,接続助詞,*,*,*,*,て,テ,テ,O 8#くれる 動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル,O 9#人 名詞,一般,*,*,*,*,人,ヒト,ヒト,O 10#を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ,O 11#募集中 名詞,一般,*,*,*,*,募集中,,O 12#! 記号,一般,*,*,*,*,!,!,!,O 13#締め切り 名詞,一般,*,*,*,*,締め切り,シメキリ,シメキリ,O 14#は 助詞,係助詞,*,*,*,*,は,ハ,ワ,O 15#6月23日 名詞,一般,*,*,*,*,6月23日,,O 16#です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス,O 17#。 記号,句点,*,*,*,*,。,。,。,O 18
###試したこと
各行ごとに文字列の長さをlen()で確かめて挿入できないか試しましたが、全体で捉えられてしまうため1行の区切りがどこにあるのかがわかりませんでした。
ご回答いただいたように試しましたが、形態素解析の結果に改行が入っている訳ではないので、実行しても下記のようになってしまいます。
###補足情報
Python3.5
MeCab 0.996
回答1件
あなたの回答
tips
プレビュー