トップに関する質問 txtを一行ずつ分かち書き, 品詞抽出したいが、入力のまま出力される

編集履歴

質問編集履歴

追記

2019/07/19 19:47

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -18,19 +18,20 @@
 @hayataka2049さんの回答により原因の判明と分かち書きが出来ました。
 ```python
 import MeCab
+import codecs
+import ast
 tagger = MeCab.Tagger() # mecab標準辞書でオブジェクト生成
+f = open('lines.txt', 'r')
+reader = f.read()
+reader = reader.replace("\n", "|")
+f.close()
-with open('lines.txt', 'r') as f:
-    while True:
-        reader = f.read()
-        if not reader: break
-        result = []
-        node = tagger.parseToNode(reader)
+node = tagger.parseToNode(reader)
+result = [reader]
 while node:
-    #単語を取得
     word = node.surface
     #品詞を取得
     pos = node.feature.split(",")[0]
@@ -53,8 +54,10 @@
 そして、今後、txt列の品詞抽出を行いたい方がいらっしゃった場合にこの質問は役に立つと考えています。
 実際の出力：
-['今年', '梅雨', '遅い', '寝る', '時間', '手遅れ', ・・・'私', '任せる', 'なさる']
+['今年の梅雨は遅い。|寝る時間よ。|・・・しなさい。|私に任せなさい。', '今年', '梅雨', '遅い', '|', '寝る', '時間', '|', ・・・ '|', '私', '任せる', 'なさる']
+最初に'文章', 次に'品詞','品詞'が出力されます。
+read()が全てを読み込むのは分かるのですが、pop()で出来ず、最初の要素をどうやって取り除くか。品詞部分が、\n、\tでは、区切られない問題に対処する必要があると考えています。
 参考サイト：
 MeCabの形態素解析で使うTagger、Nodeオブジェクトのプロパティとメソッド

追記

2019/07/19 19:47

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -26,7 +26,6 @@
     while True:
         reader = f.read()
         if not reader: break
-        reader = reader.rstrip("\n")
         result = []
         node = tagger.parseToNode(reader)
@@ -41,7 +40,7 @@
         result.append(node.feature.split(",")[6])
     #次の単語に進める
     node = node.next
-print(result)
+    print(result, file=codecs.open("haiku_wakati.txt", "w"))
 ```
 期待する出力：

追記

2019/07/18 21:45

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -23,12 +23,13 @@
 with open('lines.txt', 'r') as f:
+    while True:
-    reader= f.readline()
+        reader = f.read()
-    f.close()
+        if not reader: break
+        reader = reader.rstrip("\n")
-    result = []
+        result = []
+        node = tagger.parseToNode(reader)
-node = tagger.parseToNode(reader)
 while node:
     #単語を取得
     word = node.surface
@@ -53,19 +54,9 @@
 そして、今後、txt列の品詞抽出を行いたい方がいらっしゃった場合にこの質問は役に立つと考えています。
 実際の出力：
-[]
-['今年']
-['今年']
-['今年', '梅雨']
-['今年', '梅雨']
-['今年', '梅雨', '遅い']
+['今年', '梅雨', '遅い', '寝る', '時間', '手遅れ', ・・・'私', '任せる', 'なさる']
-・・・
-のようになっていますが、writelines()は全てつなげてしまうため、下記のようになってしまうと考えました。
-しかし、write()は、リストを保存できないため、使えません。
-今年今年今年梅雨今年梅雨今年梅雨遅い今年梅雨遅い今年梅雨遅い寝る寝る・・・
 参考サイト：
 MeCabの形態素解析で使うTagger、Nodeオブジェクトのプロパティとメソッド
 [https://takaxtech.com/2018/11/03/article271/](https://takaxtech.com/2018/11/03/article271/)

補足

2019/07/18 20:49

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -15,7 +15,7 @@
 ```
 上記のスクリプトで分かち書きされると考えていますが、入力がそのまま出力されます。
-@hayataka2049さんの回答により原因と分かち書き出来ました。
+@hayataka2049さんの回答により原因の判明と分かち書きが出来ました。
 ```python
 import MeCab
@@ -50,7 +50,7 @@
 例えば、俳句の場合、
 夏 + 梅雨 + 鯉 -(翻訳)-> 鯉 こく 梅雨 傘立 あふれ(分かち書き)
 また、[]や''はreplce()で簡単に除去できます。
-そして、今後、txt列の品詞抽出を行いたい方がいた場合にこの質問は役に立つと考えています。
+そして、今後、txt列の品詞抽出を行いたい方がいらっしゃった場合にこの質問は役に立つと考えています。
 実際の出力：
 []

追記

2019/07/18 18:28

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -50,6 +50,7 @@
 例えば、俳句の場合、
 夏 + 梅雨 + 鯉 -(翻訳)-> 鯉 こく 梅雨 傘立 あふれ(分かち書き)
 また、[]や''はreplce()で簡単に除去できます。
+そして、今後、txt列の品詞抽出を行いたい方がいた場合にこの質問は役に立つと考えています。
 実際の出力：
 []
@@ -64,6 +65,7 @@
 今年今年今年梅雨今年梅雨今年梅雨遅い今年梅雨遅い今年梅雨遅い寝る寝る・・・
 参考サイト：
 MeCabの形態素解析で使うTagger、Nodeオブジェクトのプロパティとメソッド
 [https://takaxtech.com/2018/11/03/article271/](https://takaxtech.com/2018/11/03/article271/)

追記

2019/07/18 18:27

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -14,53 +14,56 @@
             write_file.write(output)
 ```
-上記のスクリプトで分かち書きされると考えていますが、入力がそのまま出力されます。原因が特定できません。
+上記のスクリプトで分かち書きされると考えていますが、入力がそのまま出力されます。
+@hayataka2049さんの回答により原因と分かち書き出来ました。
 ```python
 import MeCab
 tagger = MeCab.Tagger() # mecab標準辞書でオブジェクト生成
-f = open("lines.txt","r")
-read_text = f.readlines()
+with open('lines.txt', 'r') as f:
-for text in read_text:
+    reader= f.readline()
-    tagger.parse("")
+    f.close()
-    node = tagger.parseToNode(text) # 形態素解析の結果をリストで取得、単語ごとにリストの要素に入れる
     result = []
-    while node is not None: # 助詞や助動詞は拾わない
-        # Node.featureのフォーマット：品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
-        hinshi = node.feature.split(",")[0] # 品詞情報取得
-        if hinshi in ["名詞"]:
-            result.append(node.surface) # 表層形の取得、単語の文字が入ってる
-        elif hinshi in["動詞","形容詞"]:
-            result.append(node.feature.split(",")[6]) # 形態素情報から原形情報取得
-        node = node.next
-        with open("hinshi_lines.txt", mode="a") as write_file:
-                write_file.writelines(result)
-                print(result)
+node = tagger.parseToNode(reader)
+while node:
+    #単語を取得
+    word = node.surface
+    #品詞を取得
+    pos = node.feature.split(",")[0]
+    if pos in ["名詞"]:
+        result.append(node.surface)
+    elif pos in["動詞","形容詞"]:
+        result.append(node.feature.split(",")[6])
+    #次の単語に進める
+    node = node.next
+print(result)
 ```
 期待する出力：
-今年の梅雨は遅い。-> ['今年', '梅雨', '遅い']
+['今年', '梅雨', '遅い']
-寝る時間よ。-> ['寝る', '時間']
+['寝る', '時間']
+この形式にする理由は、random.chices()でランダムに要素を抽出し、翻訳生成用データセットを作るためです。
+例えば、俳句の場合、
+夏 + 梅雨 + 鯉 -(翻訳)-> 鯉 こく 梅雨 傘立 あふれ(分かち書き)
+また、[]や''はreplce()で簡単に除去できます。
 実際の出力：
 []
 ['今年']
 ['今年']
 ['今年', '梅雨']
 ['今年', '梅雨']
 ['今年', '梅雨', '遅い']
-['今年', '梅雨', '遅い']
+・・・
-['今年', '梅雨', '遅い']
 のようになっていますが、writelines()は全てつなげてしまうため、下記のようになってしまうと考えました。
 しかし、write()は、リストを保存できないため、使えません。
-今年今年今年梅雨今年梅雨今年梅雨遅い今年梅雨遅い今年梅雨遅い寝る寝る時間寝る時間寝る時間寝る時間手遅れ手遅れ手遅れ手遅れ嘘嘘嘘付く嘘付くの嘘付くの嘘付くの悪い嘘付くの悪いこと嘘付くの悪いこと嘘付くの悪いこと嘘付くの悪いこと寝る寝る時間寝る時間寝る時間寝る時間寝る時間右側右側通行右側通行右側通行する右側通行するなさる右側通行するなさる右側通行するなさる私私私任せる私任せるなさる私任せるなさる私任せるなさる
+今年今年今年梅雨今年梅雨今年梅雨遅い今年梅雨遅い今年梅雨遅い寝る寝る・・・
 参考サイト：
 MeCabの形態素解析で使うTagger、Nodeオブジェクトのプロパティとメソッド
 [https://takaxtech.com/2018/11/03/article271/](https://takaxtech.com/2018/11/03/article271/)

追記

2019/07/18 18:09

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,5 @@
 txtを一行ずつ分かち書きしてtxtに保存。
-また、txtを一行ずつ"形容詞"、"名詞"、"動詞"を抽出したいと考えています。
+また、txtを一行ずつ"形容詞"、"名詞"、"動詞"を抽出、保存したいと考えています。
 ```python
 import MeCab

追記

2019/07/18 16:42

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -21,7 +21,7 @@
 tagger = MeCab.Tagger() # mecab標準辞書でオブジェクト生成
 f = open("lines.txt","r")
-read_text = f.readline()
+read_text = f.readlines()
 for text in read_text:
     tagger.parse("")
@@ -37,6 +37,7 @@
         node = node.next
         with open("hinshi_lines.txt", mode="a") as write_file:
                 write_file.writelines(result)
+                print(result)
 ```
@@ -45,8 +46,21 @@
 寝る時間よ。-> ['寝る', '時間']
 実際の出力：
-今今年年梅梅雨雨遅い遅いいるいる
+[]
+['今年']
+['今年']
+['今年', '梅雨']
+['今年', '梅雨']
+['今年', '梅雨', '遅い']
+['今年', '梅雨', '遅い']
+['今年', '梅雨', '遅い']
+のようになっていますが、writelines()は全てつなげてしまうため、下記のようになってしまうと考えました。
+しかし、write()は、リストを保存できないため、使えません。
+今年今年今年梅雨今年梅雨今年梅雨遅い今年梅雨遅い今年梅雨遅い寝る寝る時間寝る時間寝る時間寝る時間手遅れ手遅れ手遅れ手遅れ嘘嘘嘘付く嘘付くの嘘付くの嘘付くの悪い嘘付くの悪いこと嘘付くの悪いこと嘘付くの悪いこと嘘付くの悪いこと寝る寝る時間寝る時間寝る時間寝る時間寝る時間右側右側通行右側通行右側通行する右側通行するなさる右側通行するなさる右側通行するなさる私私私任せる私任せるなさる私任せるなさる私任せるなさる
 参考サイト：
 MeCabの形態素解析で使うTagger、Nodeオブジェクトのプロパティとメソッド
 [https://takaxtech.com/2018/11/03/article271/](https://takaxtech.com/2018/11/03/article271/)

タグの追加

2019/07/18 16:37

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes

スクリプトの改良

2019/07/18 16:16

投稿

tono_1812

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -25,28 +25,27 @@
 for text in read_text:
     tagger.parse("")
-    node = tagger.parseToNode(text) # 形態素解析の結果をリストで取得、単語ごとにリストの要素に入れたい。
+    node = tagger.parseToNode(text) # 形態素解析の結果をリストで取得、単語ごとにリストの要素に入れる
     result = []
+    while node is not None: # 助詞や助動詞は拾わない
+        # Node.featureのフォーマット：品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
+        hinshi = node.feature.split(",")[0] # 品詞情報取得
+        if hinshi in ["名詞"]:
+            result.append(node.surface) # 表層形の取得、単語の文字が入ってる
+        elif hinshi in["動詞","形容詞"]:
+            result.append(node.feature.split(",")[6]) # 形態素情報から原形情報取得
+        node = node.next
+        with open("hinshi_lines.txt", mode="a") as write_file:
+                write_file.writelines(result)
-while node is not None: # 助詞や助動詞を除外する。
-    # Node.featureのフォーマット：品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
-    hinshi = node.feature.split(",")[0] # 品詞情報取得。
-    if hinshi in ["名詞"]:
-        result.append(node.surface) # 表層形の取得、単語の文字が入る。
-    elif hinshi in["動詞","形容詞"]:
-        result.append(node.feature.split(",")[6]) # 形態素情報から原形情報取得。
-    node = node.next
-    with open("hinsi_lines.txt", mode="a") as write_file:
-            write_file.writelines(result) # writelines()はリストを書き込める。
-print(result)
 ```
 期待する出力：
 今年の梅雨は遅い。-> ['今年', '梅雨', '遅い']
 寝る時間よ。-> ['寝る', '時間']
+実際の出力：
-11行目のresult = []で入力が入りません。
+今今年年梅梅雨雨遅い遅いいるいる
 参考サイト：
 MeCabの形態素解析で使うTagger、Nodeオブジェクトのプロパティとメソッド