質問編集履歴

誤字修正

2019/08/10 02:20

投稿

HAGI-04

スコア3

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -48,7 +48,7 @@
 ---
 ### 追記
 以下のように一度raw文字列に直すことで"\"から始まるエスケープシーケンスを検出できました。
-raw文字列に直した際、各単語は「''」で囲まれるていたので、「'\」から始まる単語を排除するように書いています。
+raw文字列に直した際、各単語は「''」で囲まれていたので、「'\」から始まる単語を排除するように書いています。
 ```python
 # 分かち書きにする
 tmp= t.tokenize(corpus, wakati = True)

317

ベストアンサー決定後、試行錯誤により問題が解決したので方法と結果を追記しました

2019/08/10 02:20

投稿

HAGI-04

スコア3

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -43,4 +43,30 @@
 出力からわかるように、リスト中の'\n'や'\n\n'などが削除されることを期待していましたが、削除はされていませんでした。
 なぜこのコードは正しく機能しないのでしょうか？
-また、どうすれば「￥」から始まる文字列を指定できるでしょうか？
+また、どうすれば「￥」から始まる文字列を指定できるでしょうか？
+---
+### 追記
+以下のように一度raw文字列に直すことで"\"から始まるエスケープシーケンスを検出できました。
+raw文字列に直した際、各単語は「''」で囲まれるていたので、「'\」から始まる単語を排除するように書いています。
+```python
+# 分かち書きにする
+tmp= t.tokenize(corpus, wakati = True)
+print(tmp)
+print('='*50)
+#エスケープシーケンスを削除する
+word_list = []
+for word in tmp:
+    if not repr(word).startswith('\'\'):
+        word_list.append(word)
+print(word_list)
+```
+```output
+['私', '達', 'は', '、', 'エンジニア', 'が', '抱える', '問題', 'の', '解決', 'を', '全力', 'で', 'サポート', 'し', 'ます', '。', '\n', '質問', '・', '回答', 'によって', ' ', '生まれ', 'た', 'コンテンツ', 'を', '、', '同じ', '問題', 'を', '持っ', 'た', '人', 'に', '最適', 'な', '形', 'で', '届け', 'ます', '。', '\n\n', 'プログラミング', 'に関して', '、', 'わから', 'ない', 'こと', 'が', 'あれ', 'ば', '是非', 'teratail', 'で', '質問', 'し', 'て', 'ください', '。', '\n', 'あなた', 'が', 'わかる', 'こと', 'が', 'あれ', 'ば', '、', '是非', '解決', '方法', 'を', 'シェア', 'し', 'て', '解決', 'の', '手助け', 'を', 'し', 'て', 'ください', '。', '\n\n', 'あなた', 'の', '全て', 'の', '行動', 'が', '、', 'いつか', '多く', 'の', '日本', 'の', 'エンジニア', 'の', '為', 'に', 'なり', 'ます', '。']
+==================================================
+['私', '達', 'は', '、', 'エンジニア', 'が', '抱える', '問題', 'の', '解決', 'を', '全力', 'で', 'サポート', 'し', 'ます', '。', '質問', '・', '回答', 'によって', ' ', '生まれ', 'た', 'コンテンツ', 'を', '、', '同じ', '問題', 'を', '持っ', 'た', '人', 'に', '最適', 'な', '形', 'で', '届け', 'ます', '。', 'プログラミング', 'に関して', '、', 'わから', 'ない', 'こと', 'が', 'あれ', 'ば', '是非', 'teratail', 'で', '質問', 'し', 'て', 'ください', '。', 'あなた', 'が', 'わかる', 'こと', 'が', 'あれ', 'ば', '、', '是非', '解決', '方法', 'を', 'シェア', 'し', 'て', '解決', 'の', '手助け', 'を', 'し', 'て', 'ください', '。', 'あなた', 'の', '全て', 'の', '行動', 'が', '、', 'いつか', '多く', 'の', '日本', 'の', 'エンジニア', 'の', '為', 'に', 'なり', 'ます', '。']
+```

317

私の環境と、実際にエスケープシーケンスを削除したい文章（例文）、実行結果を追記しました

2019/08/10 02:17

投稿

HAGI-04

スコア3

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,4 +1,14 @@
-python3で文章から、エスケープ文字「\」から始まるエスケープシーケンス（改行\nなど）をすべて削除しようと思い、以下のように実行しました。
+python3で以下の文章から、エスケープ文字「\」から始まるエスケープシーケンス（改行\nなど）をすべて削除しようと思い、以下のように実行しました。
+（anaconda3のjupyter notebookを使っています）
+```corpus
+私達は、エンジニアが抱える問題の解決を全力でサポートします。
+質問・回答によって 生まれたコンテンツを、同じ問題を持った人に最適な形で届けます。
+プログラミングに関して、わからないことがあれば是非teratailで質問してください。
+あなたがわかることがあれば、是非解決方法をシェアして解決の手助けをしてください。
+あなたの全ての行動が、いつか多くの日本のエンジニアの為になります。
+```
 ```python
 from janome.tokenizer import Tokenizer
@@ -16,12 +26,21 @@
 # 分かち書きにする
 tmp= t.tokenize(corpus, wakati = True)
-# エスケープシーケンスを消す
+print(tmp)
-word_list = [word for word in tmp if (word.startswith('\'))]
+print('='*50)
+# 空白を消す
+word_list = [word for word in tmp if not (word.startswith('\'))]
 print(word_list)
 ```
+```output
+['私', '達', 'は', '、', 'エンジニア', 'が', '抱える', '問題', 'の', '解決', 'を', '全力', 'で', 'サポート', 'し', 'ます', '。', '\n', '質問', '・', '回答', 'によって', ' ', '生まれ', 'た', 'コンテンツ', 'を', '、', '同じ', '問題', 'を', '持っ', 'た', '人', 'に', '最適', 'な', '形', 'で', '届け', 'ます', '。', '\n\n', 'プログラミング', 'に関して', '、', 'わから', 'ない', 'こと', 'が', 'あれ', 'ば', '是非', 'teratail', 'で', '質問', 'し', 'て', 'ください', '。', '\n', 'あなた', 'が', 'わかる', 'こと', 'が', 'あれ', 'ば', '、', '是非', '解決', '方法', 'を', 'シェア', 'し', 'て', '解決', 'の', '手助け', 'を', 'し', 'て', 'ください', '。', '\n\n', 'あなた', 'の', '全て', 'の', '行動', 'が', '、', 'いつか', '多く', 'の', '日本', 'の', 'エンジニア', 'の', '為', 'に', 'なり', 'ます', '。']
+==================================================
+['私', '達', 'は', '、', 'エンジニア', 'が', '抱える', '問題', 'の', '解決', 'を', '全力', 'で', 'サポート', 'し', 'ます', '。', '\n', '質問', '・', '回答', 'によって', ' ', '生まれ', 'た', 'コンテンツ', 'を', '、', '同じ', '問題', 'を', '持っ', 'た', '人', 'に', '最適', 'な', '形', 'で', '届け', 'ます', '。', '\n\n', 'プログラミング', 'に関して', '、', 'わから', 'ない', 'こと', 'が', 'あれ', 'ば', '是非', 'teratail', 'で', '質問', 'し', 'て', 'ください', '。', '\n', 'あなた', 'が', 'わかる', 'こと', 'が', 'あれ', 'ば', '、', '是非', '解決', '方法', 'を', 'シェア', 'し', 'て', '解決', 'の', '手助け', 'を', 'し', 'て', 'ください', '。', '\n\n', 'あなた', 'の', '全て', 'の', '行動', 'が', '、', 'いつか', '多く', 'の', '日本', 'の', 'エンジニア', 'の', '為', 'に', 'なり', 'ます', '。']
+```
-しかしエスケープシーケンスがきちんと認識できていないようで、出力されたリストは空でした。
+出力からわかるように、リスト中の'\n'や'\n\n'などが削除されることを期待していましたが、削除はされていませんでした。
 なぜこのコードは正しく機能しないのでしょうか？
 また、どうすれば「￥」から始まる文字列を指定できるでしょうか？

317