質問編集履歴

テキストファイルの一例

2022/04/01 08:40

投稿

スコア3

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -48,7 +48,12 @@
 out.write(new)
 UnicodeEncodeError: 'utf-8' codec can't encode characters in position 266-267: surrogates not allowed
 ```
+### 作成されたテキストファイルの変換したい部分
+```ここに言語を入力
+"full_text" : "\u3053\u308C\u306F\u30C6\u30B9\u30C8"
+```
+このような記述がされており、その一部分である\ud83dが引っかかったようです。
 ### 特に分からないこと
 utf-8とcp932の食い違いであるということは記事を読んで理解できました。そのためファイルの読み書き時にutf-8でコーディングを行ってみましたが上手く動きません。どこを見落としているのでしょうか？
 ```Python

テキストファイルを作成するコードとutf-8変換前後のエラー

2022/04/01 08:32

投稿

スコア3

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -5,6 +5,24 @@
 ### 当該のソースコード
 ```Python3.10.1
+mport stweet as st
+def try_serch():
+search_tweets_task = st.SearchTweetsTask(all_words = "検索ワード")
+output_jl_tweets = st.JsonLineFileRawOutput('data.txt')
+output_print = st.PrintRawOutput()
+st.TweetSearchRunner(search_tweets_task=search_tweets_task,
+tweet_raw_data_outputs=[output_print, output_jl_tweets],
+user_raw_data_outputs=[]).run()
+if __name__ == "__main__":
+try_serch()
+```
+```Python3.10.1
 source  = open('data.txt','r')
 out = open('data_decoded.txt','w')
@@ -16,9 +34,21 @@
 out.close()
 ```
 ### エラー
+utf-8変換前
+```
+Traceback (most recent call last):
+File "c:\VSCode\Source\Python\Scraping\Encoder.py", line 6, in <module>
-```ここに言語を入力
+out.write(new)
 UnicodeEncodeError: 'cp932' codec can't encode character '\ud83d' in position 266: illegal multibyte sequence
 ```
+変換後
+```
+Traceback (most recent call last):
+File "c:\VSCode\Source\Python\Scraping\Encoder.py", line 6, in <module>
+out.write(new)
+UnicodeEncodeError: 'utf-8' codec can't encode characters in position 266-267: surrogates not allowed
+```
 ### 特に分からないこと
 utf-8とcp932の食い違いであるということは記事を読んで理解できました。そのためファイルの読み書き時にutf-8でコーディングを行ってみましたが上手く動きません。どこを見落としているのでしょうか？
 ```Python