回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ BigQueryに関する質問

Q&A

解決済

3回答

3148閲覧

全角バックスラッシュの文字を正規表現で置換したい

総合スコア25

0グッド

0クリップ

投稿2021/01/10 07:47

編集2021/01/10 11:01

0

0

csvファイルのString型の列に「あああ＼u0000あああ」のような文字があり、「＼u0000」があるとCSVファイルをBigQueryに取り込めないようです。
「＼u0000」を空文字にしたいのですが「＼u0000」を正規表現でマッチさせることができずにいます。
どのように正規表現で書けば良いでしょうか。
ちなみに「＼u0000」はNULL文字だと思い、以下を試したのですがうまくいきませんでした。
(\u0000)
また以下の記述もうまくいきませんでした。
[＼u0000]
[＼＼u0000]

ご教示の程、よろしくお願いいたします。

エラー内容は、以下になります。
Unexpected end of line during parsing a quoted value

エラーが発生している列にはJson形式の値が以下のように入っています。

"{"a":123, "b":"繧ｹｼｼu0000縺"}"

上記の文字化けした状態のCSVファイルからu0000を削除するとエラーがなくなりました。
しかし、文字化けしていないテキストファイルからu0000を削除してもエラーが消えませんでした。
また同様に、「ｼｼu0000」の部分が「＼u0000」に該当しますが、
文字化けした状態のCSVファイルから「ｼｼu0000」を削除するとエラーがなくなりました。
しかし、文字化けしていないテキストファイルから「＼u0000」を削除してもエラーが消えませんでした。

行動規範の内容に同意します

回答3件

0

「＼u0000」があるとCSVファイルをBigQueryに取り込めないようです。

無関係でしょう。

Unexpected end of line during parsing a quoted value

というエラーを見る限り、プログラムが適切な文字コードでファイルを読めていないのが読めない原因に見えます。
具体的にはUTF-8のファイルをShift_JISとして読んでいるように見えます。(これはあなたが見ている文字化けと同じものです)

上記の文字化けした状態のCSVファイルからu0000を削除するとエラーがなくなりました。

文字化けした状態のファイルを編集して上書きしたということでしょうか。ファイルの他の部分が破壊されますのであまり意味のある結果にはなりません。
エラーが無くなったのは複数バイトで構成される文字が半端にずれたために化け方が変わったためかと思います。

「ｼｼu0000」の部分が「＼u0000」に該当します

いいえ違います。ｼｼの前の1バイトからです。文字化けした状態では一般的に文字の区切りが変化するので元の文字に対応する部分を切り出せるとは限りません。

投稿2021/01/11 12:11

総合スコア3047

2021/01/11 13:31 編集

的確なご指摘ありがとうございます。文字化けしたファイルを変更しても意味がないのですね。おっしゃる通り＼u0000がエラーの原因ではなく、ファイルをvimで開くと^@があり^@がエラーの原因のようでした。また、^@を正規表現を使って置換しようとしたところ、正規表現[\x00]でヒットしませんでした。

行動規範の内容に同意します

0

ベストアンサー

全角バックスラッシュは、単なる文字列なので、正規表現とか必要なく、

Python
1foo = foo.replace("＼u0000","")

で。

投稿2021/01/10 08:24

総合スコア85901

2021/01/10 08:32

ご回答ありがとうございます。使用しているツールの使用上、正規表現を使わないといけないです。。。

2021/01/10 08:37

ああ、すいません。直前でPythonの質問に回答したので。つい。では、正規表現として"＼u0000"を使えば良いだけです。特殊文字を含まない普通の文字列も正規表現です。

2021/01/10 08:45

うまくいきませんでした。 BigQueyのGUI上では「＼u0000」と表示されているのですが、違う文字として抽出しないといけないんですかね。

2021/01/10 08:50

ということは、あなたが思っているような、 > csvファイルのString型の列に「あああ＼u0000あああ」のような文字があり、が間違っていると言うことなので、手を抜かず、CSVファイルの中身を、普通のエディターとか、16進表示ツールとかで、ちゃんと確認しましょう。

2021/01/10 09:03

csvファイルを開いて確認したのですが、「＼u0000」と表示されました。

2021/01/10 09:08

そうすると、ツールの使い方を間違っているとかでしょうか。エディターで開いて表示されたものをそのままコピペしていないとか。

2021/01/10 10:11 編集

ツールの使い方は問題ありませんでした。また、「＼u0000」を削除して取り込みを開始したところエラーで取り込みがうまくいきませんでした。 csvファイルをテキストで開いてみたところ、「＼u0000」が含まれている値の途中で改行されているようでした。この改行は、テキスト上でdeleteできないですか？改行のところでキーボードからdeleteすると、文字が削除されます。

2021/01/10 10:21

すみません、原因がはっきりしないので一旦保留にさせてください。

2021/01/10 10:29

ちなみにエラー内容は、以下になります。 Unexpected end of line during parsing a quoted value

2021/01/10 10:35 編集

> また、「＼u0000」を削除して取り込みを開始したところようやく、削除は成功したと言うことですかね？ > この改行は、テキスト上でdeleteできないですか？改行を削除したいのであれば、すればいいと思います。 > 改行のところでキーボードからdeleteすると、文字が削除されます。それはエディターがおかしいか、うまく使えてないのか。 > Unexpected end of line during parsing a quoted value CSVは、" "で囲めばその中に改行をデータの一部として入れることが出来ますが、お使いのツールがそれに対応してないと言うことですね。

2021/01/10 10:56

> ようやく、削除は成功したと言うことですかね？はい。「＼u0000」の削除はテキストファイルから手動で行いました。しかしエラーが消えませんでした。質問のところに追記させていただいたのですが、文字化けした状態のCSVファイルからu0000を削除するとエラーがなくなりました。しかし、文字化けしていないテキストファイルからu0000を削除してもエラーが消えませんでした。

2021/01/10 12:43

黒い六角形の中にはてな文字が書いてあるものがあったのですが、これは\ufffdでしょうか。これが邪魔しているようです。

2021/01/10 12:55

はてなの文字をvimで開いたら「^@」となりました。

2021/01/10 14:48

> 黒い六角形の中にはてな文字フォントに無い文字と言うことですかね？エディタの仕様に依りますが。 16進表示して、文字をちゃんと調べるのでしょうか。何らかのプログラムを作って、それで処理して、ファイルをきれいにする必要がありそうです。

2021/01/10 15:20

以下を参考に「^@」は000aで\x00と\x0aの二つの文字からできているようです。これの二つの文字を正規表現で抽出するには[\x00|\x0a]で問題ないでしょうか。 https://stackoverflow.com/questions/26262761/what-does-this-symbol-mean-similiar-to-in-the-context-of-text-editing?noredirect=1&lq=1

2021/01/10 15:39

いいえ、間違ってます。^@ は \x00 です。繰り返し書きますが、16進表示して、内容を確かめましょう。

2021/01/10 17:21

vimで:%!xxdをやって16進に変換すると000aになりました。しかし、wikipediaの記載によるとおっしゃる通り^@はNULL文字で\x00でした。 [\x00]で^@を抽出しようとしたのですが、抽出されませんでした。

2021/01/11 00:55

「^@改行」で、000a です。 > [\x00]で^@を抽出しようとしたのですが、抽出されませんでした。自分でプログラムを作るしか無いのでは？

2021/01/11 10:52

>「^@改行」で、000a です。なるほど。そうなんですね。そうですね。自分で抽出プログラムを作ることを検討します。ご丁寧にありがとうございました。

行動規範の内容に同意します

0

全角スラッシュはメタ文字ではなく普通の文字ですから、＼u0000と普通に書けばいいだけですね。

投稿2021/01/10 07:51

総合スコア13692

2021/01/10 08:04

ご回答ありがとうございます。普通にというのは、(＼u0000)でしょうか。これでもうまくいきませんでした。

2021/01/10 08:34

どううまくいかなかったのですか。エラーが出た？変な形に変換された？何もおこらなかった？

2021/01/10 08:37

マッチしませんでした。

2021/01/10 08:38

[\xFFE5](u0000)や[\uFFE5](u0000)でもだめでした。

2021/01/10 08:44

そのカッコは何のためにつけているのですか?

2021/01/10 08:53

[]は全角バックスラッシュを抽出、()はu0000を塊で抽出です。

2021/01/10 09:18

[]に抽出などという機能はありませんよ。質問文が間違っていないとすれば、文字列としての＼u0000は間違いなく対象にマッチする正規表現にマッチするはずです。ということは質問文に書いてないどこかに不備があるのでしょう。正規表現を与える場所が間違っているとか、そもそも全角バックスラッシュと思い込んでいたものがそうでないとか。

2021/01/10 10:09

すみません、「＼u0000」を削除して取り込みを開始したところ、エラーで取り込みがうまくいきませんでした。 csvファイルをテキストで開いてみたところ、「＼u0000」が含まれている値の途中で改行されているようでした。

2021/01/10 10:18

[]について調べたのですが、理解が怪しいようです。 []は[]に含まれる文字が、一つ一つマッチングするのではないですか？ [ai]と書くとakgmiという文字列からaとiを抽出するという理解でした。

2021/01/10 10:26

＞[ai]と書くとakgmiという文字列からaとiを抽出するという理解でした。ちがいます。[ai]は「aまたはi」です。

2021/01/10 10:28

＞「＼u0000」が含まれている値の途中で改行されているようでした。改行もひとつの文字です。それが途中に挟まっているのであれば、マッチは当然成立しません。

2021/01/10 15:25

>ちがいます。[ai]は「aまたはi」です。ということは、xy[ai]と正規表現で書いた時、xyaとxyiがヒットするということでしょうか。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ BigQueryに関する質問

全角バックスラッシュの文字を正規表現で置換したい

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る