質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Q&A

3回答

1784閲覧

C言語で文字列に含まれている絵文字を削除したい

sjinetese

総合スコア4

C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

0グッド

1クリップ

投稿2020/02/29 13:02

前提・実現したいこと

文字列に様々な絵文字(⚡、☔などの)が含まれている場合、その絵文字を削除したいです。

該当のソースコード

文字を削除する関数は以下のサイトを引用しましたが、文字列内に絵文字が含まれている条件をどのように判定したら良いか教えてください。
(ちなみに文字コードはutf-8で全角文字を2バイトとなります。)
http://f4.aaacafe.ne.jp/~pointc/log217.html

以下は途中まで作ったコードになります

/* mojiの文字列内にdelという文字が含まれている場合に削除する */ char *deleteMoji(char *moji, const char *del) { char *p1 = moji; char *p2; int len = strlen(del); char strConcat[100] = ""; while((p2 = strstr(p1,del)) != NULL) { strncat(strConcat,p1,p2 - p1); p1 = p2 + len; } strcpy(moji, strcat(strConcat,p1)); return moji; } int main(void){ char moji[100] = "abc⚓123☔あいう☀"; int i;   for(i=0; i<strlen(moji); i++){ if((moji[i]+moji[i+1])が絵文字の場合){ char del[3]; // 絵文字は全角文字のため2バイト分のcharを結合する? sprintf(del, "%c%c", moji[i], moji[i+1]);      deleteMoji(moji, del); } } // mojiはabc123あいうとなるようにしたい }

以上、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hoshi-takanori

2020/02/29 13:20

utf-8 では通常の全角文字は 3 バイトです。絵文字はたしか 3 〜 4 バイトですね。
SHOMI

2020/02/29 13:27

漢字にも4バイトになる文字がありますよ
raccy

2020/02/29 14:13

まず、「絵文字」というのがUnicodeにおいて何にあたるのかを明確に定義する必要があります。 最も単純なのはUnciodeのBlockで判断する方法です。どのBlockが絵文字になるのかを定めてください。 https://www.compart.com/en/unicode/block そうではなく、ScriptやCategory等で判断となるとやや難しくなります。なぜなら、単純な数値の計算では判断できず、リストを持つ必要があるからです。
guest

回答3

0

0xe2 で始まる 3バイトを削除したいのだったら

C

1#include <stdio.h> 2 3void deleteMoji(char *moji) 4{ 5 char *p1 = moji, *p2 = moji; 6 while (*p1) 7 if (*p1 == '\xe2') p1 += 3; 8 else *p2++ = *p1++; 9 *p2 = 0; 10} 11 12int main(void) 13{ 14 char moji[100] = "abc⚓123☔あいう☀"; 15 puts(moji); 16 deleteMoji(moji); 17 puts(moji); 18}

投稿2020/02/29 16:49

編集2020/02/29 16:55
kazuma-s

総合スコア8224

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

お書きの絵文字は、先頭バイトがE2とE3なので、全部3バイトです。

1バイト文字(ASCII文字)だけ残すなら、バイトの値が 0~127 の文字だけ残して、128~255の文字を削除します。

参考:UTF-8 - Wikipedia

投稿2020/02/29 14:04

otn

総合スコア85901

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

UTF-8での漢字、ひらがな、
カタカナ(半角も含む)は3バイト、一部漢字は4バイトです。
UTF-8 絵文字 正規表現で検索するといろいろヒットするので参考にされてみてはいかがでしょうか。
また、以下に絵文字のリストがあります。
Full Emoji List, v13.0
Full Emoji Modifier Sequences, v13.0

投稿2020/02/29 13:53

編集2020/02/29 13:55
SHOMI

総合スコア4079

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問