Python リストから特定の文字を削除

総合スコア5406

2019/11/29 12:32

joinも試してみたのですが、json_obj1をjoinすると、ｓに代入する際に１文字単位で区切られてしまい目的の結果が得られませんでした。

2019/11/29 12:47 編集

何が必要なのでしょう？単語に分けたいのであれば ' '.join(data).split() にすれば単語単位のリストになります。文字列一個のリストにしたいなら [' '.join(data)] でいいです。

2019/11/29 12:56 編集

最終的な目的としては、質問に追記したとおりに１記事毎の出現単語を調べ、１単語が何記事に出現したかを出力する辞書オブジェクトを作成します。しかし、現状では１記事毎の単語ではなく、１記事が','で区切られた１文ずつに分解されてしまっています。そしてその中から出現単語を調べ上げることになっているので想定している回数より多くカウントされてしまっています。なので、欲しいものとしては、全記事（７１０記事）を１記事単位に分割したリストです。

2019/11/29 13:30

> １記事が','で区切られた１文ずつに分解されてしまっています。 1文ずつに分解されてリストになった文字列があるのですよね？まずは、それをどういうデータに変換したいですか？ 3文がカンマに区切られたリストになっているのであれば data = ' '.join(["1文目", "2文目", "3文目"]) とすれば "1文目 2文目 3文目” という一つの文字列になって変数 data に代入されます。

2019/11/29 15:34

１記事ずつのデータ(json_obj1)を文字列のデータに変換したいです。

2019/11/30 01:14 編集

json_obj1 = json_obj['text'] を json_obj1 = [' '.join(json_obj['text'])] にすれば1記事のリストになります。そうした場合、直後のfor文は常に1回しかループしないので、ループを無くすことができます。そうしたコードを回答欄に追記しました。

2019/11/30 03:47

無事解決致しました！！有難うございました。

行動規範の内容に同意します

sは文字列ではなく純然たるlistです。段落ごとに文章を格納したリストとか、そんな感じで取れてるんでしょう。
（これはヤマカンで書いているので、どうなっているのかはご自身でちゃんと確認してください）

内包表記を使って

python
1tokens = [w for x in s for w in t.tokenize(x)]

とでもしてみては。

投稿2019/11/28 17:50

編集2019/11/28 17:51

総合スコア30933

2019/11/29 02:54

回答有難うございます。申し訳ないのですが、回答のプログラムをどのように組み込むと宜しいのでしょうか？

2019/11/29 03:01

tokens = t.tokenize(s) のかわりにいれる

2019/11/29 04:58

ありがとうございます。しかし、1文字毎に文章が分解されるようになってしまいました。

2019/11/29 06:50

すみません、ちょっと勘違いしてました。修正しますのでしばしお待ちください。

2019/11/29 07:40

承知しました。

2019/11/29 10:10

なんとか修正しようと思って質問文を改めて読み直してみたのですが、どうしても腑に落ちない点（私が早とちりして勘違いした点でもある）があります。 json_obj1をprintした結果が質問文のようなのであれば、sには各段落の文字列が問題なく入るはずです。（「json_obj1をprintした一部↓」に関して）また、「この状態でfor文を用いてsに代入すると」の部分で結果がカンマで区切られているようには見えないので、そもそもの問題意識のすりあわせが上手く行っていないと思います。現状だと、何がしたくて、何が思い通りいっていないのか、私は把握できていないです。恐縮ですが、先に質問文を編集してもう少し詳しく書いてみていただけませんか？