Python リストから特定の文字を削除

Question

現在、複数のJSONファイルになっている記事データからtext部分のみを取り出し、記事に含まれている全単語が何個の記事に出現するかを調べています。

```Python
articles = []
    wordset = set() # 出現単語セット
    
    for line in fileinput.input(JSON_FILE):
        wordcounter = Counter()
        json_obj = json.loads(line)
        json_obj1 = json_obj['text']
        for s in json_obj1:
            tokens = t.tokenize(s)
            base_forms = [tk.base_form for tk in tokens]
            wordset.update(base_forms)
            wordcounter.update(base_forms)
            unique_arr = np.unique(base_forms)
            l.append(unique_arr)
```        


こちらはプログラムの一部になります。最初のfor文で、JSON＿FILEから１記事毎読み取り、その中のTEXTのみ取り出します。

次のfor文で記事毎の単語を分解します。ここで、wordsetには全記事の単語、リストlには１記事文の単語が代入されています。

```Python
wordset = Counter(wordset)
for W in l:
    
    wordset.update(W)

wordset_sorted = sorted(wordset.items(), key=lambda x:x[1])

print(wordset)
```

最後にwordsetとlを比較して、出現回数を調べています。

しかし、上記のプログラム
```Python
for s in json_obj1:
```
の部分で、sに代入されているデータが１記事毎のデータではなく、','で区切られた状態になってしまっていました。下記に出力結果の一部を示しています。

json_obj1をprintした一部↓
```
['コーエーテクモゲームスは、9月27日（Steam版は10月16日）に発売を予定しているプレイステーション 4/Nintendo Switch用タクティカルアクション「無双 OROCHI3」の最新情報を公開した。', '今回は、新キャラクター「ペルセウス」のキャラクター紹介動画が公開された。CVは下野 紘さんが務める。他にも、ストーリーのキーとなるキャラクターが特別な姿へ変化する「神格化」について、「関銀屏」が対象となることが明らかになった。さらに、神の力を得たキーアイテム「神器」2種が公開された。', 'オリュンポスの英雄。神であるゼウスと、人であるダナエーの間に生まれた半神。メドゥーサ殺しを成し遂げ、英雄として崇められるようになった。ゼウスによる人間界への介入を憂い、世界の混乱を防ぐために立ち上がる。', 'ストーリーのキーとなる8名は、神の力を身に宿した姿へ変化する「神格化」を遂げる。今回新たに「関銀屏（CV：三上枝織）」の神格化が決定した。', '大変器量が良く、護身術のつもりで習った武芸に才能を発揮する。とてつもない怪力だが、本人は気づいていない。', '守護神ヘルメスの持つ、翼の生えた魔法の靴。身につけた者は風を追い越す速度を得る。', '仙人が創り出した神秘の宝のひとつ。大地を揺るがし山を吹き飛ばす力を持つ。', '開催中の店頭体験会の追加日程が決定した。試遊した人には「『無双OROCHI3』特製缶バッジ」がランダム配布される。数には限りがあり、なくなり次第終了となる。', '【店頭体験会 追加日程】', '東京都池袋にある飲食店「KOEI TECMO CAFE & DINING」とのコラボレーションが9月上旬に開催される。「無双OROCHI3」にちなんだ店内装飾や、限定メニューが楽しめる。詳細な期間や予約方法などは後日公開される予定。', '©コーエーテクモゲームス All rights reserved.']
```

この状態でfor文を用いてsに代入すると
```ｓの出力結果の一部

【店頭体験会 追加日程】

東京都池袋にある飲食店「KOEI TECMO CAFE & DINING」とのコラボレーションが9月上旬に開催される。「無双OROCHI3」にちなんだ店内装飾や、限定メニューが楽しめる。詳細な期間や予約方法などは後日公開される予定。

©コーエーテクモゲームス All rights reserved.
```
~~のように','で区切られてしまいます。~~json_obj1の出力結果で、','で区切られている部分に分割されｓに代入されてしまっています。

この状態では１記事毎で出現単語を調べることができません。**（現状では、１記事単位ではなく','で区切られた１文単位で出現単語を調べてしまっている）**どのように変更すればよろしいでしょうか？

strip関数を用いて、','を削除を試してみましたが、sに代入する時に１文字単位で分解されてしまいました。






追記
![sの出力結果](15e9c83d7d825232b5577035d9b9dd2f.jpeg)
ｓの問題点：上記のjson_obj1を出力した結果の','を区切りに読み込まれてしまっている。目的物としては、１記事単位で読み込んでほしい。上記の画像を例とすると、

コーエーテクモゲームスは、9月27日（Steam版は10月16日）に発売を予定しているプレイステーション 4/Nintendo Switch用タクティカルアクション「無双 OROCHI3」の最新情報を公開した。今回は、新キャラクター「ペルセウス」のキャラクター紹介動画が公開された。CVは下野 紘さんが務める。他にも、ストーリーのキーとなるキャラクターが特別な姿へ変化する「神格化」について、「関銀屏」が対象となることが明らかになった。さらに、神の力を得たキーアイテム「神器」2種が公開された。オリュンポスの英雄。神であるゼウスと、人であるダナエーの間に生まれた半神。メドゥーサ殺しを成し遂げ、英雄として崇められるようになった。ゼウスによる人間界への介入を憂い、世界の混乱を防ぐために立ち上がる。ストーリーのキーとなる8名は、神の力を身に宿した姿へ変化する「神格化」を遂げる。今回新たに「関銀屏（CV：三上枝織）」の神格化が決定した。大変器量が良く、護身術のつもりで習った武芸に才能を発揮する。とてつもない怪力だが、本人は気づいていない。"守護神ヘルメスの持つ、翼の生えた魔法の靴。身につけた者は風を追い越す速度を得る。仙人が創り出した神秘の宝のひとつ。大地を揺るがし山を吹き飛ばす力を持つ。"開催中の店頭体験会の追加日程が決定した。試遊した人には「『無双OROCHI3』特製缶バッジ」がランダム配布される。数には限りがあり、なくなり次第終了となる。【店頭体験会 追加日程】東京都池袋にある飲食店「KOEI TECMO CAFE & DINING」とのコラボレーションが9月上旬に開催される。「無双OROCHI3」にちなんだ店内装飾や、限定メニューが楽しめる。詳細な期間や予約方法などは後日公開される予定。©コーエーテクモゲームス All rights reserved.

このように表示されることを目指しています。


こちらは、現段階のプログラムの出力結果です。
![wordsetの出力結果](153b12eeb40bbaa8c57670c86f6275f0.jpeg)
記事数は710記事のため、それを超えてカウントされているものが多々あるためこのような結果となっていると推測し、調べていると、最初の質問のとおり　s　にはいっている文字列が１記事単位となっていないため、上記のような数値が表示されているのではないかという考えに至りました。

以上で補足とさせていただきます。また、回答するにあたって不明な点などがございましたら連絡いただけると幸いです。

Accepted Answer

リストはカンマで区切られているものです。
カンマを無くしたいというのは要素を結合したいという意味であっていますか？
文字列のリストを一つの文字列にしたいのであれば join すればいいです。

```python
>>> json_obj1 = ['Hello', 'World', '!']
>>> ''.join(json_obj1)
'HelloWorld!'
>>> ' '.join(json_obj1)
'Hello World !'
```

1要素のリストにしたいのであれば角括弧で囲みます。。

```python
>>> [' '.join(json_obj1)]
['Hello World !']
```

結合した結果は変数に再代入してください。

```python
json_obj1 = [' '.join(json_obj1)]
```

そうした場合、直後のfor文は常に1回しかループしないので、リストにするのをやめて、ループを無くすことができます。

```python
json_obj1 = ' '.join(json_obj['text'])
tokens = t.tokenize(json_obj1)
base_forms = [tk.base_form for tk in tokens]
wordset.update(base_forms)
wordcounter.update(base_forms)
unique_arr = np.unique(base_forms)
l.append(unique_arr) 
```

Answer

`s`は文字列ではなく純然たる`list`です。段落ごとに文章を格納したリストとか、そんな感じで取れてるんでしょう。
（これはヤマカンで書いているので、どうなっているのかはご自身でちゃんと確認してください）

内包表記を使って

```python
tokens = [w for x in s for w in t.tokenize(x)]
```

とでもしてみては。