質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.47%

  • Python

    12268questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    10256questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • PostgreSQL

    1392questions

    PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。

Pythonでの形態素解析について

解決済

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 1,836

---stax---

score 119

表題の件で質問させてください
Pythonでjanomeを用いて形態素解析を行いたいと考えています
windowsを用いて開発しています

データベースからは
value列から”今日の天気は晴れ”、”昨日の天気は雨”という文字列を取得し、その文字列を単語区切りしたいです
idsという変数には['今日の天気は晴れ','昨日の天気は雨']とデータは取得できています

ただ、以下のコードで記入すると
tokens = t.tokenize(ids)の部分で
AttributeError:'list' object has no attribute 'strip'
とエラーが出ます
stripという型がないという意味と解釈したのですが対処法がが分からず苦戦しています
記述の仕方が間違っているのでしょうか
知識が浅いため初歩的な内容かもしれませんがアドバイスお願いいたします

こちらのサイトを参考にさせていただきました
Python初心者が1時間以内にjanomeで形態素解析できた方法

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from sqlalchemy import create_engine,Column,Integer,Text
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declaretive import declarative_base
from functional import seq
from janome.tokenizer import Tokenizer

Base = declarative_base()
class PythonTest(Base):
    __tablename__ = 'Python_test'
    id = Column(Integer,primary_key = True)
    value = column(Text)

if __name__ == '__main__':
    engine = create_engine('postgresql://postgres:postgres@localhost/Datatest')
    session = sessionmaker(bind = engine)
    sess = Session()

    pages = sess.query(PythonTest).all()
    ids = seq(pages).map(lamda x: x.value).to_list()
    print(ids)

    data = []

   t = Tokenizer()
    tokens = t.tokenize(ids)
    for token in tokens:
       data.append(token.surface) 
     print(data)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+1

■原因
Tokenizer#tokenizeの引数には文字列を渡す必要があります。
リストの内容を文字列に展開する方法はいろいろありますがループを使った書き方です。

t = Tokenizer()  # Tokenizerの初期化は一回だけでOKです。
for text in ids:
    for token in t.tokenize(text):
        data.append(token.surface)
        print(data)

■余談
print(type(ids))
で変数の型が分かります。型判定はisinstanceを使ってくださいな。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/24 11:26

    ありがとうございます
    先ほど自己回答書いてしまったのですがtokenize()の引数は文字列型でないといけなかったのですね。初歩的な理解が欠けていました。重ねての質問で申し訳ないのですが、教えていただいたコード部分なのですが、①ids内の要素分、変数textに代入を繰り返す ②①で繰り返す処理内容として変数textに代入された値を t.tokenize():させて繰返しを実施させていると思うのですが、 for text in ids:で変数textに代入された値は、この時点で文字列型になっているのでしょうか?配列の値を抜き出した時点で文字列型になるのでしょうか?明示的に文字列型を指定していない部分が疑問に感じました。初歩的な質問ですいませんが教えていただけたら幸いです。

    キャンセル

  • 2018/01/24 11:34

    コードの流れとしてはOKです。質問文の以下のコードで配列に入れてます。
    1,この時に既に文字列型でlistに値を入れていると思うのですが。
    ids = seq(pages).map(lamda x: x.value).to_list()
    2,x.valueはPythonTestクラスでvalue = column(Text)で質問文は定義してますよね。

    キャンセル

  • 2018/01/24 12:22 編集

    回答ありがとうございます
    配列についても認識が浅かったです
    list型配列に入れている要素の型の概念を忘れていました
    教えていただいた通りデータベースから取得した値は文字列型で(value = column(Text)で型を指定している)、その値を配列に格納してるということですよね。
    なのでfor文で配列から1つ1つ回して配列から値を抜き出したものは文字列型として扱える(配列から抜き出した時点でその値はlist型(配列)ではない)、という理解で間違いないでしょうか

    キャンセル

  • 2018/01/24 19:16

    その認識で間違いないですー。

    キャンセル

  • 2018/01/25 09:04

    ありがとうございます。
    分かりやすく説明していただいてありがとうございました。
    また宜しくお願い致します。

    キャンセル

+1

idsが文字列のリストでtokenize関数が文字列を要求しているのであれば、以下のようにループ処理すればよいです。

# エラー再現例
['abc'].strip() # 'list' object has no attribute 'strip'
'abc'.strip()   # OK

# 修正例
for id in ids:
    #id は '今日の天気は晴れ'など
    tokens = t.tokenize(id)
        for token in tokens:
            data.append(token.surface) 
                print(data)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

tokens = t.tokenize(ids)の引数は文字列でなければいけないと分かりました
idsはList型なのでエラーとなっていたようです
またstripと表記されていた部分もstring型のメソッド?の一種という事もわかりました

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.47%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python

    12268questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    10256questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • PostgreSQL

    1392questions

    PostgreSQLはオープンソースのオブジェクトリレーショナルデータベース管理システムです。 Oracle Databaseで使われるPL/SQLを参考に実装されたビルトイン言語で、Windows、 Mac、Linux、UNIX、MSなどいくつものプラットフォームに対応しています。