自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

RSS

  • 受付中

    回答
    1

    Pythonにおける機械学習プログラムにおけるエラーについて

    前提・実現したいこと 当方python初心者です。pythonを用いてTwitterのプロフィール文から2クラス分類をする識別機を作成したいと考えています。現在教師データとラベルをライブラリに引き渡して機械学習をさせようとしている段階なのですが、エラーが発生しており困っています。詳しい方どうかお力添えお願い致します。 発生している問題・エラーメッセージ

    • 0評価
    • 54PV
    lalalabit lalalabit 1日前に 質問を編集
  • 受付中

    回答
    2

    KeyError: '' が発生している場所がわからない

    下記エラーのKeyError: '' が発生している場所がわかりません。 辞書をどこで使っているかがはっきり特定する方法などがわかればと思います。 C:\Users\bluec>python bayes_test.py 2 Traceback (most recent call last): File "bayes_test.py", line 21,

    • 0評価
    • 74PV
    mkgrei mkgrei 4日前に 回答を編集
  • 受付中

    回答
    1

    list index out of rangeのエラーについて

    前提・実現したいこと janomeで形態素解析をして、マルコフ連鎖で文章を作成したいです。 発生している問題・エラーメッセージ make_sentence.pyの方は w1 = list1[0][0] IndexError: list index out of range と出ます...... 二

    • 0評価
    • 88PV
    mkgrei mkgrei 1週間前に 回答
  • 受付中

    回答
    1

    character-level でのデータの処理

    前提・実現したいこと character-levelを用いて文書分類をしたいのですが、データの入力部分がうまく理解できずどう書けばいいか悩んでいます。 文書を与えてUnicodeにするところまでをどうすればいいのか、どうなっているのか教えていただきたいです。

    • 0評価
    • 35PV
    ismatsu ismatsu 1週間前に コメント
  • 受付中

    回答
    1

    Pythonを使って文書をUnicodeにしたい

    Character level cnnを使って文書分類をしたいのですが、最初のデータの入力部分とUnicodeに変換する部分がいまいち理解できません。Pythonのデータ入力部分に関してどう書けばいいとか、参考サイトなどありましたら教えてください。

    • 0評価
    • 51PV
    wakame wakame 1週間前に 回答
  • 受付中

    回答
    0

    機械学習:自然言語処理で文章と区分の両方のデータの解析について

    機械学習:自然言語処理で文章と区分の両方のデータの解析について 例として、たとえばこんなデータがあるとします。 都道府県 性別 年代 自由記述(感想など) 区分(答え) 東京都 男性 30代 この商品は●●××のような感じで、いまいちでした。 bad 大阪府 女性 20代 この商品は結構いい感じ。 good 愛知県 男性 20代 正

    • 0評価
    • 32PV
    teratailが2週間前に アップデート
  • 受付中

    回答
    0

    会話文のテキストを対象とした感情分析・感情分類ライブラリや辞書の選択肢

    前提・実現したいこと 会話文のテキスト(1メッセージ:20文字*3行)に対して感情分析を行い、 1メッセージ毎に「怒り」「悲しみ」「笑い」といった10程度の感情パターンに分類する方法について 幾つか試してみましたが、想定より手間がかかりそうだったので、 これ試してみると良いよとか可能そうな選択肢をご存知の方が居れば教えて頂けたらなと思います 試したこ

    • 0評価
    • 62PV
    teratailが2週間前に アップデート
  • 受付中

    回答
    1

    テキストや表からの情報抽出

    テキストから情報抽出をしたい(非構造データからJSONなどに出力)場合には、どのようなアプローチの方法が良いでしょうか。 ライブラリやAPIがあれば、教えていただければと思います。 言語としては、主にJava、Python考えています。 下記に示している例の表では列の数が、7列ですがこの数を増減できるような作りにもしたいと考えています。 (情報抽出する際のカ

    • -2評価
    • 105PV
    LLman LLman 3週間前に 回答を編集
  • 解決済

    回答
    5

    sedコマンドで"["と"]"をうまく削除できない

    タスクとしては以下のようなテキストファイル Hello![ My name is [] Nice [to] meet you! をsedコマンドを使って Hello My name is Nice to meet you と記号を全て削除したいです。(MacOSです) sed -e "s/[[\]!]//g" test.txt 以上のコマン

    • 0評価
    • 84PV
    kokeman kokeman 1ヶ月前に 回答
  • 解決済

    回答
    1

    文章から記号を削除したい

    タスクとしては以下のようなテキストファイル 'TIS 'TIS 'TWERE 'TWERE & & & (A (AND (AND AGAIN, から記号を削除して以下のようなテキストファイル TIS TIS TWERE TWERE AMP AMP AMP A AND AND AGAIN にしたいです。 macのターミナルから

    • 0評価
    • 80PV
    dodox86 dodox86 1ヶ月前に ベストアンサー
  • 受付中

    回答
    2

    pythonでファイル読み込みした際の文字列のバイト数がおかしくなる。謎の見えない3バイトが付いてく...

    テキストファイルを作り、pythonで読み込みバイト数を調べました。しかし、最初の一行に謎の見えない3バイトが付いてしまいます。この正体は何でしょうか?消し方も教えてください。 windows7,Anaconda,Spyder,python2を使っています。 文字コードや改行コードについてはあまりよく分かっていません。関係あるか分かりませんが。 test

    • 0評価
    • 133PV
    YouheiSakurai YouheiSakurai 1ヶ月前に 回答
  • 解決済

    回答
    1

    tweepyでbotを排除して、tweetを取得したい。

    tweepyでtweetを大量に取得しています。その中にbotが含まれています。これを排除したいです。-botや-source:twittbot.netは試しましたが、それでもbotのtweetが紛れ込んできます。強力にbotを排除する方法を教えてください。 tweet = api.search(q = 'あいうえお -bot -source:twitt

    • -2評価
    • 126PV
    rtok rtok 1ヶ月前に ベストアンサー
  • 受付中

    回答
    1

    tweepyで取得するtweetの定型文・テンプレート文を排除したい。

    tweepyでtweetを大量に取得しています。しかし、その中に定型文やテンプレート文のように似た形式のtweetが多数含まれます。これを排除したいです。tweepyでtweetを取得する際にフィルターを掛け排除するか、tweetを取得した後に排除するかは、どちらでもかまいません。分かる方教えてください。

    • -1評価
    • 77PV
    s0ra s0ra 2ヶ月前に 回答
  • 解決済

    回答
    1

    PythonでCaboChaを使い、文節(chunk)を抽出したい。

    PythonでCaboChaを使い、文節(chunk)を抽出したいです。tokenは抽出することができるのですが、文節(chunk)の抽出の仕方が分かりません。tokenとtokenを合体させて文節(chunk)とすることしかできないのでしょうか? #!/usr/bin/python # -*- coding: utf-8 -*- import Cabo

    • 0評価
    • 199PV
    narinko narinko 2ヶ月前に 回答
  • 解決済

    回答
    1

    係り受け解析ツールCaboChaのPythonによるリファレンスが見つからない

    タイトルの通り、係り受け解析ツールCaboChaのPythonによるリファレンス、関数の使い方が載っているWebページが見つかりません。知っている方がいたら教えてください。

    • 0評価
    • 142PV
    ikedas ikedas 3ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    pythonで対義語(反対語)を取得したい

    python上で類義語を取得したい時、「Wordnet」というものが扱われるようですが、対義語(反対語)を取得したい時は、どのようなツールがオススメですか?探してもなかなか見つかりません。 また、類義語に関しても「Wordnet」以外のものでオススメがあれば教えてください。 Weblio類語・対義語辞典がpython上で使えれば良いのですが…

    • 0評価
    • 187PV
    NCC1701 NCC1701 3ヶ月前に ベストアンサー
  • 解決済

    回答
    2

    文書を数値化する方法

    文書を数値化する方法を探しています。 文書をベクトル化する方法はword2vecがあると思います。 ・文書がいくつか存在し、ある1つの方法でそれぞれの文書を数値化できる。 ・その数値はそれぞれの文書に固有の値である。 上記2つの条件を満たすような方法は考えられると思いますか? ちなみに数値化というのはスカラー量でということです。

    • 0評価
    • 132PV
    kenkennn kenkennn 4ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    テキスト分類のValueError: dimension mismatchの対処で困っています。。

    実現したいこと テキストデータ(仕事内容(20文字程度))をjanomeで形態素解析し、CountVectorizerで配列化し、sklearn.naive_bayes(MultinomialNB)で学習させ、仕事内容から仕事分類を予測したいです。 ※説明変数は仕事内容、目的変数は仕事分類、環境はpython3.6 困っていること 学習及び検証までは実施

    • 0評価
    • 223PV
    Ya.Tatsuro Ya.Tatsuro 4ヶ月前に コメント
  • 受付中

    回答
    1

    ニュース記事のDB構築

    私はYahoo!ニュースから様々な媒体のニュースをスクレイピングでテキストに保存して、テキストマイニングで分析をかけたいと考えていますが、そろそろ、記事がたまってきたのでデータベース化しようとしています。 データベースのカラム構成は次になります。 ・日時 ・時刻 ・媒体 ・見出し ・段落1 … ・最終段落 問題は段落の数がニュースの

    • 0評価
    • 230PV
    monolith_91 monolith_91 6ヶ月前に コメント
  • 解決済

    回答
    1

    pythonの文字コード系のエラーで困っています。

    前提・実現したいこと 自然言語処理のプログラムをpythonで書いています。エラーを消したいです。 発生している問題・エラーメッセージ エラーは文字コード関連です。ちなみにこのエラーは何度も実行しているとたまにエラーが出ないでプログラムが動くことがあります。 line 115, in tokenize yield node.surfa

    • 0評価
    • 567PV
    _Victorique__ _Victorique__ 7ヶ月前に ベストアンサー
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    57

  • 総質問数

    42

  • 今週の質問数

    2

関連するタグ

自然言語処理タグのよく見られている質問

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る