自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

RSS

  • 受付中

    回答
    1

    テキスト分類のValueError: dimension mismatchの対処で困っています。。

    実現したいこと テキストデータ(仕事内容(20文字程度))をjanomeで形態素解析し、CountVectorizerで配列化し、sklearn.naive_bayes(MultinomialNB)で学習させ、仕事内容から仕事分類を予測したいです。 ※説明変数は仕事内容、目的変数は仕事分類、環境はpython3.6 困っていること 学習及び検証までは実施

    • 0評価
    • 71PV
    swallowataill swallowataill 1日前に コメント
  • 受付中

    回答
    1

    ニュース記事のDB構築

    私はYahoo!ニュースから様々な媒体のニュースをスクレイピングでテキストに保存して、テキストマイニングで分析をかけたいと考えていますが、そろそろ、記事がたまってきたのでデータベース化しようとしています。 データベースのカラム構成は次になります。 ・日時 ・時刻 ・媒体 ・見出し ・段落1 … ・最終段落 問題は段落の数がニュースの

    • 0評価
    • 115PV
    monolith_91 monolith_91 1ヶ月前に コメント
  • 解決済

    回答
    1

    pythonの文字コード系のエラーで困っています。

    前提・実現したいこと 自然言語処理のプログラムをpythonで書いています。エラーを消したいです。 発生している問題・エラーメッセージ エラーは文字コード関連です。ちなみにこのエラーは何度も実行しているとたまにエラーが出ないでプログラムが動くことがあります。 line 115, in tokenize yield node.surfa

    • 0評価
    • 186PV
    _Victorique__ _Victorique__ 3ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    tf-idfにおける文書(document)とは

    tf-idf法を使いたいのですが、idfにおける一文書の単位はどのくらいにすれば良いのでしょうか? ある単語のidf値を調べる場合、 idf = log(全文書数 / 単語が含まれる文書数) という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わって

    • 0評価
    • 128PV
    tetsutail tetsutail 3ヶ月前に コメント
  • 解決済

    回答
    2

    word2vecのエラーについて

    こちらを参考にpythonでword2vecを用いて読み込んだ文字列に対して類似性のある単語をしゅつりょくするプログラムを書きました。 しかし以下のようなエラーが出ます 多分そのような語彙が見つかっていないというエラーだと思いますが教師データに用いているファイルには確かに存在するのです。 参考にしたサイトでもちゃんと出力できているのに私の環境ではできな

    • 0評価
    • 710PV
    miyamoto0105 miyamoto0105 3ヶ月前に 回答
  • 解決済

    回答
    1

    TensorFlowでの訓練データについて(自然言語処理)

    Neural networkで何か作ってみたいと思い、チュートリアルを参考にして、自分で実装しようと思いました。 チュートリアルと同じことをやっても嫌だなと思ったので固有抽出表現というラベル付けの識別を自分で実装しています。チュートリアルと変わることは、入力するデータ型とくらいです。 チュートリアルでは入力は手書き文字の28x28の画像ベクトルでした

    • 0評価
    • 308PV
    hiroto0227 hiroto0227 3ヶ月前に コメント
  • 解決済

    回答
    1

    スクレイピングで除外すべきタグについて

    現在テキスト分類器を作成しており、その際に疑問に思ったことについて質問したいと思います。 取得した文書を単語ごとにパースする際に、「var」「function」などのワードが多数含まれていることに気が付きました。この原因は、scriptタグの中身もパースためでした。 ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。 このこと

    • 0評価
    • 276PV
    mukkun mukkun 5ヶ月前に コメント
  • 解決済

    回答
    1

    ナイーブベイズを使ったテキスト分類について

    現在ナイーブベイズを用いたテキスト分類器を作成しています。その時に疑問に思ったことについてお聞きしたいと思います。 ナイーブベイズを用いたテキスト分類では、ドキュメントがカテゴリに分類される確率を、カテゴリをc、ドキュメンをdとすると、 P[c|d] = P[c]P[d|c]し、ドキュメントをBoWとして、ドキュメントに含まれる用語をtiとすると、P[d|

    • 0評価
    • 221PV
    MasashiKimura MasashiKimura 6ヶ月前に コメント
  • 受付中

    回答
    0

    word2vecの精度について

    word2vecの演算結果について適当な言葉と類似度比較をするとほとんどすべての語が類似度0.8〜0.9に属してしまいます。 学習データは分かち書きをした200文程度の文章で合計語彙は5000〜10000語、設定は text8corpusで読み込んだのち size=300〜500 もしくは5000程度で試しましたが結果は変わりませんでした。また実行のたび

    • 0評価
    • 389PV
    kkkmokotan kkkmokotan 10ヶ月前に 質問を編集
  • 受付中

    回答
    0

    gensimのimportエラーとsix.pyのバージョンアップ

    前提・実現したいこと pythonでgensimを使い関連語抽出と単語分類をしようとしています。 なので、まずgensimを使えるようとしているのですが「import gensim」ができません。 おそらくsix.pyのバージョンが古いままであることが原因であると思われるのですが、何時間経ってもエラーが消えません 発生している問題・エラーメッセー

    • 0評価
    • 679PV
    teratailが11ヶ月前に アップデート
  • 解決済

    回答
    1

    【python】ターミナル上で出力する文字列が符号化される

    はじめまして,自然言語処理の初心者です. http://www.cl.ecei.tohoku.ac.jp/nlp100/#sec00 現在,↑のサイトの2つ目の課題を行っているところです. 「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ. という課題です. 困っていること プログラムをターミナル

    • 0評価
    • 327PV
    meg-teratail meg-teratail 1年以上前に コメント
  • 解決済

    回答
    1

    mecabの文字化けについて

    こちらのサイトを参考にしてMecabを使った自然言語を品詞に分解する処理をC++で記述しました. しかし出力が文字化けしてしまいます. 環境としてCentOS 6.7とMacOS EL Capitan で確認しましたがどちらも文字化けしました.辞書はjumandicを使っています 文字化けするだけでなく品詞分解もおかしい結果が出力されています. ちな

    • 0評価
    • 342PV
    rerere0507 rerere0507 1年以上前に 回答
  • 解決済

    回答
    2

    ツイートを集めてデータセットを利用したい

    Twitterのツイートをデータセットとして収集し利用したいです. 目的としてはツイートを自然言語解析をすることにより機械学習のプログラムの参考にしたいです. 自動でTwitter のツイートを大量に取得し保存する方法(もしくはこのようなデータを提供しているサイト)の情報を教えていただきたく思います.宜しくお願い致します.

    • 0評価
    • 641PV
    toma_kazusa 退会済みユーザー 1年以上前に ベストアンサー
  • 解決済

    回答
    1

    Apache Spark MLlib (Scala) による主成分分析

    Apache Spark MLlib (Scala)に関して質問させて下さい。 質問 Spark MLlibで主成分分析をしたいのですが、RDD[(String, String, Double)]をRowMatrixに変換するにはどうすれば良いでしょうか? 下記の、データ変換のイメージをご参照いただき、そもそもやりたいことに対して、アプローチが

    • 1評価
    • 559PV
    Masaaki_Inaba Masaaki_Inaba 1年以上前に ベストアンサー
  • 受付中

    回答
    1

    Circle CIでJumanで文字化け

    実現したいことJavaのCIをCircle CIで行おうとしております。 形態素解析器のJumanを使うので、そこをテストしたいと考えております。 出来ることならjavaのコードは変えずにテストを通したいです。 現状circle.ymlmachine: environment: LANG: ja_JP.UTF-8 java: ver

    • 0評価
    • 594PV
    yu1ro yu1ro 1年以上前に コメント
  • 受付中

    回答
    2

    英語の読みをカタカナか発音記号に変換できますか?

    openjtalkを利用して「All」を「オール」と読ませたいのですが、1字ずつ読み上げてしまいます。 質問は3点です。 1.「English to katakana converter」のようなライブラリは、オープンソースで公開されていますか? 2.英単語「All」から発音記号「ɔːl」を得る方法はありますか? 3.発音記号の情報がある、英和辞書データを

    • 0評価
    • 1275PV
    Trejkaz Trejkaz 1年以上前に 回答
  • 解決済

    回答
    1

    自然言語処理

    pythonのライブラリで自然言語処理に役立つものを教えてください。 今知っているのはmecabとcabochaくらいです。

    • 1評価
    • 538PV
    yeah yeah 1年以上前に ベストアンサー
  • 解決済

    回答
    1

    ブログ記事から重要な複数の単語のみ抽出する方法

    ブログ記事の内容を形態素解析して、重要な単語のみタグとして抽出しようとしているのですが、 形態素解析するだけだと、重要じゃない単語までタグとして認識されてしまいます。 どのようにしたら重要な単語のみ抽出できるのでしょうか。 おしえていただければ幸いです。 使用言語はphp、もしくはjavascriptです。 どうぞよろしくお願い申し上げます。

    • 0評価
    • 531PV
    carotene4035 carotene4035 1年以上前に コメント
  • 受付中

    回答
    0

    形態素解析する際に、否定語を認識させたい。

    以下のような2文があったとします。 1)「あのラーメンはとても美味しかった。」 2) 「あのラーメンは美味しくなかった。」 単純にmecabで形態素解析するとどちらも「美味しい」「美味しく」といった「美味しい」というワードが抽出されてしまいます。 勿論、(2)では、その後に、否定後である「ない」というのがあるため、 そこまで含めて認識させれば、「美味

    • 0評価
    • 767PV
    cDm_48 cDm_48 1年以上前に 質問
  • 解決済

    回答
    2

    Python 2.7に64bit版でgensimを入れたと思うのですが、なぜか「有効な Win32 ...

    環境としては、Windows 8.1 64bitです。Python 2.7を使用しています。 まずは実行した手順を書きます。 最初にsetuptools,pip,wheelをインストールしました。 numpyやscipyには公式の64bit版のものがないということなので、 ここ(Unofficial Windows Binaries for Python

    • 0評価
    • 3444PV
    Browniet Browniet 1年以上前に コメント
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    49

  • 総質問数

    24

  • 今週の質問数

    1

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る