自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

RSS

  • 受付中

    回答
    0

    word2vecの精度について

    word2vecの演算結果について適当な言葉と類似度比較をするとほとんどすべての語が類似度0.8〜0.9に属してしまいます。 学習データは分かち書きをした200文程度の文章で合計語彙は5000〜10000語、設定は text8corpusで読み込んだのち size=300〜500 もしくは5000程度で試しましたが結果は変わりませんでした。また実行のたび

    • 0評価
    • 135PV
    kkkmokotan kkkmokotan 2ヶ月前
  • 受付中

    回答
    0

    gensimのimportエラーとsix.pyのバージョンアップ

    前提・実現したいこと pythonでgensimを使い関連語抽出と単語分類をしようとしています。 なので、まずgensimを使えるようとしているのですが「import gensim」ができません。 おそらくsix.pyのバージョンが古いままであることが原因であると思われるのですが、何時間経ってもエラーが消えません 発生している問題・エラーメッセー

    • 0評価
    • 240PV
    kikori05 kikori05 4ヶ月前
  • 解決済

    回答
    1

    【python】ターミナル上で出力する文字列が符号化される

    はじめまして,自然言語処理の初心者です. http://www.cl.ecei.tohoku.ac.jp/nlp100/#sec00 現在,↑のサイトの2つ目の課題を行っているところです. 「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ. という課題です. 困っていること プログラムをターミナル

    • 0評価
    • 139PV
    meg-teratail meg-teratail 4ヶ月前
  • 解決済

    回答
    1

    word2vecのエラーについて

    こちらを参考にpythonでword2vecを用いて読み込んだ文字列に対して類似性のある単語をしゅつりょくするプログラムを書きました。 しかし以下のようなエラーが出ます 多分そのような語彙が見つかっていないというエラーだと思いますが教師データに用いているファイルには確かに存在するのです。 参考にしたサイトでもちゃんと出力できているのに私の環境ではできな

    • 0評価
    • 245PV
    rerere0507 rerere0507 5ヶ月前
  • 解決済

    回答
    1

    mecabの文字化けについて

    こちらのサイトを参考にしてMecabを使った自然言語を品詞に分解する処理をC++で記述しました. しかし出力が文字化けしてしまいます. 環境としてCentOS 6.7とMacOS EL Capitan で確認しましたがどちらも文字化けしました.辞書はjumandicを使っています 文字化けするだけでなく品詞分解もおかしい結果が出力されています. ちな

    • 0評価
    • 158PV
    rerere0507 rerere0507 5ヶ月前
  • 解決済

    回答
    2

    ツイートを集めてデータセットを利用したい

    Twitterのツイートをデータセットとして収集し利用したいです. 目的としてはツイートを自然言語解析をすることにより機械学習のプログラムの参考にしたいです. 自動でTwitter のツイートを大量に取得し保存する方法(もしくはこのようなデータを提供しているサイト)の情報を教えていただきたく思います.宜しくお願い致します.

    • 0評価
    • 240PV
    toma_kazusa 退会済みユーザー 6ヶ月前
  • 解決済

    回答
    1

    Apache Spark MLlib (Scala) による主成分分析

    Apache Spark MLlib (Scala)に関して質問させて下さい。 質問 Spark MLlibで主成分分析をしたいのですが、RDD[(String, String, Double)]をRowMatrixに変換するにはどうすれば良いでしょうか? 下記の、データ変換のイメージをご参照いただき、そもそもやりたいことに対して、アプローチが

    • 1評価
    • 306PV
    Masaaki_Inaba Masaaki_Inaba 7ヶ月前
  • 受付中

    回答
    1

    Circle CIでJumanで文字化け

    実現したいことJavaのCIをCircle CIで行おうとしております。 形態素解析器のJumanを使うので、そこをテストしたいと考えております。 出来ることならjavaのコードは変えずにテストを通したいです。 現状circle.ymlmachine: environment: LANG: ja_JP.UTF-8 java: ver

    • 0評価
    • 324PV
    yu1ro yu1ro 1年以上前
  • 解決済

    回答
    1

    自然言語処理

    pythonのライブラリで自然言語処理に役立つものを教えてください。 今知っているのはmecabとcabochaくらいです。

    • 1評価
    • 345PV
    yeah yeah 1年以上前
  • 解決済

    回答
    1

    ブログ記事から重要な複数の単語のみ抽出する方法

    ブログ記事の内容を形態素解析して、重要な単語のみタグとして抽出しようとしているのですが、 形態素解析するだけだと、重要じゃない単語までタグとして認識されてしまいます。 どのようにしたら重要な単語のみ抽出できるのでしょうか。 おしえていただければ幸いです。 使用言語はphp、もしくはjavascriptです。 どうぞよろしくお願い申し上げます。

    • 0評価
    • 328PV
    carotene4035 carotene4035 1年以上前
  • 受付中

    回答
    2

    英語の読みをカタカナか発音記号に変換できますか?

    openjtalkを利用して「All」を「オール」と読ませたいのですが、1字ずつ読み上げてしまいます。 質問は3点です。 1.「English to katakana converter」のようなライブラリは、オープンソースで公開されていますか? 2.英単語「All」から発音記号「ɔːl」を得る方法はありますか? 3.発音記号の情報がある、英和辞書データを

    • 0評価
    • 839PV
    horse_n_deer horse_n_deer 1年以上前
  • 受付中

    回答
    0

    形態素解析する際に、否定語を認識させたい。

    以下のような2文があったとします。 1)「あのラーメンはとても美味しかった。」 2) 「あのラーメンは美味しくなかった。」 単純にmecabで形態素解析するとどちらも「美味しい」「美味しく」といった「美味しい」というワードが抽出されてしまいます。 勿論、(2)では、その後に、否定後である「ない」というのがあるため、 そこまで含めて認識させれば、「美味

    • 0評価
    • 437PV
    cDm_48 cDm_48 1年以上前
  • 解決済

    回答
    2

    Python 2.7に64bit版でgensimを入れたと思うのですが、なぜか「有効な Win32 ...

    環境としては、Windows 8.1 64bitです。Python 2.7を使用しています。 まずは実行した手順を書きます。 最初にsetuptools,pip,wheelをインストールしました。 numpyやscipyには公式の64bit版のものがないということなので、 ここ(Unofficial Windows Binaries for Python

    • 0評価
    • 2111PV
    Browniet Browniet 1年以上前
  • 受付中

    回答
    1

    自然言語処理 日本語の係り受け解析の入力値について

    卒業制作の課題でScalaを使って日本語の構文解析の段階で係り受け解析をしようとしています。 係り受け解析の方法として、ShiftReduce法を使っています。 必死にネットに載っている情報を元に実装したのですが、ShiftReduce法を用いた係り受け解析で入力値として何を与えてあげればいいのかよくわかっていません。 全体の処理の流れは 1. 文章を入

    • 0評価
    • 602PV
    yujiro_t yujiro_t 1年以上前
  • 解決済

    回答
    1

    word2vecの商用利用について

    word2vec(http://code.google.com/p/word2vec/) のDisclaimerのところを見ると「This open source project is NOT a Google product, and is released for research purposes only. 」と書いてありますが、これは商用利用禁止と

    • 0評価
    • 967PV
    KenjiOkada KenjiOkada 1年以上前
  • 解決済

    回答
    1

    別プロセスで常駐させた方が良さそうな重い読み込み処理

    このページの後半のプログラムを利用したちょっとしたサービスを開発しています。 このページの解説にも「TSTの構築にちょっと時間かかるけど」とある通り、この大きなファイル(単語リスト)の読み込み(及びTSTの構築)が非常に重く、そしてほとんどの時間がかかります。 そこでTSTの読み込みを別プロセスで行い、デーモンのように常駐させると良いのではないかと思い至りま

    • 0評価
    • 724PV
    KenjiOkada KenjiOkada 1年以上前

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    33

  • 総質問数

    16

  • 今週の質問数

    0

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る