自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

RSS

  • 解決済

    回答
    1

    TensorFlowでの訓練データについて(自然言語処理)

    Neural networkで何か作ってみたいと思い、チュートリアルを参考にして、自分で実装しようと思いました。 チュートリアルと同じことをやっても嫌だなと思ったので固有抽出表現というラベル付けの識別を自分で実装しています。チュートリアルと変わることは、入力するデータ型とくらいです。 チュートリアルでは入力は手書き文字の28x28の画像ベクトルでした

    • 0評価
    • 49PV
    hiroto0227 hiroto0227 1日前
  • 解決済

    回答
    1

    スクレイピングで除外すべきタグについて

    現在テキスト分類器を作成しており、その際に疑問に思ったことについて質問したいと思います。 取得した文書を単語ごとにパースする際に、「var」「function」などのワードが多数含まれていることに気が付きました。この原因は、scriptタグの中身もパースためでした。 ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。 このこと

    • 0評価
    • 121PV
    sido_mura sido_mura 2ヶ月前
  • 解決済

    回答
    1

    ナイーブベイズを使ったテキスト分類について

    現在ナイーブベイズを用いたテキスト分類器を作成しています。その時に疑問に思ったことについてお聞きしたいと思います。 ナイーブベイズを用いたテキスト分類では、ドキュメントがカテゴリに分類される確率を、カテゴリをc、ドキュメンをdとすると、 P[c|d] = P[c]P[d|c]し、ドキュメントをBoWとして、ドキュメントに含まれる用語をtiとすると、P[d|

    • 0評価
    • 105PV
    sido_mura sido_mura 2ヶ月前
  • 受付中

    回答
    0

    word2vecの精度について

    word2vecの演算結果について適当な言葉と類似度比較をするとほとんどすべての語が類似度0.8〜0.9に属してしまいます。 学習データは分かち書きをした200文程度の文章で合計語彙は5000〜10000語、設定は text8corpusで読み込んだのち size=300〜500 もしくは5000程度で試しましたが結果は変わりませんでした。また実行のたび

    • 0評価
    • 261PV
    kkkmokotan kkkmokotan 6ヶ月前
  • 受付中

    回答
    0

    gensimのimportエラーとsix.pyのバージョンアップ

    前提・実現したいこと pythonでgensimを使い関連語抽出と単語分類をしようとしています。 なので、まずgensimを使えるようとしているのですが「import gensim」ができません。 おそらくsix.pyのバージョンが古いままであることが原因であると思われるのですが、何時間経ってもエラーが消えません 発生している問題・エラーメッセー

    • 0評価
    • 458PV
    kikori05 kikori05 8ヶ月前
  • 解決済

    回答
    1

    【python】ターミナル上で出力する文字列が符号化される

    はじめまして,自然言語処理の初心者です. http://www.cl.ecei.tohoku.ac.jp/nlp100/#sec00 現在,↑のサイトの2つ目の課題を行っているところです. 「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ. という課題です. 困っていること プログラムをターミナル

    • 0評価
    • 229PV
    meg-teratail meg-teratail 8ヶ月前
  • 解決済

    回答
    1

    word2vecのエラーについて

    こちらを参考にpythonでword2vecを用いて読み込んだ文字列に対して類似性のある単語をしゅつりょくするプログラムを書きました。 しかし以下のようなエラーが出ます 多分そのような語彙が見つかっていないというエラーだと思いますが教師データに用いているファイルには確かに存在するのです。 参考にしたサイトでもちゃんと出力できているのに私の環境ではできな

    • 0評価
    • 406PV
    rerere0507 rerere0507 8ヶ月前
  • 解決済

    回答
    1

    mecabの文字化けについて

    こちらのサイトを参考にしてMecabを使った自然言語を品詞に分解する処理をC++で記述しました. しかし出力が文字化けしてしまいます. 環境としてCentOS 6.7とMacOS EL Capitan で確認しましたがどちらも文字化けしました.辞書はjumandicを使っています 文字化けするだけでなく品詞分解もおかしい結果が出力されています. ちな

    • 0評価
    • 255PV
    rerere0507 rerere0507 9ヶ月前
  • 解決済

    回答
    2

    ツイートを集めてデータセットを利用したい

    Twitterのツイートをデータセットとして収集し利用したいです. 目的としてはツイートを自然言語解析をすることにより機械学習のプログラムの参考にしたいです. 自動でTwitter のツイートを大量に取得し保存する方法(もしくはこのようなデータを提供しているサイト)の情報を教えていただきたく思います.宜しくお願い致します.

    • 0評価
    • 416PV
    toma_kazusa 退会済みユーザー 10ヶ月前
  • 解決済

    回答
    1

    Apache Spark MLlib (Scala) による主成分分析

    Apache Spark MLlib (Scala)に関して質問させて下さい。 質問 Spark MLlibで主成分分析をしたいのですが、RDD[(String, String, Double)]をRowMatrixに変換するにはどうすれば良いでしょうか? 下記の、データ変換のイメージをご参照いただき、そもそもやりたいことに対して、アプローチが

    • 1評価
    • 442PV
    Masaaki_Inaba Masaaki_Inaba 10ヶ月前
  • 受付中

    回答
    1

    Circle CIでJumanで文字化け

    実現したいことJavaのCIをCircle CIで行おうとしております。 形態素解析器のJumanを使うので、そこをテストしたいと考えております。 出来ることならjavaのコードは変えずにテストを通したいです。 現状circle.ymlmachine: environment: LANG: ja_JP.UTF-8 java: ver

    • 0評価
    • 474PV
    yu1ro yu1ro 1年以上前
  • 解決済

    回答
    1

    自然言語処理

    pythonのライブラリで自然言語処理に役立つものを教えてください。 今知っているのはmecabとcabochaくらいです。

    • 1評価
    • 433PV
    yeah yeah 1年以上前
  • 解決済

    回答
    1

    ブログ記事から重要な複数の単語のみ抽出する方法

    ブログ記事の内容を形態素解析して、重要な単語のみタグとして抽出しようとしているのですが、 形態素解析するだけだと、重要じゃない単語までタグとして認識されてしまいます。 どのようにしたら重要な単語のみ抽出できるのでしょうか。 おしえていただければ幸いです。 使用言語はphp、もしくはjavascriptです。 どうぞよろしくお願い申し上げます。

    • 0評価
    • 423PV
    carotene4035 carotene4035 1年以上前
  • 受付中

    回答
    2

    英語の読みをカタカナか発音記号に変換できますか?

    openjtalkを利用して「All」を「オール」と読ませたいのですが、1字ずつ読み上げてしまいます。 質問は3点です。 1.「English to katakana converter」のようなライブラリは、オープンソースで公開されていますか? 2.英単語「All」から発音記号「ɔːl」を得る方法はありますか? 3.発音記号の情報がある、英和辞書データを

    • 0評価
    • 1017PV
    horse_n_deer horse_n_deer 1年以上前
  • 受付中

    回答
    0

    形態素解析する際に、否定語を認識させたい。

    以下のような2文があったとします。 1)「あのラーメンはとても美味しかった。」 2) 「あのラーメンは美味しくなかった。」 単純にmecabで形態素解析するとどちらも「美味しい」「美味しく」といった「美味しい」というワードが抽出されてしまいます。 勿論、(2)では、その後に、否定後である「ない」というのがあるため、 そこまで含めて認識させれば、「美味

    • 0評価
    • 605PV
    cDm_48 cDm_48 1年以上前
  • 解決済

    回答
    2

    Python 2.7に64bit版でgensimを入れたと思うのですが、なぜか「有効な Win32 ...

    環境としては、Windows 8.1 64bitです。Python 2.7を使用しています。 まずは実行した手順を書きます。 最初にsetuptools,pip,wheelをインストールしました。 numpyやscipyには公式の64bit版のものがないということなので、 ここ(Unofficial Windows Binaries for Python

    • 0評価
    • 2732PV
    Browniet Browniet 1年以上前
  • 受付中

    回答
    1

    自然言語処理 日本語の係り受け解析の入力値について

    卒業制作の課題でScalaを使って日本語の構文解析の段階で係り受け解析をしようとしています。 係り受け解析の方法として、ShiftReduce法を使っています。 必死にネットに載っている情報を元に実装したのですが、ShiftReduce法を用いた係り受け解析で入力値として何を与えてあげればいいのかよくわかっていません。 全体の処理の流れは 1. 文章を入

    • 0評価
    • 740PV
    yujiro_t yujiro_t 1年以上前
  • 解決済

    回答
    1

    word2vecの商用利用について

    word2vec(http://code.google.com/p/word2vec/) のDisclaimerのところを見ると「This open source project is NOT a Google product, and is released for research purposes only. 」と書いてありますが、これは商用利用禁止と

    • 0評価
    • 1160PV
    KenjiOkada KenjiOkada 1年以上前
  • 解決済

    回答
    1

    別プロセスで常駐させた方が良さそうな重い読み込み処理

    このページの後半のプログラムを利用したちょっとしたサービスを開発しています。 このページの解説にも「TSTの構築にちょっと時間かかるけど」とある通り、この大きなファイル(単語リスト)の読み込み(及びTSTの構築)が非常に重く、そしてほとんどの時間がかかります。 そこでTSTの読み込みを別プロセスで行い、デーモンのように常駐させると良いのではないかと思い至りま

    • 0評価
    • 879PV
    KenjiOkada KenjiOkada 1年以上前
  • 1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    37

  • 総質問数

    19

  • 今週の質問数

    1

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る