自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

RSS

  • 受付中

    回答
    1

    tweepyでbotを排除して、tweetを取得したい。

    tweepyでtweetを大量に取得しています。その中にbotが含まれています。これを排除したいです。-botや-source:twittbot.netは試しましたが、それでもbotのtweetが紛れ込んできます。強力にbotを排除する方法を教えてください。 tweet = api.search(q = 'あいうえお -bot -source:twitt

    • -2評価
    • 56PV
    rtok rtok 2日前に 回答を編集
  • 受付中

    回答
    0

    tweepyで取得するtweetの定型文・テンプレート文を排除したい。

    tweepyでtweetを大量に取得しています。しかし、その中に定型文やテンプレート文のように似た形式のtweetが多数含まれます。これを排除したいです。tweepyでtweetを取得する際にフィルターを掛け排除するか、tweetを取得した後に排除するかは、どちらでもかまいません。分かる方教えてください。

    • -1評価
    • 26PV
    teratailが2日前に アップデート
  • 解決済

    回答
    1

    PythonでCaboChaを使い、文節(chunk)を抽出したい。

    PythonでCaboChaを使い、文節(chunk)を抽出したいです。tokenは抽出することができるのですが、文節(chunk)の抽出の仕方が分かりません。tokenとtokenを合体させて文節(chunk)とすることしかできないのでしょうか? #!/usr/bin/python # -*- coding: utf-8 -*- import Cabo

    • 0評価
    • 43PV
    narinko narinko 2日前に 回答
  • 解決済

    回答
    1

    係り受け解析ツールCaboChaのPythonによるリファレンスが見つからない

    タイトルの通り、係り受け解析ツールCaboChaのPythonによるリファレンス、関数の使い方が載っているWebページが見つかりません。知っている方がいたら教えてください。

    • 0評価
    • 64PV
    ikedas ikedas 6日前に ベストアンサー
  • 解決済

    回答
    1

    pythonで対義語(反対語)を取得したい

    python上で類義語を取得したい時、「Wordnet」というものが扱われるようですが、対義語(反対語)を取得したい時は、どのようなツールがオススメですか?探してもなかなか見つかりません。 また、類義語に関しても「Wordnet」以外のものでオススメがあれば教えてください。 Weblio類語・対義語辞典がpython上で使えれば良いのですが…

    • 0評価
    • 99PV
    NCC1701 NCC1701 1週間前に ベストアンサー
  • 解決済

    回答
    2

    文書を数値化する方法

    文書を数値化する方法を探しています。 文書をベクトル化する方法はword2vecがあると思います。 ・文書がいくつか存在し、ある1つの方法でそれぞれの文書を数値化できる。 ・その数値はそれぞれの文書に固有の値である。 上記2つの条件を満たすような方法は考えられると思いますか? ちなみに数値化というのはスカラー量でということです。

    • 0評価
    • 82PV
    kenkennn kenkennn 1ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    テキスト分類のValueError: dimension mismatchの対処で困っています。。

    実現したいこと テキストデータ(仕事内容(20文字程度))をjanomeで形態素解析し、CountVectorizerで配列化し、sklearn.naive_bayes(MultinomialNB)で学習させ、仕事内容から仕事分類を予測したいです。 ※説明変数は仕事内容、目的変数は仕事分類、環境はpython3.6 困っていること 学習及び検証までは実施

    • 0評価
    • 130PV
    Ya.Tatsuro Ya.Tatsuro 1ヶ月前に コメント
  • 受付中

    回答
    1

    ニュース記事のDB構築

    私はYahoo!ニュースから様々な媒体のニュースをスクレイピングでテキストに保存して、テキストマイニングで分析をかけたいと考えていますが、そろそろ、記事がたまってきたのでデータベース化しようとしています。 データベースのカラム構成は次になります。 ・日時 ・時刻 ・媒体 ・見出し ・段落1 … ・最終段落 問題は段落の数がニュースの

    • 0評価
    • 170PV
    monolith_91 monolith_91 3ヶ月前に コメント
  • 解決済

    回答
    1

    pythonの文字コード系のエラーで困っています。

    前提・実現したいこと 自然言語処理のプログラムをpythonで書いています。エラーを消したいです。 発生している問題・エラーメッセージ エラーは文字コード関連です。ちなみにこのエラーは何度も実行しているとたまにエラーが出ないでプログラムが動くことがあります。 line 115, in tokenize yield node.surfa

    • 0評価
    • 310PV
    _Victorique__ _Victorique__ 5ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    tf-idfにおける文書(document)とは

    tf-idf法を使いたいのですが、idfにおける一文書の単位はどのくらいにすれば良いのでしょうか? ある単語のidf値を調べる場合、 idf = log(全文書数 / 単語が含まれる文書数) という式で求めるということになると思うのですが、ここでいう文書というのは、どのような単位で区切られているのかがわかりません。これの区切り方次第では文書数が変わって

    • 0評価
    • 187PV
    tetsutail tetsutail 5ヶ月前に コメント
  • 解決済

    回答
    2

    word2vecのエラーについて

    こちらを参考にpythonでword2vecを用いて読み込んだ文字列に対して類似性のある単語をしゅつりょくするプログラムを書きました。 しかし以下のようなエラーが出ます 多分そのような語彙が見つかっていないというエラーだと思いますが教師データに用いているファイルには確かに存在するのです。 参考にしたサイトでもちゃんと出力できているのに私の環境ではできな

    • 0評価
    • 849PV
    miyamoto0105 miyamoto0105 5ヶ月前に 回答
  • 解決済

    回答
    1

    TensorFlowでの訓練データについて(自然言語処理)

    Neural networkで何か作ってみたいと思い、チュートリアルを参考にして、自分で実装しようと思いました。 チュートリアルと同じことをやっても嫌だなと思ったので固有抽出表現というラベル付けの識別を自分で実装しています。チュートリアルと変わることは、入力するデータ型とくらいです。 チュートリアルでは入力は手書き文字の28x28の画像ベクトルでした

    • 0評価
    • 440PV
    hiroto0227 hiroto0227 5ヶ月前に コメント
  • 解決済

    回答
    1

    スクレイピングで除外すべきタグについて

    現在テキスト分類器を作成しており、その際に疑問に思ったことについて質問したいと思います。 取得した文書を単語ごとにパースする際に、「var」「function」などのワードが多数含まれていることに気が付きました。この原因は、scriptタグの中身もパースためでした。 ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。 このこと

    • 0評価
    • 348PV
    mukkun mukkun 7ヶ月前に コメント
  • 解決済

    回答
    1

    ナイーブベイズを使ったテキスト分類について

    現在ナイーブベイズを用いたテキスト分類器を作成しています。その時に疑問に思ったことについてお聞きしたいと思います。 ナイーブベイズを用いたテキスト分類では、ドキュメントがカテゴリに分類される確率を、カテゴリをc、ドキュメンをdとすると、 P[c|d] = P[c]P[d|c]し、ドキュメントをBoWとして、ドキュメントに含まれる用語をtiとすると、P[d|

    • 0評価
    • 259PV
    MasashiKimura MasashiKimura 8ヶ月前に コメント
  • 受付中

    回答
    0

    word2vecの精度について

    word2vecの演算結果について適当な言葉と類似度比較をするとほとんどすべての語が類似度0.8〜0.9に属してしまいます。 学習データは分かち書きをした200文程度の文章で合計語彙は5000〜10000語、設定は text8corpusで読み込んだのち size=300〜500 もしくは5000程度で試しましたが結果は変わりませんでした。また実行のたび

    • 0評価
    • 435PV
    kkkmokotan kkkmokotan 1年以上前に 質問を編集
  • 受付中

    回答
    0

    gensimのimportエラーとsix.pyのバージョンアップ

    前提・実現したいこと pythonでgensimを使い関連語抽出と単語分類をしようとしています。 なので、まずgensimを使えるようとしているのですが「import gensim」ができません。 おそらくsix.pyのバージョンが古いままであることが原因であると思われるのですが、何時間経ってもエラーが消えません 発生している問題・エラーメッセー

    • 0評価
    • 782PV
    teratailが1年以上前に アップデート
  • 解決済

    回答
    1

    【python】ターミナル上で出力する文字列が符号化される

    はじめまして,自然言語処理の初心者です. http://www.cl.ecei.tohoku.ac.jp/nlp100/#sec00 現在,↑のサイトの2つ目の課題を行っているところです. 「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ. という課題です. 困っていること プログラムをターミナル

    • 0評価
    • 367PV
    meg-teratail meg-teratail 1年以上前に コメント
  • 解決済

    回答
    1

    mecabの文字化けについて

    こちらのサイトを参考にしてMecabを使った自然言語を品詞に分解する処理をC++で記述しました. しかし出力が文字化けしてしまいます. 環境としてCentOS 6.7とMacOS EL Capitan で確認しましたがどちらも文字化けしました.辞書はjumandicを使っています 文字化けするだけでなく品詞分解もおかしい結果が出力されています. ちな

    • 0評価
    • 373PV
    rerere0507 rerere0507 1年以上前に 回答
  • 解決済

    回答
    2

    ツイートを集めてデータセットを利用したい

    Twitterのツイートをデータセットとして収集し利用したいです. 目的としてはツイートを自然言語解析をすることにより機械学習のプログラムの参考にしたいです. 自動でTwitter のツイートを大量に取得し保存する方法(もしくはこのようなデータを提供しているサイト)の情報を教えていただきたく思います.宜しくお願い致します.

    • 0評価
    • 730PV
    toma_kazusa 退会済みユーザー 1年以上前に ベストアンサー
  • 解決済

    回答
    1

    Apache Spark MLlib (Scala) による主成分分析

    Apache Spark MLlib (Scala)に関して質問させて下さい。 質問 Spark MLlibで主成分分析をしたいのですが、RDD[(String, String, Double)]をRowMatrixに変換するにはどうすれば良いでしょうか? 下記の、データ変換のイメージをご参照いただき、そもそもやりたいことに対して、アプローチが

    • 1評価
    • 617PV
    Masaaki_Inaba Masaaki_Inaba 1年以上前に ベストアンサー
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    53

  • 総質問数

    30

  • 今週の質問数

    3

関連するタグ

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る