質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

2回答

311閲覧

[Errno 2] No such file or directory: '/content/Japanese.txt' の対処方法

otetsu04310431

総合スコア8

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

1グッド

0クリップ

投稿2024/10/07 05:45

#stopwordsの指定 !wget http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt with open("/content/Japanese.txt","r") as f: stopwords = f.read().split("\n") #Neologdによるトーカナイザー(リストで返す関数・名詞のみ) def mecab_tokenizer(text): replaced_text = text.lower() replaced_text = re.sub(r'[【】]', ' ', replaced_text) # 【】の除去 replaced_text = re.sub(r'[()()]', ' ', replaced_text) # ()の除去 replaced_text = re.sub(r'[[]\[\]]', ' ', replaced_text) # []の除去 replaced_text = re.sub(r'[@@]\w+', '', replaced_text) # メンションの除去 replaced_text = re.sub(r'\d+\.*\d*', '', replaced_text) #数字を0にする path = "-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd" mecab = MeCab.Tagger(path) parsed_lines = mecab.parse(replaced_text).split("\n")[:-2] # #表層形を取得 # surfaces = [l.split('\t')[0] for l in parsed_lines] #原形を取得 token_list = [l.split("\t")[1].split(",")[6] for l in parsed_lines] #品詞を取得 pos = [l.split('\t')[1].split(",")[0] for l in parsed_lines] # 名詞,動詞,形容詞のみに絞り込み target_pos = ["名詞"] token_list = [t for t, p in zip(token_list, pos) if p in target_pos] # stopwordsの除去 token_list = [t for t in token_list if t not in stopwords] # ひらがなのみの単語を除く kana_re = re.compile("^[ぁ-ゖ]+$") token_list = [t for t in token_list if not kana_re.match(t)] return token_list #df全体に対してmecab_tokenizerを適用し、形態素解析を行なったリストを返す関数 def make_docs(df,column_number): docs=[] for i in range(len(df)): text = df.iloc[i,column_number] docs.append(mecab_tokenizer(text)) return docs #形態素解析の実行 docs_keiei_2203_lda = make_docs(df,2) コード

上記のようなコードを記述すると
[Errno 2] No such file or directory: '/content/Japanese.txt'
のエラーが出ます。対処方法を教えていただきたいです。

melian👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otetsu04310431

2024/10/08 15:37 編集

回答ありがとうございます。 試してみます!
melian

2024/10/08 15:41 編集

curl コマンドがインストールされているかもしれませんので、以下を試してみてください。 !curl --output - https://web.archive.org/web/20230315222712if_/http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt > /content/Japanese.txt curl コマンドもインストールされていない場合は、ブラウザで上記の URL にアクセスして内容をローカルファイルにコピペした後、アップロードしてください。
otetsu04310431

2024/10/10 06:51

コメントありがとうございます。試したところ問題が解決しました! ベストアンサーに選びたいので同じ内容を回答欄に投稿いただけますでしょうか?
guest

回答2

0

ベストアンサー

当該のファイル(Japanese.txt)は Internet Archive に残っていますので、curl コマンドでダウンロードしてください。
※ 圧縮されたままの状態でファイルが送信されることがありますので、curl コマンドに --compressed オプションを付けています

!curl --compressed --output Japanese.txt https://web.archive.org/web/20230315222712if_/http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt

投稿2024/10/10 07:18

melian

総合スコア20574

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

サーバ svn.sourceforge.jp が応答を返さないため、ダウンロードが完了せずファイルが作られていない、というだけの話だと思います

投稿2024/10/07 06:19

quickquip

総合スコア11202

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otetsu04310431

2024/10/07 06:29

回答ありがとうございます。 では、どのようにコードを変更すればよろしいのでしょうか。
quickquip

2024/10/07 06:50 編集

なにがしたくてコードを書いたのか? どうやってあなたがこのコードを書けたのか? がまったく説明されてないのでそんなことを聴かれても困ります stopwordsに関する処理を全部削除するとか? ですか?
quickquip

2024/10/07 06:52

私がやりたいことを説明する気はないですが、私がなにをしたらいいのか教えてください、と言いたいのか???
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問