質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

562閲覧

textファイルを記事毎に分割し,さらに記事中の名詞を抽出して二次元配列にする.

studyprg

総合スコア57

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2022/10/22 08:45

編集2022/10/27 21:07

前提

自然言語処理について勉強しています。
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
用意したテキストファイルから段落ごとに分割し表示したいです.

実現したいこと

  1. テキストファイルを読みこんでtextに格納

  2. textリストから記号などの削除(下図左)

  3. textを改行4つ(図だと三つになってますが四つです)でsplitして記事毎にhistory_protoに格納(下図右上)

  4. 記事の段落ごとにprotonに格納*1

  5. historyprotoの要素を一つずつ取り出して-Ochasenで名詞のみをhistoryに格納*2(下図右下)

  6. *1と*2を繰り返す

  7. historyを表示(段落ごとに分割し,さらに名詞で分割された二次元配列になる)

該当のソースコードと用意したテキストファイルの一部のイメージイメージ説明

※注図のhistory promoは誤字で正しくはhistory proto です。

pythonソースコード

1# -*- coding: utf-8 -*- 2from gensim.models import KeyedVectors 3import MeCab 4import gensim 5import pandas as pd 6import math 7import re 8print("モデルロード") 9# model_dir = 'entity_vector.model.txt' 10# model = KeyedVectors.load_word2vec_format(model_dir, binary=False) 11myfile = open('history_0text.txt') 12print("\n\nテキストを読み込みました\n\n") # history 13# 以下に抽出したい文textここをファイルを読み込むように変更 14# Gfile = open('') # ガイド文書 15 16htext = myfile.read() 17m = MeCab.Tagger("-Ochasen") 18mp = MeCab.Tagger() 19# m.parse("") 20print("処理開始") 21removeW = re.compile( 22 23 '[!"#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`{|}~「」〔〕“”〈〉, ,『』【】&*・()$#@。、?!`+¥% ]') 24text = removeW.sub('', htext) 25 26# text = re.sub(r"\n", "", text) # 一行づつ配列に入れる時に改行文字が混じったから消しとく 27text = re.sub(r'[a-zA-Z0-9]+', "", text) # 英数字をすべて消す 28text = text.replace("[]", "") # 脚注で無意味に混じった[]の削除 29text = text.replace("\s", "") 30# print(text) 31print("\n\ntext clean complite!\n\n邪魔者消します") 32historyproto = text.split('\n\n\n') 33historyproto = list(filter(None, historyproto)) 34print("記事毎に分割しました\n\nnext:空要素を削除\n\n") 35history = [] 36for x in range(len(historyproto)): 37 proton = [line.split()[0] for line in m.parse( 38 historyproto[x]).splitlines() if "名詞" in line.split()[-1]] 39 if len(proton) != 0: 40 history.append(proton) 41 42for i in range(len(history)): 43 print("記事",i+1,"こめの単語数は\t[", len(history[i]),"]\n") 44 print("\n", i+1, "ばんめの記事\n") 45 print(history[i]) 46 47 48exit

用意したテキストファイルは合計9記事分あります.

###実行結果でおかしいところ
一つめの記事の1部分がなぜか別の記事扱いになってます.

cmd

1['村上', '隆', 'ゴルファー', '村上', '隆', '青木', '功', '尾崎', '将司', '青木', '功'] 2記事 3 の単語数は [ 2 ] 3 4 5
### 現在起きている問題 おそらく区切りがうまくできておらず,記事が余計に分割されている状態です. ### 補足情報(FW/ツールのバージョンなど) MacBookPro(2017)macos:11.6.7 usage: /System/Library/Frameworks/**Python.framework/Versions/2.7**/Resources/Python.app/Contents/MacOS/Python [option] ... [-c cmd | -m mod | file | -] [arg] ... Try `python -h' for more information.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2022/10/22 09:11

ここ↓ですが、変数 line を使用していませんね。 proton = [''.join(x).split()[0] for line in m.parse(text).splitlines()]
studyprg

2022/10/22 09:57

使ってないんですかね? 分割じたいはできてるようにおもえますが…
退会済みユーザー

退会済みユーザー

2022/10/22 12:06

分割はできていてもlinelは未使用ですね 理由としてはforの前の箇所にlineってありませんよね? 行に分割できても、↓の処理はxが変わらないので毎回同じ結果ってことです ''.join(x).split()[0]
studyprg

2022/10/22 13:46

それではどうしたらいいのでしょうか?
jbpb0

2022/10/26 07:48 編集

質問に記載の「用意したテキストファイルの一部を表示します.」をそのまま使って、 > print("空要素を削除") のすぐ上に print(len(historyproto)) を追加して実行したら、historyprotoの要素数は一つでした > 番号リスト段落ごとにhistoryprotoに格納*1(下図右上) とはなってないようです 【追記】 print(len(historyproto[0])) を追加して実行したら、historyproto[0]の要素数は20ありました historyproto = [text.split('\n\n\n')] で二重のリストにしてるのに気付きませんでした 失礼しました
studyprg

2022/10/26 07:58

なるほど。 それでどうしたらいいのでしょうか?
jbpb0

2022/10/26 14:04 編集

「historyproto」が二重のリストにならないように下記を変更 historyproto = [text.split('\n\n\n')] ↓ 変更 historyproto = text.split('\n\n\n') 最後のforループ内を下記のように変更 (インデントは正しく入れてください) proton = [''.join(x).split()[0] for line in m.parse(text).splitlines()] for y in proton: history.append(y) ↓ 変更 proton = x.split() if len(proton) != 0: history.append(proton) そうすれば、「history」は二次元のリストになりますけど、意図に合ってますでしょうか? 【追記】 コードの最後に下記を追加して実行したら、「history」の各行の要素数と要素が分かります (forループ内のインデントは正しく入れてください) print("history") print(len(history)) print(history) print("history2") for i in range(len(history)): print(len(history[i])) print(history[i])
studyprg

2022/10/26 08:27

言ってる内容的には僕のやりたいことと一致してるので大丈夫だと思います。 とりあえず今から動かして確認してみます。
studyprg

2022/10/26 09:35

動かした感じきちんと段落で分割できているようですが,想定していた単語と出力された単語の長さが違いますね.Ochasenで名刺だけを取り出したいんです.
jbpb0

2022/10/26 14:05 編集

> Ochasenで名刺だけを取り出したい 最後のforループ内を下記のように変更 (インデントは正しく入れてください) proton = [''.join(x).split()[0] for line in m.parse(text).splitlines()] for y in proton: history.append(y) ↓ 変更 proton = [line.split()[0] for line in m.parse(x).splitlines() if "名詞" in line.split()[-1]] if len(proton) != 0: history.append(proton) 参考 https://note.com/junmaeda/n/n39b8b286da13 もう一つの変更も要ります (「historyproto」が二重のリストにならないようにするやつ)
studyprg

2022/10/26 11:56

先程の質問を反映して実行しました. 実行結果 daru@tkhrnoMacBook-Pro kennkyu % /usr/local/bin/python3 /U sers/daru/python/kennkyu/jillenexact.py モデルロード 処理開始 text clean complite! 邪魔者消します 空要素を削除 [['日本', '漫画', '家', '静岡', '県', '出身', '人物', '年生', '存命', '人物']] history 1 [['日本', '漫画', '家', '静岡', '県', '出身', '人物', '年生', '存命', '人物']] history2 10 0 ばんめの記事 ['日本', '漫画', '家', '静岡', '県', '出身', '人物', '年生', '存命', '人物'] 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 で今のものにする前の結果の末尾部分です. 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ['検索対象日淳', '日淳日淳', '日淳', '日淳にちじゅん年月日年月日は大石寺第世法主堀米姓', '略歴', '年明治年月日長野県伊那市で誕生', '年明治年伊那市信盛寺伊那市信盛寺の当時の住職岡田道篤のもとへ得度し諦栄と名乗ったがのちに大石寺第世日正に師僧変更し道号を泰栄たいえいと改名', '年大正年月には応顕寺神奈川教会所担任教師に同年月に大石寺百貫坊住職となりその後京都住本寺住職取り扱い東京中野教会後の昭倫寺主管信盛寺住職兼任東京常泉寺墨田区常泉寺住職を歴任', '常泉寺住職時代には牧口常三郎戸田城聖の指導教師として草創期の創価教育学会現創価学会を教学面で指導', '年昭和年月宗務院執事', '年昭和年月宗務院庶務部長のちに教学部長を兼任', '年昭和年月布教監', '年昭和年総監に就任', '年昭和年月能化に昇進し信乗院日淳と名乗る', '年昭和年月学頭職に補任同年月日に世日昇から血脈相承を受け登座', '年昭和年月冨士大石寺顕正会妙信講に対し異例の認証式を行い弟弟子であった護法山顕正寺松本日仁松本日仁を妙信講の指導教師に任命する', '年昭和年月大講堂大石寺大講堂を創価学会寄進により建立', '年昭和年月日世日達に法を付嘱した翌日早朝時分歳で遷化死去した', '日淳は日に死期を悟ったが日は日蓮大聖人の誕生日に当たる日であるため今日死ぬのは日蓮大聖人に対し奉り恐れ多いので明日死のうと決意したと言われる', '子息が在家の身であるため遷化の後遺族は東京品川区の妙光寺品川区妙光寺の所属となった', '在位中には大石寺表塔中宿坊を再建新築した', '先代次代上人大石寺住職一覧第世日昇上人日達上人', 'にちしゆん', '日蓮正宗の僧', '創価教育学会の人物', '長野県出身の人物', '年生', '年没'] 18 ['検索対象井原裕士', '井原裕士井原裕士', '井原裕士', '漫画', '井原裕士いはらゆうじ本名・井原裕子年月日は静岡県伊東市出身の漫画家静岡大学卒業女性', '略歴', '月刊コミック学研ホールディングス学習研究社年月号に掲載の短編勅命王子様を守れでデビューその後同誌年月号より雪乃すくらんぶるで初連載し続けて魔界の門を連載するが雑誌休刊のため未完となった', '年から月刊コミック電撃大王にて年月号年月号超常機動サイレーン年月号年月号を連載なお完結後もワンダーフェスティバル開催に合わせてレポート風の番外編ぱられるが掲載されている', '同人活動も行っておりコミックマーケットにはサークル参加者として井原裕士ホームページに掲載されている情報よりワンダーフェスティバルにはディーラーとしても参加している月刊コミック電撃大王年号数忘却掲載のぱられるに同時掲載されたワンダーフェスティバルエスカレーター事故レポート漫画での記述より', '作品リスト', '雪乃すくらんぶる', '魔界の門未完', '綾音ちゃんハイキック未完', 'おじゃる丸おじゃる丸約束の夏映画版のコミカライズ', '超常機動サイレーン', '武装神姫武装神姫', '貞子となりの貞子ちゃん', '脚注'] 2 ['外部リンク', 'ぱらさいと〜井原裕士の小部屋〜'] 5 ['いはらゆうし', '日本の漫画家', '静岡県出身の人物', '年生', '存命人物'] 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 このように記事をちゃんと二次元配列の一つの行で格納できているところとできてないところがありました.
studyprg

2022/10/26 11:58

テキストファイルには9記事分入れているのでhistory[i][]のiは0〜9までが理想の出力のはずです.
studyprg

2022/10/26 12:06

用意したテキストファイルの改行を一部修正し,再実行した結果,判ったことがあります. 先程の一つめの実行結果は2つめの実行結果の最後の記事の頭の部分でした. ループで問題が発生してるっぽいですね.
studyprg

2022/10/26 12:12

今のソースものっけておきます. ================ import MeCab import gensim import pandas as pd import math import re print("モデルロード") # model_dir = 'entity_vector.model.txt' # model = KeyedVectors.load_word2vec_format(model_dir, binary=False) myfile = open('history_0text.txt') # history # 以下に抽出したい文textここをファイルを読み込むように変更 # Gfile = open('') # ガイド文書 htext = myfile.read() m = MeCab.Tagger("-Ochasen") mp = MeCab.Tagger() # m.parse("") print("処理開始") removeW = re.compile( '[!"#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`{|}~「」〔〕“”〈〉, ,『』【】&*・()$#@。、?!`+¥% ]') text = removeW.sub('', htext) # text = re.sub(r"\n", "", text) # 一行づつ配列に入れる時に改行文字が混じったから消しとく text = re.sub(r'[a-zA-Z0-9]+', "", text) # 英数字をすべて消す text = text.replace("[]", "") # 脚注で無意味に混じった[]の削除 text = text.replace("\s", "") # print(text) print("\n\ntext clean complite!\n\n邪魔者消します") historyproto = text.split('\n\n\n') historyproto = list(filter(None, historyproto)) print("空要素を削除") proton = [] history = [] for x in range(len(historyproto)): proton = [line.split()[0] for line in m.parse(historyproto[x]).splitlines() if "名詞" in line.split()[-1]] print(x) history[x].append(proton) print(history) print("history") print(len(history)) print(history) print("history2") for i in range(len(history)): print(len(history[i])) print("\n",i+1,"ばんめの記事\n") print(history[i]) exit ========= で今の実行結果です. 〜〜〜〜〜〜〜〜〜〜〜 モデルロード 処理開始 text clean complite! 邪魔者消します 空要素を削除 0 Traceback (most recent call last): File "/Users/*/python/*/*****.py", line 39, in <module> history[x].append(proton) IndexError: list index out of range 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
jbpb0

2022/10/26 14:09 編集

質問に記載してないデータでうまくいかないとか言われても、他人にはどうしようもありません
studyprg

2022/10/27 05:12

回答で実行した結果です. Traceback (most recent call last): File "/Users/**/**/**/***.py", line 36, in <module> proton = [line.split()[0] for line in m.parse(x).splitlines() if "名詞" in line.split()[-1]] File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/MeCab.py", line 293, in parse return _MeCab.Tagger_parse(self, *args) TypeError: in method 'Tagger_parse', argument 2 of type 'char const *' Additional information: Wrong number or type of arguments for overloaded function 'Tagger_parse'. Possible C/C++ prototypes are: MeCab::Tagger::parse(MeCab::Model const &,MeCab::Lattice *) MeCab::Tagger::parse(MeCab::Lattice *) const MeCab::Tagger::parse(char const *)
studyprg

2022/10/27 05:34

修正したhistory_0textの一部を貼っておきます. ========= 日本ゴルフツアー機構 {{基礎情報 非営利団体 |名称=日本ゴルフツアー機構&lt;br /&gt;''Japan Golf Tour Organization'' |ロゴ= |創立者= |団体種類=[[社団法人|一般社団法人]] |設立=[[2005年]][[7月28日]] |所在地= |起源= |主要人物=会長 [[海老沢勝二]] |活動地域={{JPN}} |製品= |主眼= |活動内容=プロ[[ゴルフ]]ツアーの主催 |活動手段= |収入= |基本財産= |ボランティア人数= |従業員数= |会員数= |子団体= |標語= |ウェブサイト= http://www.jgto.org/ |解散= |特記事項= }} '''一般社団法人日本ゴルフツアー機構'''(にっほんゴルフツアーきこう、JGTO;''Japan Golf Tour Organization'')とは、[[1999年]]度から[[日本]]のプロ[[ゴルフ]]ツアーの試合について主催・主管を行っている組織である。 == 概要 == シーズンは4月の「[[東建ホームメイトカップ]]」が新年度の最初の試合となり、12月まで25前後の試合を開催している。基本的には1大会4日間競技で開催している。なお、一部の大会では当ツアーと[[ワンアジアツアー]]が共同で主催する国外での大会があり、[[2014年]](2試合。&lt;ref&gt;日本開催・[[アジアンツアー]]共催の「ダイヤモンドカップ」を含むと3試合&lt;/ref&gt;)の実質的な当ツアーの[[開幕戦]]は「インドネシアPGA選手権」である&lt;ref&gt;[http://www.jgto.org/pc/OtherTopicsDetail.do?year=2014&amp;tournaKbnCd=0&amp;conferenceCd=000&amp;languageKbn=0&amp;administerNo=944 いよいよ2014年の初戦、インドネシアPGA選手権](日本ゴルフツアー機構。当初は[[タイランドオープン]]が実質的な開幕戦の予定だったが、[[タイ王国]]の政治的な内紛が起こっているという事情により延期となった)&lt;/ref&gt;。 なお、当初3年間([[2001年]]まで)は[[パーソナルコンピュータ|パソコン]][[ディスプレイ (コンピュータ)|ディスプレイ]]メーカーの[[iiyama|イーヤマ]]が特別協賛スポンサーとなっていた関係で「イーヤマツアー」と冠されていた。現在はツアーそのものの冠はノースポンサーである。 ツアー開始当初は[[権利能力なき社団|任意団体]]だったが、[[2005年]]に社団法人化([[文部科学省]]所管)。[[2013年]]1月に[[社団法人|一般社団法人]]に移行した&lt;ref&gt;[http://jgto.org/jgto/WO02070200Init.do?year=2013&amp;tournaKbnCd=0&amp;conferenceCd=000&amp;languageKbn=0&amp;topicsType=2&amp;administerNo=995 一般社団法人日本ゴルフツアー機構 会長 海老沢勝二より新年のご挨拶] - 日本ゴルフツアー機構・2013年1月4日&lt;/ref&gt;。 == シード枠・ツアー出場できる優先順位 == # [[永久シード (プロゴルフ)|永久シード]]所持者 # 過去5年間のツアー賞金ランキング1位の者 # メジャータイトル優勝者に対する1大会につき5年間のシード枠 #* 対象試合:[[日本プロゴルフ選手権大会]]、[[日本ゴルフツアー選手権]]、[[日本オープンゴルフ選手権競技]] ※過去には[[PGAフィランソロピートーナメント]]もメジャーと位置づけられたことがあった # 前々年度までの、WGC/ワールドカップ日本代表 # [[1973年]]ツアー制度施行後、ツアー競技で25勝以上挙げた者(永久シード) # 前年度までの、ダイナスティーカップ日本代表 # [[ゴルフ日本シリーズ]]、[[日本プロゴルフマッチプレー選手権|日本マッチプレー]]の過去5年間の優勝者 # 過去2年間のツアートーナメントの優勝者(規定試合数に出場している者) # 過去2年間の本ツアートーナメントの優勝者 # 前年度の当該ツアートーナメントで、成績上位10位以内の者 # 直近ツアートーナメント(基本的には、前週のツアートーナメント)で、上位5位以内の者 # JGTO会長が推薦する者 # 前年度ツアー賞金ランキング70位以内の者(規定試合数に出場している者) # 特別保障制度適用者 # ツアートーナメント複数競技優勝者(年間2勝した者はその年と翌年から3年間、年間3勝した者はその年と翌年から4年間 規定試合数に出場している者) # 1973年ツアー制度施行後、通算賞金獲得ランキング25位以内の選手(前年度末時点) # 前年度アジアンツアー賞金ランキング1位の者 # JGTOが指定するチャレンジトーナメント優勝者(JGTOが指定するツアートーナメントに出場できる) # 前年度チャレンジトーナメント賞金ランキング上位5位以内の者(当該年度第1回リランキングまで出場可能) # 前年度第2回リランキング後のクオリファイングトーナメント(QT)上位者 # 主催者の推薦のある者 == プロ選手の資格を得るには == * [[1998年]]までは[[日本プロゴルフ協会]](JPGA)のプロテストに合格しないとツアー競技の正式メンバー(「トーナメント・プレイヤー」)とはなれなかった(当機構が誕生した1999年以後も[[日本プロゴルフ協会#資格認定審査(プロテスト)|「JPGA認定ツアープロテスト」]]として現存している)。 * 1999年以降は[[クオリファイングトーナメント]](以下「QT」)といわれる予選会に出場し一定の成績を挙げればJPGAのプロ資格がなくても事実上のプロ選手として出場できる権利が与えられる。 ** 参加者は事前の申し込み(過去のQT参加者や各種ゴルフ競技団体の推薦者などに資格あり)をしてから、7月から8月にかけてのファーストQT(1次予選:3ラウンド54ホールズ)からスタート。これは全国各地で開催され、各会場につき100人程度出場し上位選手(出場選手総数によって勝ち抜き者数が異なる)がセカンドQT(2次予選)に進む。 ** セカンドQTはファーストQTの勝ち抜き選手に加え過去のサードQT(3次予選)までの出場者、海外のプロツアーで活躍する選手で日本ツアーの出場資格を持っていない選手など総数1400人程度、1会場あたり110人程度が出場し9~10月に4ラウンド72ホールズで競技を行い上位選手(選出方法は前述と同じ)がサードQTに進出する。この時点で合格した選手には最大5試合の主催推薦枠出場権利が与えられる。 ** サードQTはセカンドQTの勝ち抜き選手、前年度のファイナルQT(最終予選)出場者、直近5年間のツアー競技優勝者、賞金シードを1年以上保有したことがある選手、その他オーストラリア、南アフリカ、アジアの各ツアーで賞金ランキング上位に入っている選手(ファイナルQTシード保有者は除く)で出場意思のある者、チャレンジツアーの前年度賞金上位者で当該年度の前半戦シード(いわゆるリランキング)の上位選手ら総数600人程度、1会場あたり100人程度が出場する。 ** サードQTもセカンドと同じく4ラウンド72ホールズで、成績上位選手(選出方法は前述と同じ)がファイナルQTの出場資格を獲得できる。 ** ファイナルQTはサードQTの勝ち抜き選手、本年度の賞金ランキングによるシードから脱落した選手(シード落ち)、チャレンジ競技の上位選手の中から1年間シード獲得者以外の翌年度の前半戦シード(リランキング)を得ている選手、その他海外ツアーの賞金ランキングで上位に入っており出場の意思がある選手など200人前後が出場し予選4ラウンド、決勝2ラウンドの6ラウンド108ホールズで争う。 ** 予選は4ラウンド72ホールズで行い、上位90位タイまでの選手が決勝にコマを進める。 ** 決勝は2ラウンド36ホールズで、その成績に応じて出場できる試合が確定する。上位選手は概ねほぼ全試合に出場できる。 * 例外として、アマチュアのままツアーで優勝すれば、プロ宣言を行うとQT免除となる(例:[[石川遼]]、[[松山英樹]])。 === 出場できる試合数 === 2012年度の実績において、QTトーナメントで優勝からベストテン以内は同年のツアー大会21試合中18試合、11-20位だと13試合というように上位に行くほど出場できる試合数が増え、40位以下だと自動出場できる試合はなく、マンデートーナメントや、大会主催推薦などに頼らないといけない。 一方チャレンジトーナメントだと、上位130位までならば同年の12試合中9試合、131-140位でも8試合と、こちらも上位にいくほど出場できる試合数が増えるが、ツアー大会に比べると、ほぼ全試合自動出場できる選手の数が多めである。 ただしこれはあくまでも目安で、シーズンの途中でその年の賞金ランキングなどを反映したリランキングをすることがあるため若干の変動がある&lt;ref&gt;[http://www.jgto-qt.jp/about_qt.html 日本ゴルフツアー「クオリファイングトーナメントとは」]&lt;/ref&gt;。 == 歴代賞金王 == 1973年のツアー制度以降後の歴代の賞金王は以下の通りである。なお賞金額は[[ゴルフ#メジャートーナメント|海外メジャー]]で獲得した賞金額を加算したもので、2009年以前はチーム戦を除く[[世界ゴルフ選手権]]の獲得賞金額を含む&lt;ref&gt;{{Cite web|url=http://www.jgto.org/jgto/WO03010100Init.do?year=2011&amp;tournaKbnCd=0 |title=賞金ランキング(海外メジャー含む)|publisher=日本ゴルフツアー機構 |accessdate=2012-12-2}}&lt;/ref&gt;。 {| class=wikitable !年 !! 氏名 !! 賞金額([[円 (通貨)|¥]]) |- |1973 || rowspan=&quot;2&quot;|[[尾崎将司]] || align=right|43,814,000 |- |1974 || align=right|41,846,908 |- |1975 || [[村上隆 (ゴルファー)|村上隆]] || align=right|38,705,551 |- |1976 || [[青木功]] || align=right|40,985,801 |- |1977 || 尾崎将司 || align=right|35,932,608 |- |1978 || rowspan=&quot;4&quot;|青木功 || align=right|62,987,200 |- |1979 || align=right|45,554,211 |- |1980 || align=right|60,532,660 |- |1981 || align=right|57,262,941 |- |1982 || rowspan=&quot;2&quot;|[[中島常幸]] || align=right|68,220,640 |- |1983 || align=right|85,514,183 |- |1984 || [[前田新作]] || align=right|57,040,357 |- |1985 || rowspan=&quot;2&quot;|中島常幸 || align=right|101,609,333 |- |1986 || align=right|90,202,066 |- |1987 || {{flagicon|USA}} [[デビッド・イシイ]] || align=right|86,554,421 |- |1988 || rowspan=&quot;3&quot;|尾崎将司 || align=right|125,162,540 |- |1989 || align=right|108,715,733 |- |1990 || align=right|129,060,500 |- |1991 || [[尾崎直道]] || align=right|119,507,974 |- |1992 || 尾崎将司 || align=right|186,816,466 |- |1993 || [[飯合肇]] || align=right|148,718,200 |- |1994 || rowspan=&quot;5&quot;|尾崎将司 || align=right|215,468,000 |- |1995 || align=right|192,319,800 |- |1996 || align=right|209,646,746 |- |1997 || align=right|170,847,633 |- |1998 || align=right|179,627,400 |- |1999 || 尾崎直道 || align=right|137,641,796 |- |2000 || [[片山晋呉]] || align=right|177,116,489 |- |2001 || [[伊沢利光]] || align=right|217,934,583 |- |2002 || [[谷口徹]] || align=right|145,440,341 |- |2003 || 伊沢利光 || align=right|135,454,300 |- |2004 || rowspan=&quot;3&quot;|片山晋呉 || align=right|119,512,374 |- |2005 || align=right|134,075,280 |- |2006 || align=right|178,402,190 |- |2007 || 谷口徹 || align=right|171,744,498 |- |2008 || 片山晋呉 || align=right|180,094,895 |- |2009 || [[石川遼]] || align=right|183,524,051 |- |2010 || {{flagicon|KOR}} [[金庚泰]] || align=right|181,103,799 |- |2011 || {{flagicon|KOR}} [[ベ相文|裵相文]] || align=right|151,078,958 |- |2012 || [[藤田寛之]] || align=right|175,159,972 |- |2013 || [[松山英樹]] || align=right|201,076,781 |- |2014 || [[小田孔明]] || align=right|137,318,693 |} === 賞金王獲得回数 === 2012年まで、賞金王のタイトルを複数回獲得した選手は以下の6人である。 *12回: [[尾崎将司]] *5回: [[青木功]]、[[片山晋呉]] *4回: [[中島常幸]] *2回: [[伊沢利光]]、[[尾崎直道]]、[[谷口徹]] == チャレンジツアー == {{see also|JGTOチャレンジトーナメント}} JGTOのレギュラーツアーの出場権がない選手(新人選手やシード外の選手)らを対象として行う「2軍戦」で、若手選手の育成とゴルフの発展を目的として行われている。 == オフィシャルスポンサー == *[[日本ユニシス]] *[[全日本空輸]] *[[デサント]] *[[セントラルスポーツ]] == 脚注 == {{脚注ヘルプ}} {{Reflist}} == 関連項目 == * [[日本ゴルフツアーの主な優勝者]] *[[「プロゴルファーという生き方」]]([[多賀公人]]著 [[日経BP]]) == 外部リンク == * [http://jgto.org/index.html 日本ゴルフツアー機構] {{世界のゴルフツアー}} {{日本ゴルフツアー}} {{デフォルトソート:にほんこるふつあきこう}} [[Category:日本ゴルフツアー|*]] [[Category:ゴルフに関する日本の組織|こるふつあきこう]] [[Category:一般社団法人 (スポーツ関係)]] [[Category:東京都港区の一般社団法人]] [[Category:2005年設立]] 桂米朝 [[画像:Musubi-kashiwa.svg|right|thumb|結び柏は、桂[[米朝一門]]の[[定紋]]である。]] '''桂 米朝'''(かつら べいちょう)は、[[上方落語]]の[[名跡]]。本来は、大名跡である[[桂米團治]]を継ぐ前段階の名跡。初代が入門した際、師匠の「米」と夫人の名前である「あさ」から「米朝」とつけたのが始まり。当代は3代目。 == 初代 == '''初代 桂米朝'''([[1856年]] - [[1924年]][[4月9日]]) 後の3代目[[桂文團治]]。立川三吉、[[桂文朝]]、林家菊松、桂米朝、桂順朝、2代目[[桂米團治]]を経て、3代目桂文團治を襲名した。本名は'''前田 七三郎'''。 == 2代目 == '''2代目 桂米朝'''([[1868年]] - [[1943年]][[10月29日]]) 後の[[桂米團治 (3代目)|3代目桂米團治]]。初代[[桂べかこ|桂米歌子]](べかこ)、初代[[桂米之助]]、米朝を経て、3代目米團治を襲名した。本名は'''早田 福松'''。2代目の頃には、初代が文團治を襲名するなど出世したため、本来は前座名である米朝の名前が大きくなっていた。 == 3代目(当代) == '''[[桂米朝 (3代目)|3代目 桂米朝]]'''([[1925年]][[11月6日]] - ) 入門当時滅びかけていた[[上方落語]]の復興に尽力し、[[笑福亭松鶴 (6代目)|6代目笑福亭松鶴]]、[[桂文枝 (5代目)|5代目桂文枝]]、[[桂春団治 (3代目)|3代目桂春団治]]と共に、昭和以降の「上方落語の四天王」と呼ばれる。本名は'''中川 清'''。上方落語界としては初めて(落語界では2人目)の[[人間国宝]]となり、後に[[演芸]]界初の[[文化勲章]]受章者となる。先代の諸事情のため、米團治の名前は継がないと公言している。 長男は[[落語家]][[桂米團治 (5代目)|5代目桂米團治]]([[2008年]]に襲名)。 ==関連項目== *[[米朝一門]] *[[米朝事務所]] *[[上方落語協会]] *[[落語家一覧]] *[[上方噺家]] [[Category:落語の名跡|かつら へいちよう]] 国道101号 {{Otheruses|青森県から秋田県を通る路線|[[アメリカ合衆国]]を通る路線|国道101号線 (アメリカ合衆国)}} {{Pathnav|日本の道路|一般国道|frame=1}} {{Infobox road |種別・系統 = [[一般国道]] |アイコン = {{Ja Route Sign|101|width=100}} |名前 = 国道101号 |総距離 = 270.2 [[キロメートル|km]](総延長)&lt;br /&gt;224.6 km(実延長)&lt;br /&gt;214.2 km(現道) |制定年 = [[1953年]]指定([[1993年]]延伸) |起点 = [[青森県]][[青森市]] |主な経由都市 = [[五所川原市]]&lt;br /&gt;[[能代市]]&lt;br /&gt;[[男鹿市]] |終点 = [[秋田県]][[秋田市]] |接続する主な道路 = &lt;!-- 指定区間に接続する国道のみ記述 --&gt;[[ファイル:Japanese National Route Sign 0004.svg|24px]][[国道4号]]&lt;br /&gt;[[ファイル:Japanese National Route Sign 0045.svg|24px]][[国道45号]]&lt;br /&gt;[[ファイル:Japanese National Route Sign 0280.svg|24px]][[国道280号]]&lt;br /&gt;[[ファイル:Japanese National Route Sign 0007.svg|24px]][[国道7号]]&lt;br /&gt;[[ファイル:Japanese National Route Sign 0339.svg|24px]][[国道339号]]&lt;br /&gt;[[ファイル:Japanese National Route Sign 0013.svg|24px]][[国道13号]] }} {| {{Railway line header|collapse=yes}} {{UKrail-header2|接続路線|red}} {{BS-table}} {{BS2|STR||[[国道4号]]}} {{BS2|STR||青い森公園前}} {{BS2|STR||[[国道7号]]重複区間(略)}} {{BS2|ABZlf|STRlg|}} {{BS2|STR|STR|右:国道101号}} {{BS2|STR|mKRZo|[[奥羽本線]]}} {{BS2|STR2|STR3|}} {{BS4||STR+1|STRl+4|STRlg|国道7号浪岡バイパス}} {{BS4||STR|STRrg|KRZ|[[東北自動車道]]、[[浪岡インターチェンジ|浪岡IC]]}} {{BS4||STR|STR|STRlf|国道7号}} {{BS2|STR|STR|右:[[津軽自動車道]]}} {{BS2|STR2|STR3|}} {{BS2|STR+1|STR+4|}} {{BS2|STR|TEEl|[[国道339号]]バイパス}} {{BS2|STR|mKRZo|[[五能線]]}} {{BS2|KRZ|KRZ|国道339号}} {{BS4|tSTRq|KRZ|KRZt||国道339号五所川原北バイパス}} {{BS2|tSTR|mKRZo|五能線}} {{BS2||mKRZ|五能線}} {{BS2|STRrg|ABZrf|}} {{BS4||mKRZ|mKRZo|uSTRlg|右:鰺ヶ沢バイパス}} {{BS4||STR|mKRZo|uSTRrf|}} {{BS2|STR2|STR3|}} {{BS2|STR+1|STR+4|}} {{BS2|ABZrg|STRrf|}} {{BS2|eABZlf|exSTRlg|}} {{BS2|STR2|xSTR3|}} {{BS2|xSTR+1|STR+4|田野沢バイパス}} {{BS2|exSTRlf|eABZlg|}} {{BS2|exSTRrg|eABZrf|}} {{BS2|exSTR|STR|右:追良瀬バイパス}} {{BS2|TEEl|TEEr|}} {{BS2|STR|tSTR|}} {{BS2|WBRÜCK
studyprg

2022/10/27 05:34

一応2記事分貼ってます.
studyprg

2022/10/27 05:52

区切りを\n\n\n\nにして,37行めを proton = [line.split()[0] for line in m.parse( historyproto[x] にしたらある程度うまいこといきました. 以下は実行結果です. ================= モデルロード テキストを読み込みました 処理開始 text clean complite! 邪魔者消します 記事毎に分割しました next:空要素を削除 855 1 ばんめの記事 ['日本', 'ゴルフ', 'ツアー', '機構', '基礎', '情報', '非', '営利', '団体', '名称', '日本', 'ゴルフ', 'ツアー', '機構', 'ロゴ', '創立', '者', '団体', '種類', '社団', '法人', '一般', '社団', '法人', '設立', '年月日', '所在地', '起源', '主要', '人物', '会長', '海老沢', '勝二', '活動', '地域', '製品', '主眼', '活動', '内容', 'プロ', 'ゴルフ', 'ツアー', '主催', '活動', '手段', '収入', '基本', '財産', 'ボランティア', '人数', '従業', '員', '数', '会員', '数', '子', '団体', '標語', 'ウェブサイト', '解散', '特記', '事項', '一般', '社団', '法人', '日本', 'ゴルフ', 'ツアー', '機構', 'ほん', 'ゴルフ', 'ツアー', 'きこう', '年度', '日本', 'プロ', 'ゴルフ', 'ツアー', '試合', '主催', '主管', '組織', '概要', 'シーズン', '月', '東', '建', 'ホームメイトカップ', '新', '年度', '最初', '試合', '月', '前後', '試合', '開催', '基本', '的', '大会', '日間', '競技', '開催', '一部', '大会', '当', 'ツアー', 'ワンアジアツアー', '共同', '主催', '国外', '大会', '年', '試合', '日本', '開催', 'アジアン', 'ツアー', '共催', 'ダイヤモンド', 'カップ', '試合', '実質', '的', '当', 'ツアー', '開幕', '戦', 'インドネシア', '選手権', '2', '0', '1', '4', '年', '初戦', 'インドネシア', '選手権', '日本', 'ゴルフ', 'ツアー', '機構', '当初', 'タイ', 'ランド', 'オープン', '実質', '的', '開幕', '戦', '予定', 'タイ', '王国', '政治', '的', '内紛', '事情', '延期', '当初', '年間', '年', 'パーソナルコンピュータ', 'パソコン', 'ディスプレイコンピュータディスプレイメーカー', 'イーヤマ', '特別', '協賛', 'スポンサー', '関係', 'イーヤマツアー', '現在', 'ツアー', 'そのもの', '冠', 'ノー', 'スポンサー', 'ツアー', '開始', '当初', '権利', '能力', '社団', '任意', '団体', '年', '社団', '法人', '化', '文部', '科学', '省', '所管', '年月', '社団', '法人', '一般', '社団', '法人', '移行', '一般', '社団', '法人', '日本', 'ゴルフ', 'ツアー', '機構', '会長', '海老沢', '勝二', '新年', 'ご', '挨拶', '日本', 'ゴルフ', 'ツアー', '機構', '年月日', 'シード', '枠', 'ツアー', '出場', '優先', '順位', '永久', 'シード', 'プロ', 'ゴルフ', '永久', 'シード', '所持', '者', '過去', '年間', 'ツアー', '賞金', 'ランキング', '位', '者', 'メジャー', 'タイトル', '優勝', '者', '大会', '年間', 'シード', '枠', '対象', '試合', '日本', 'プロ', 'ゴルフ', '選手権', '大会', '日本', 'ゴルフ', 'ツアー', '選手権', '日本', 'オープン', 'ゴルフ', '選手権', '競技', '過去', 'フィランソロピートーナメント', 'メジャー', 'こと', '前', '年度', 'ワールドカップ', '日本', '代表', '年', 'ツアー', '制度', '施行', '後', 'ツアー', '競技', '勝', '以上', '者', '永久', 'シード', '前年度', 'ダイナスティーカップ', '日本', '代表', 'ゴルフ', '日本', 'シリーズ', '日本', 'プロゴルフマッチプレー', '選手権', '日本', 'マッチ', 'プレー', '過去', '年間', '優勝', '者', '過去', '年間', 'ツアー', 'トーナメント', '優勝', '者', '規定', '試合', '数', '出場', '者', '過去', '年間', '本', 'ツアー', 'トーナメント', '優勝', '者', '前年度', '当該', 'ツアー', 'トーナメント', '成績', '上位', '位', '以内', '者', '直近', 'ツアー', 'トーナメント', '基本', '的', '前週', 'ツアー', 'トーナメント', '上位', '位', '以内', '者', '会長', '推薦', '者', '前年度', 'ツアー', '賞金', 'ランキング', '位', '以内', '者', '規定', '試合', '数', '出場', '者', '特別', '保障', '制度', '適用', '者', 'ツアー', 'トーナメント', '複数', '競技', '優勝', '者', '年間', '勝', '者', '年', '翌年', '年間', '年間', '勝', '者', '年', '翌年', '年間', '規定', '試合', '数', '出場', '者', '年', 'ツアー', '制度', '施行', '後', '通算', '賞金', '獲得', 'ランキング', '位', '以内', '選手', '前年度', '末', '時点', '前年度', 'アジアン', 'ツアー', '賞金', 'ランキング', '位', '者', '指定', 'チャレンジ', 'トーナメント', '優勝', '者', '指定', 'ツアー', 'トーナメント', '出場', '前年度', 'チャレンジ', 'トーナメント', '賞金', 'ランキング', '上位', '位', '以内', '者', '当該', '年度', '回', 'リランキング', '出場', '可能', '前年度', '回', 'リランキング', '後', 'クオリファイングトーナメント', '上位', '者', '主催', '者', '推薦', '者', 'プロ', '選手', '資格', '年', '日本', 'プロ', 'ゴルフ', '協会', 'プロテスト', '合格', 'ツアー', '競技', '正式', 'メンバー', 'トーナメント', 'プレイヤー', '当', '機構', '誕生', '年', '以後', '日本', 'プロ', 'ゴルフ', '協会', '資格', '認定', '審査', 'プロテスト', '認定', 'ツアー', 'プロテスト', '現存', '年', '以降', 'クオリファイングトーナメント', '以下', '予選', '会', '出場', '一定', '成績', 'プロ', '資格', '事実', '上', 'プロ', '選手', '出場', '権利', '参加', '者', '事前', '申し込み', '過去', '参加', '者', '各種', 'ゴルフ', '競技', '団体', '推薦', '者', '資格', '月', '月', 'ファースト', '次', '予選', 'ラウンドホールズ', 'スタート', 'これ', '全国', '各地', '開催', '各', '会場', '人', '程度', '出場', '上位', '選手', '出場', '選手', '総数', '勝ち抜き', '者', '数', 'セカンド', '次', '予選', 'セカンド', 'ファースト', '勝ち抜き', '選手', '過去', 'サード', '次', '予選', '出場', '者', '海外', 'プロ', 'ツアー', '活躍', '選手', '日本', 'ツアー', '出場', '資格', '選手', '総', '数', '人', '程度', '会場', 'あたり', '人', '程度', '出場', '~', '月', 'ラウンドホールズ', '競技', '上位', '選手', '選出', '方法', '前述', 'サード', '進出', '時点', '合格', '選手', '最大', '試合', '主催', '推薦', '枠', '出場', '権利', 'サード', 'セカンド', '勝ち抜き', '選手', '前年度', 'ファイナル', '最終', '予選', '出場', '者', '直近', '年間', 'ツアー', '競技', '優勝', '者', '賞金', 'シード', '年', '以上', '保有', 'こと', '選手', 'その他', 'オーストラリア', '南アフリカ', 'アジア', '各', 'ツアー', '賞金', 'ランキング', '上位', '選手', 'ファイナル', 'シード', '保有', '者', '出場', '意思', '者', 'チャレンジ', 'ツアー', '前年度', '賞金', '上位', '者', '当該', '年度', '前半', '戦', 'シード', 'リランキング', '上位', '選手', 'ら', '総数', '人', '程度', '会場', 'あたり', '人', '程度', '出場', 'サード', 'セカンド', 'ラウンドホールズ', '成績', '上位', '選手', '選出', '方法', '前述', 'ファイナル', '出場', '資格', '獲得', 'ファイナル', 'サード', '勝ち抜き', '選手', '本年度', '賞金', 'ランキング', 'シード', '脱落', '選手', 'シード', '落ち', 'チャレンジ', '競技', '上位', '選手', '中', '年間', 'シード', '獲得', '者', '以外', '年度', '前半', '戦', 'シードリランキング', '選手', 'その他', '海外', 'ツアー', '賞金', 'ランキング', '上位', '出場', '意思', '選手', '人前', '後', '出場', '予選', 'ラウンド', '決勝', 'ラウンド', 'ラウンドホールズ', '予選', 'ラウンドホールズ', '行い', '上位', '位', 'タイ', '選手', '決勝', 'コマ', '決勝', 'ラウンドホールズ', '成績', '出場', '試合', '確定', '上位', '選手', '全', '試合', '出場', '例外', 'アマチュア', 'まま', 'ツアー', '優勝', 'プロ', '宣言', '免除', '例', '石川', '遼', '松山', '英樹', '出場', '試合', '数', '年度', '実績', 'トーナメント', '優勝', 'ベストテン', '以内', '同年', 'ツアー', '大会', '試合', '中', '試合', '位', '試合', 'よう', '上位', '出場', '試合', '数', '位', '以下', '自動', '出場', '試合', 'マンデートーナメント', '大会', '主催', '推薦', '一方', 'チャレンジ', 'トーナメント', '上位', '位', '同年', '試合', '中', '試合', '位', '試合', 'こちら', '上位', '出場', '試合', '数', 'ツアー', '大会', '全', '試合', '自動', '出場', '選手', '数', '多め', 'これ', '目安', 'シーズン', '途中', '年', '賞金', 'ランキング', '反映', 'リランキング', 'こと', 'ため', '若干', '変動', '日本', 'ゴルフ', 'ツアークオリファイングトーナメント', '歴代', '賞金', '王', '年', 'ツアー', '制度', '以降', '後', '歴代', '賞金', '王', '以下', '通り', '賞金', '額', 'ゴルフ', 'メジャー', 'トーナメント', '海外', 'メジャー', '獲得', '賞金', '額', '加算', 'もの', '年', '以前', 'チーム', '戦', '世界', 'ゴルフ', '選手権', '獲得', '賞金', '額', '賞金', 'ランキング', '海外', 'メジャー', '日本', 'ゴルフ', 'ツアー', '機構', '年', '氏名', '賞金', '額', '円', '通貨', '尾崎', '将司'] 11 2 ばんめの記事 ['村上', '隆', 'ゴルファー', '村上', '隆', '青木', '功', '尾崎', '将司', '青木', '功'] 2 3 ばんめの記事 ['中島', '常幸'] 4 4 ばんめの記事 ['前田', '新作', '中島', '常幸'] 4 5 ばんめの記事 ['デビッド', 'イシイ', '尾崎', '将司'] 8 6 ばんめの記事 ['尾崎', '直道', '尾崎', '将司', '飯合', '肇', '尾崎', '将司'] 14 7 ばんめの記事 ['尾崎', '直道', '片山', '晋', '呉', '伊沢', '利光', '谷口', '徹', '伊沢', '利光', '片山', '晋', '呉'] 143 8 ばんめの記事 ['谷口', '徹', '片山', '晋', '呉', '石川', '遼', '金', '庚', '泰', 'ベ', '相文', '裵相', '文', '藤田', '寛之', '松山', '英樹', '小田', '孔明', '賞金', '王', '獲得', '回', '数', '年', '賞金', '王', 'タイトル', '複数', '回', '獲得', '選手', '以下', '人', '回', '尾崎', '将司', '回', '青木', '功', '片山', '晋', '呉', '回', '中島', '常幸', '回', '伊沢', '利光', '尾崎', '直道', '谷口', '徹', 'チャレンジ', 'ツアー', 'チャレンジ', 'トーナメント', 'レギュラー', 'ツアー', '出場', '権', '選手', '新人', '選手', 'シード', '外', '選手', 'ら', '対象', '軍', '戦', '若手', '選手', '育成', 'ゴルフ', '発展', '目的', 'オフィシャルスポンサー', '日本', 'ユニシス', '全日本', '空輸', 'デサント', 'セントラル', 'スポーツ', '脚注', '脚注', 'ヘルプ', '関連', '項目', '日本', 'ゴルフ', 'ツアー', '主', '優勝', '者', 'プロ', 'ゴルファー', '生き方', '多賀', '公人', '著', '日経', '外部', 'リンク', '日本', 'ゴルフ', 'ツアー', '機構', '世界', 'ゴルフ', 'ツアー', '日本', 'ゴルフ', 'ツアー', 'デフォルト', 'ソート', 'ほん', 'ふつ', 'きこう', '日本', 'ゴルフ', 'ツアー', 'ゴルフ', '日本', '組織', 'ふつ', 'きこう', '一般', '社団', '法人', 'スポーツ', '関係', '東京', '都', '港', '区', '一般', '社団', '法人', '年', '設立'] 224 9 ばんめの記事 ['桂米朝', '画像', '結び', '柏', '桂米朝', '一門', '定紋', '桂米朝', 'かつら', 'いちょう', '上方', '落語', '名跡', '本来', '大', '名跡', '桂', '米', '團', '治', '前', '段階', '名跡', '初代', '入門', '際', '師匠', '米', '夫人', '名前', '米', '朝', 'の', '当代', '代', '目', '初代', '初代', '桂米朝', '年', '年月日', '後', '代', '目', '桂', '文', '團', '治', '立川', '三吉桂文朝林家菊松桂米朝桂順朝代目桂米團治', '代目', '桂', '文', '團', '治', '襲名', '本名', '前田', '七三郎', '代目', '代目', '桂米朝', '年', '年月日', '後', '桂', '米', '團', '治代', '目代', '目', '桂', '米', '團', '治', '初代', '桂', 'かこ', '桂', '米', '歌子', 'かこ', '初代', '桂', '米', '助', '米', '朝', '代目', '米', '團', '治', '襲名', '本名', '早田', '福松', '代目', '頃', '初代', '文', '團', '治', '襲名', '出世', 'ため', '本来', '前座', '名', '米', '朝', '名前', '代', '目', '当代', '桂米朝', '代', '目代', '目', '桂米朝', '年月日', '入門', '当時', '上方', '落語', '復興', '尽力', 'し笑', '福', '亭', '松', '鶴代', '目代', '目', '笑', '福', '亭', '松', '鶴', '桂', '文枝', '代', '目代', '目', '桂', '文枝', '桂', '春', '団', '治代', '目代', '目', '桂', '春', '団', '治', '昭和', '以降', '上方', '落語', '四天王', '本名', '中川', '清', '上方', '落語', '界', '落語', '界', '人目', '人間', '国宝', '後', '演芸', '界', '初', '文化', '勲章', '受章', '者', '先代', '諸', '事情', 'ため', '米', '團', '治', '名前', '公言', '長男', '落語', '家', '桂', '米', '團', '治代', '目代', '目', '桂', '米', '團', '治', '年', '襲名', '関連', '項目', '米', '朝', '一門', '米', '朝', '事務所', '上方', '落語', '協会', '落語', '家', '一覧', '上方', '噺家', '落語', '名跡', 'かつら', 'いち', 'よう'] 131 10 ばんめの記事 ['国道', '号', '青森', '県', '秋田', '県', '路線', 'アメリカ合衆国', '路線', '国道', '号', '線', 'アメリカ合衆国', '日本', '道路', '一般', '国道', '種別', '系統', '一般', '国道', 'アイコン', '名前', '国道', '号', '総', '距離', 'キロメートル', '総', '延長', '実', '延長', '現', '道', '制定', '年年', '指定', '年', '延伸', '起点', '青森', '県', '青森', '市', '主', '経由', '都市', '五所川原', '市', '能代', '市', '男鹿', '市', '終点', '秋田', '県', '秋田', '市', '接続', '主', '道路', '指定', '区間', '接続', '国道', '記述', 'ファイル', '国道', '号', 'ファイル', '国道', '号', 'ファイル', '国道', '号', 'ファイル', '国道', '号', 'ファイル', '国道', '号', 'ファイル', '国道', '号', '接続', '路線', '国道', '号', '森', '公園前', '国道', '号', '重複', '区間', '略', '右', '国道', '号', '奥羽本線', '国道', '号', '浪岡', 'バイパス', '東北自動車道', '浪岡', 'インターチェンジ', '浪岡', '国道', '号', '右', '津軽', '自動車', '道', '国道', '号', 'バイパス', '五能線', '国道', '号', '国道', '号', '五所川原', '北', 'バイパス', '五能線', '五能線', '右', '鰺', 'ヶ', '沢', 'バイパス'] 843 11 ばんめの記事 ['田野沢', 'バイパス', '右', '追良瀬', 'バイパス', 'Ü', '米代川', '国道', '号', '国道', '号', '重複', '区間', '略', '男鹿線', '男鹿線', '昭和', '男鹿半島', 'インターチェンジ', '昭和', '男鹿半島', '秋田', '自動車', '道', '国道', '号', '重複', '区間', '略', '臨海', '十字路', '交差点', '左', '国道', '号', '国道', '号', '国道', '号', 'ご', '青森', '県', '青森', '市', '秋田', '県', '秋田', '市', '一般', '国道', '概要', '起点', '終点', '途中', '国道', '号', '重複', '並', '青森', '秋田', '両', '県境', '八郎潟', '内陸', '経由', '同線', '本', '路線', '日本海', '側', '経由', '路線', 'データ', '一般', '国道', '路線', '指定', '政令', '一般', '国道', '路線', '指定', '政令', '昭和', '年月日', '政令', '号', '法令', 'データ', '提供', 'システム', '総務', '省', '行政', '管理', '局', '注釈', '一般', '国道', '路線', '指定', '政令', '最終', '改正', '日', '年月日', '政令', '平成', '年月日', '政令', '号', '表記', '起', '終点', '経過', '地', '次', 'とおり', '起点', '青森', '市', '青森', '市', '長島', '二', '丁目', '番', '森', '公園', '前', '国道', '号', '国道', '号', '国道', '号', '終点', '終点', '秋田', '市', '秋田', '市', '八橋南二丁目番臨海十字路交差点', '国道', '号', '交点
studyprg

2022/10/27 05:53

続きです. ======== 11 ばんめの記事 ['田野沢', 'バイパス', '右', '追良瀬', 'バイパス', 'Ü', '米代川', '国道', '号', '国道', '号', '重複', '区間', '略', '男鹿線', '男鹿線', '昭和', '男鹿半島', 'インターチェンジ', '昭和', '男鹿半島', '秋田', '自動車', '道', '国道', '号', '重複', '区間', '略', '臨海', '十字路', '交差点', '左', '国道', '号', '国道', '号', '国道', '号', 'ご', '青森', '県', '青森', '市', '秋田', '県', '秋田', '市', '一般', '国道', '概要', '起点', '終点', '途中', '国道', '号', '重複', '並', '青森', '秋田', '両', '県境', '八郎潟', '内陸', '経由', '同線', '本', '路線', '日本海', '側', '経由', '路線', 'データ', '一般', '国道', '路線', '指定', '政令', '一般', '国道', '路線', '指定', '政令', '昭和', '年月日', '政令', '号', '法令', 'データ', '提供', 'システム', '総務', '省', '行政', '管理', '局', '注釈', '一般', '国道', '路線', '指定', '政令', '最終', '改正', '日', '年月日', '政令', '平成', '年月日', '政令', '号', '表記', '起', '終点', '経過', '地', '次', 'とおり', '起点', '青森', '市', '青森', '市', '長島', '二', '丁目', '番', '森', '公園', '前', '国道', '号', '国道', '号', '国道', '号', '終点', '終点', '秋田', '市', '秋田', '市', '八橋南二丁目番臨海十字路交差点', '国道', '号', '交点', '国道', '号', '国道', '号', '国道', '号', '終点', '重要', '経過', '地', '青森', '県', '南津軽', '郡', '浪岡', '町', '注釈', '青森', '市', '編入', '五所川原', '市', '同', '県', '西津軽', '郡', '深浦', '町', '能代', '市', '秋田', '県', '山本', '郡', '八竜', '町', '注釈', '年月日', '町', '合併', '山本', '郡', '三種', '町', '発足', '男鹿', '市', '同', '県', '南秋田', '郡', '昭和', '町', '秋田', '県', '昭和', '町', '注釈', '年月日', '町', '合併', '潟上', '市', '発足', '延長', '日本', '道路', '路線', '延長', 'キロメートル', '実', '延長', '現', '道表', '一般', '国道', '路線', '別', '都道府県', '別', '道路', '現況', '道路', '統計', '年報', '国土', '交通省', '道路', '局', '注釈', '年月日', '現在', '青森', '県', '区間', '実', '延長', '現', '道', '秋田', '県', '区間', '実', '延長', '現', '道', '指定', '区間', '一般', '国道', '指定', '区間', '指定', '政令', '昭和', '年月日', '政令', '号', '法令', 'データ', '提供', 'システム', '総務', '省', '行政', '管理', '局', '一般', '国道', '指定', '区間', '指定', '政令', '一部', '改正', '政令', '国土', '交通省', '道路', '局', '青森', '市', '長島', '二丁目番同市浪岡大字大釈迦字沢田番国道号重複区間', '青森', '市', '浪岡', '大字', '徳才子', '字', '山', '本番', '市', '柏', '稲', '盛岡', '本番', '五所川原市大字福山字広富番', '同市', '字', '本町', '番', '市', '柏', '稲', '盛岡', '本番', '津軽', '自動車', '道', '浪岡', '五所川原道路浪岡五所川原道路五所川原西', 'バイパス', '能代', '市', '字', '芝童森', '番', '秋田', '県', '山本', '郡', '三種町鵜川字帆出番国道号重複区間', '秋田', '市', '金足大清水', '字', '堤', '下番', '同市', '八橋南二丁目番国道号重複区間', '歴史', '国道', '指定', '当初', '青森', '市', '秋田', '県', '能代', '市', '国道', '号', '交点', '国道', '年平', '成年', '男鹿半島', '経由', '秋田', '市', '路線', '延伸', '年表', '年', '昭和', '年月日', '二級国道号青森能代線青森市能代市', '指定', '施行', '二', '級', '国道', '路線', '指定', '政令', '昭和', '二', '十', '八', '年', '二', '級', '国道', '路線', '指定', '政令', '昭和', '年月日', '政令', '号', '年', '昭和', '年月日', '道路', '法', '改正', '一', '級', '二', '級', '区分', '廃止', '一般', '国道', '号', '年', '平成', '元', '年月日', '青森', '県', '五所川原', '市内', '一方通行解除要出典年月', '年', '平成', '年月日', '終点', '側', '延伸', '一般', '国道', '号', '青森', '市', '秋田', '市', '指定', '施行', '一般', '国道', '路線', '指定', '政令', '一部', '改正', '政令', '平成', '年月日', '政令', '号', '法', '庫', '年月日', '路線', '状況', 'バイパス', '津軽', '自動車', '道', '青森', '県', '浪岡', '五所川原', '道路', '五所川原', '西', 'バイパス', '鰺', 'ヶ', '沢', '道路', '事業', '中', '田野沢', 'バイパス', '青森', '県', '追良瀬', 'バイパス', '青森', '県', '重複', '区間', '国道', '号', '青森', '市', '森', '公園前', '青森', '市', '浪岡', '大字', '大釈迦', '字', '沢田', '国道', '号', '能代', '市', '芝童森', '交差点', '山本', '郡', '三種', '町', '大曲', '交差点', '国道', '号', '国道', '号', '秋田', '市', '高速', '入口', '交差点', '秋田', '市', '臨海', '十字路', '交差点', '道', '駅', '道', '駅', '市', '道', '駅', 'ら', 'ら', '深浦', '町', '道', '駅', '八', '峰', '町', '道', '駅', 'みね', 'みね', '八', '峰', '町', '道', '駅', 'ん', '潟上', '市', '秋田', '県', '道', '号', '秋田', '天王', '線', '交点', '付近', '登録', '秋田', '県', '道', '号', '道', '駅', '港', '港', '秋田', '市', '国道', '号', '重複', '区間', '登録', '国道', '号', '地理', '秋田', '県', '山本', '郡', '八', '峰', '町', '通過', '自治体', '青森', '県', '青森', '市', '五所川原', '市', '市', '北津軽', '郡', '鶴田', '町', '注釈', '当', '路線', '東日本旅客鉄道', '東日本', '五能線', '中田', '駅', '青森', '県', '中田', '駅', '付近', '北津軽', '郡', '鶴田', '町', '程度', '通過', '市', '西津軽', '郡', '鯵ヶ沢', '町', '深浦', '町', '秋田', '県', '山本', '郡', '八峰町能代市山本郡三種町男鹿市潟上市秋田市', '交差', '道路', '青森', '県', '国道', '号', '青森', '市', '上古川', '交差点', '国道', '号', '青森', '市', '新城', '平岡', '国道', '号', '内真部', '蓬田', 'バイパス', '国道', '号', '青森', '市', '大釈迦', '交差点', '国道', '号', '五所川原', '市', '姥萢', '国道', '号', '五所川原', '市', '栄', '町', '東北', '自動車', '道', '浪岡', 'インターチェンジ', '浪岡', '浪岡', '五所川原', '道路', '国道', '号', '交点', '秋田', '県', '国道', '号', '能代', '市', '芝童森', '交差点', '秋田', '自動車', '道', '秋田', '自動車', '道', '一般国道号琴丘能代道路琴丘能代道路能代市能代南', 'インターチェンジ', '能代', '南', '秋田', '自動車', '道', '琴丘', '能代', '道路', '三種', '町', '八竜', 'インターチェンジ', '八', '竜', '国道', '号', '山本', '郡', '三種', '町', '大曲', '交差点', '国道', '号', '秋田', '市', '高速', '入口', '交差点', '秋田', '自動車', '道', '昭和', '男鹿半島', 'インターチェンジ', '昭和', '男鹿半島', '旧道', '青森', '県', '青森', '県', '道', '号', '稲盛', '千代', '町', '山田', '線', '市', '柏', '稲盛', '同市', '森田', '町', '山田', '青森', '県', '道', '号', '山田', '鰺', 'ケ', '沢', '線', '市', '森田', '町', '山田西', '津軽', '郡', '鰺', 'ヶ', '沢', '町', '北浮田', '町', '秋田', '県', '秋田', '県', '道', '号', '椿台', '小入', '川', '線', '山本', '郡', '八峰町八森字椿台同町八森字滝', '間', '秋田', '県', '道', '号', '男鹿半島', '線', '男鹿', '市', '船川港比詰', '男鹿', '市', '脇本脇本', '字', '大石', '館', '公報', '号', '秋田', '県', '告示', '号', '年月日', '年月日', '脚注', '脚注', 'ヘルプ', '注釈', '注釈', '出典', '関連', '項目', '日本', '一般', '国道', '一覧', '東北', '地方', '道路', '一覧', '外部', 'リンク', '青森', '県', '県土', '整備', '部', '道路', '課', '青森', '河川', '国道', '事務所', '国道', '号', '道', '秋田', '県', '建設', '部', '道路', '課', '一般', '国道', '青森', '県', '道路', '秋田', '県', '道路'] 1674 12 ばんめの記事 ['笑', '福', '亭', '松', '鶴', '画像', '五', '枚', '笹', '笑', '福', '亭', '一門', '定紋', '笑', '福', '亭', '松', '鶴', 'ょうふくていしょかくは', '上方', '落語', '名跡', '年', '代', '目', '松葉', '追贈', '以来', '空位', '松', '鶴一', '門', '笑', '福', '亭', '一門', '止め', '名', '大阪', '弁', '長音', '省略', '場合', '松', '鶴', 'ょかくと', 'の', '一種', '読み癖', '笑', '福', '亭', '鶴光', '鶴光', 'つるこ', '笑福亭鶴瓶', '鶴', '瓶', 'の', 'ため', '史料', '等', '「', '」', 'もの', 'お代', '目', '込み', 'レコード', '自ら', 'しょ', 'かく', '歌舞伎', '名跡', '尾上', '松', '鶴', 'お代', '墓', 'の', '代目', '以降', '墓所', '大阪', '市', '天王寺', '区', '四天王寺', '丁', '目', '壽', '法', '寺', '別名', '紅葉', '寺', '毎年', '代目', '命日', '月日', '松', '鶴一', '門', '所属', '事務所', '枠', '歴代', '松', '鶴', '法事', '初代', '初代', '笑', '福', '亭', '松', '鶴', '年月日', '年月日', '本名', '桔梗', '屋', '正兵衛', '享年', '笑', '福', '亭', '吾', '竹代', '目代', '目', '笑', '福', '亭', '吾', '竹', '吾', '竹', '門下', '吾', '玉', '門下', '笑', '福', '亭', '松', '喬', '初代', '笑', '福', '亭', '松', '喬', '火消壷', '松', '喬', '初代', '松', '鶴', '大阪', '新町', '遊郭', '楊弓', '屋', '頭', '形', '火消壷', 'あだ名', '安政', '頃', '大津絵', '節', '替歌', '人気', '一', '枚', '摺', '小', '冊子', '流行', '唄', '多く', '名', '天性', '美声', '持ち主', '桂', '文枝', '初代', '初代', '桂', '文枝', '上方', '落語', '隆盛', '礎', '挨拶', '同', '業者', '寒空', '単', '衣', '羽織', 'ど', 'むならん', '私', 'の', 'ん', '袷', '羽織', '頭', '男', '私', '前座', 'ピーピー', '頃', 'お前', 'さん', '下駄', '方', '足', 'もん', 'お前', '私', '羽織', 'よう', 'ん', 'ア', '皮肉', '仇', '門下', '代', '目', '松', '鶴', '笑', '福', '亭', '松', '喬', '代', '目代', '目', '松', '喬', '笑', '福', '亭', '松竹', '代目', '松竹', '破門', '桂', '文', '助', '初代', '桂', '文', '助', '曽', '呂', '利', '新左衛門', '二世曽呂利新左衛門二世曽呂利新左衛門松柳後', '桂', '柳', '枝', '立川', '八', '百', '蔵', 'ら', '代', '目', '代目', '笑', '福', '亭', '松', '鶴', '年月日', '本名', '松本', '豊', '七', '享年', '不詳', '天保', '弘', '化', '年間', '頃', '生まれ', '初代', '松', '鶴', '門人', '笑', '福', '亭', '鶴松', '初代', '鶴松', '笑', '福', '亭', '吾', '竹代', '目代', '目', '吾', '竹代', '目', '松', '鶴', '笑', '福', '亭', '圓', '笑', '代目', '圓', '笑', '名乗り', '後', '講談', '講談', '師', '松橋', '時期', '元', '紺屋', '形', '置職', '人', '仕事', '合間', '桃', '果物', 'ため', '落語', '家', '後', '桃屋', 'あだ名', '夏', '祭り', '俄', '舞踊', '名手', '松', '一', '枚', '歯', '下駄', '碁盤', '小台', '五', '枚', '扇', '芸', '元祖', '代', '目', '松', '鶴', '初代', '文枝', '得意', '三', '十', '石', '師', '初代', '松', '鶴', '舟唄', '加味', '当時', '評判', '写真', '落語', '系', '圖', '掲載', '一方', '高座', '役者', 'よう', '目', 'ケレン', '年頃', '東京', '修行', '帰', '阪', '後', '東京', '上品', '噺', '講談', '師', '加賀', '騒動', '業平', '文治', '十八番', '門下', '笑', '福', '亭', '圓', '篤', '初代', '初代', '圓', '篤', '代目', '松', '鶴', '笑', '福', '亭', '木', '鶴代', '目代', '目木', '鶴', '笑', '福', '亭', '福松', '初代', '初代', '福松', '助', '後', '桂', '文', '屋', '笑', '福', '亭', '松', '右', '衛', '門松', '右', '衛門', '桂', '文', '屋', '父', 'ら', '代', '目', '代目', '笑', '福', '亭', '松', '鶴', '年', '年月日', '本名', '武田', '龜', '太郎', '享年', '元', '天狗', '連', '浮世', '物真似', '師', '龜', '丸', '歳', '頃', '立川', '三光代目代目立川三光', '入門', '立川', '光', '柳', '桂', '慶治', '門下', '桂', '慶', '枝', '慶', '司', '慶', '士', 'とも', '後', '代目', '松', '鶴', '笑', '福', '亭', '松', '喬', '代目', '松', '喬松', '橋', 'とも', '名乗り', '年', '代目', '松', '鶴', '襲名', '師匠', '不和', '京都', '笑', '福', '亭', '木', '鶴', '初代', '初代', '木', '鶴', '年月', '松', '鶴', '復', '名', '当初', '桂', '派', '真打', '桂', '文枝', '代', '目代', '目', '桂', '文枝', '後', '桂', '文左衛門', '敵', '月亭', '文', '都', '代', '目代', '目', '月亭', '文', '都', '仲', 'こと', '後', '文枝', '齟齬', '年', '文', '都', '笑', '福', '亭', '福松', '初代', '初代', '笑', '福', '亭', '福松', 'ら', '三友', '派', '上げ', '参加', '会長', '桂', '派', '袂', '年月', '同派', '講釈', '年', '初代', '福松', '没', '弱体', '化', '三友', '派', '竹山', '人', '改名', '年月', '三友', '派', '講釈', '時代', '大阪', '天満宮', '裏', '宝来', '亭', '出演', '好評', '若年', '時', '風格', 'ため', '頭', '代目', '禿頭', '風貌', '有名', '膨大', 'ネタ', '誇り', '代目', '旭', '堂', '南陵', 'ヶ', '月間', '神戸', '市', '神戸', '席', '際', '一', '度', 'ネタ', '数', '題', 'いずれ', '見事', '出来栄え', '落語', '家', '時代', '三', '十石景清落語盲景清新粉屋新兵衛紺田屋講釈師時代', '大塩', '平八郎', '一休宗純', '一休', '禅師', '落語', '家', '時代', '講談', '種', '得意', '今', '佐々木', '顕', '発', '元', '佐々木', '裁き', '代', '目', '松', '鶴', '作', '一休', '頓知', '噺', 'ヒント', 'もの', '門下', '笑', '福', '亭', '竹', '我', '竹', '我', '笑', '福', '亭', '梅', '鶴代', '目代', '目', '笑', '福', '亭', '梅', '鶴代', '目', '松', '鶴', '笑', '福', '亭', '圓', '笑', '代', '目代', '目', '圓', '笑', '里', 'キ', '松', '後', '笑', '福', '亭', '福', '松代', '目代', '目', '福松', '笑', '福', '亭', '松', '喬', '代', '目代', '目', '松', '喬', '松葉', '後', '桂', '文治郎', '代目', '松', '喬', '後', '林家', '染', '丸', '代', '目代', '目', '林家', '染', '丸', '笑', '福', '亭', '梅', '香代', '目', '梅香', 'ら', '代', '目', '代目', '笑', '福', '亭', '松', '鶴', '年', '年月日', '本名', '森村', '米吉', '享年', '年', '生まれ', '生家', '大阪', '大名', '金貸し', '父', '死別', '歳', '時', '紙屋', '丁稚', '奉公', 'その後', '花簪', '屋', '鉄', '屋', '下駄', '屋', '線香', '屋', '転々', 'いずれ', '長続き', '年', '知人', '世話', '歌舞伎', '役者', '坂東', 'あづま', '男衆', '後', '澤', '村', '百', '之', '助', '門下', 'その後', '芸界', '花簪', '屋', '歳', '頃', '天狗', '連', '素人', '落語', '秀', '丸', '花', '米', '年代', '目', '松', '鶴', '入門', '三', '代', '松', '半', '玄人', '活動', '半', '玄人', '時代', 'ほか', '判子', '屋', '鼈甲', '屋', '小間物', '屋', '貸座敷', '転々', '翌年', '代目', '松富', '久', '亭', '松竹', '松竹', '改名', '本格', '的', '活動', '代', '目', '松', '鶴', '差し', '向かい', '稽古', 'その後', '芸界', '薬', '行商', '宿屋', '落語', '界', '復帰', '年',
studyprg

2022/10/27 05:55

文字数で全て張り切れませんでしたが, ================ 2 ばんめの記事 ['村上', '隆', 'ゴルファー', '村上', '隆', '青木', '功', '尾崎', '将司', '青木', '功'] 2 3 ばんめの記事 ['中島', '常幸'] 4 4 ばんめの記事 ['前田', '新作', '中島', '常幸'] 4 5 ばんめの記事 ['デビッド', 'イシイ', '尾崎', '将司'] 8 6 ばんめの記事 ['尾崎', '直道', '尾崎', '将司', '飯合', '肇', '尾崎', '将司'] 14 7 ばんめの記事 ['尾崎', '直道', '片山', '晋', '呉', '伊沢', '利光', '谷口', '徹', '伊沢', '利光', '片山', '晋', '呉'] 143 ================= 上記部分は1記事めの後半パートが分割されているんです.... あとはこれが治ればオッケーです.
studyprg

2022/10/27 05:58

'笑', '福', '亭', '松', '鶴は’笑福 亭松鶴'で区切って欲しいなあとも思っていますがこれはMecabの種類ではないかなと思います.
jbpb0

2022/10/27 06:33 編集

当方は、google colabで実行して確認してます 念の為に、今再度実行しましたが、回答に書いたのと同じ結果になりました 質問者さんもgoogle colabで実行してみてください 手順を間違えなければ、同じ結果になるはずです 以下、手順を書きます 質問の「用意したテキストファイルの一部を表示します.」をそのままテキストエディターにコピペして「history_0text.txt」として保存し、google colabにアップロード google colabで下記を実行して、mecabをインストール !apt-get -q -y install swig !apt-get install mecab !apt-get install libmecab-dev !apt-get install mecab-ipadic-utf8 !pip install mecab-python3 !cp /etc/mecabrc /usr/local/etc/mecabrc 質問のコードをgoogle colabにコピペして、私の回答の変更点を適用して、実行
jbpb0

2022/10/27 06:10 編集

一つ前のコメントに書いたように、google colabではエラーは出ませんので、下記エラーは質問者さんのパソコン環境固有の問題だと思います > 回答で実行した結果です. Traceback (most recent call last): File "/Users/**/**/**/***.py", line 36, in <module> proton = [line.split()[0] for line in m.parse(x).splitlines() if "名詞" in line.split()[-1]] File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/MeCab.py", line 293, in parse return _MeCab.Tagger_parse(self, *args) TypeError: in method 'Tagger_parse', argument 2 of type 'char const *' Additional information: Wrong number or type of arguments for overloaded function 'Tagger_parse'. Possible C/C++ prototypes are: MeCab::Tagger::parse(MeCab::Model const &,MeCab::Lattice *) MeCab::Tagger::parse(MeCab::Lattice *) const MeCab::Tagger::parse(char const *)
studyprg

2022/10/27 06:04

エラーはもう出てないんです.区切りがおかしいんじゃないかなって思ってるんです.
jbpb0

2022/10/27 06:09

この質問に記載のデータでは、回答に書いたようにうまく行ってるのだから、この質問は解決してますよね 別のデータでうまくいかないというのは、この質問の範囲を逸脱してるので、別の質問にしてください
studyprg

2022/10/27 06:13

わかりました.
jbpb0

2022/10/27 06:13

> 区切りがおかしい 私の回答の最後に「print(history)」の結果を付けてます 「区切りがおかしい」のは、その中のどこでしょうか?
studyprg

2022/10/27 06:15

jbpb0さんはおかしく無いんすけど僕のやつでやった結果がなんか違うんすよね。
jbpb0

2022/10/27 06:32

> 僕のやつでやった結果がなんか違う この質問の「用意したテキストファイルの一部を表示します.」を使って、私の回答の「print(history)」と結果が違うのなら、google colabでも実行してみてください そうしたら、同じ結果になるはずです 同じコードとデータで、質問者さんのパソコンで実行したら違う結果になるのなら、それは質問者さんのパソコン環境固有の問題だと思います そうではなく、この質問の「用意したテキストファイルの一部を表示します.」とは違うデータでうまくいかない、という話なら、前のコメントに書いたように、それはこの質問の範囲を逸脱してます そのような事を後で言うのなら、最初から全部のデータに他人がアクセスできるようにするべきです ここの質問には文字数制限で全部を記載できないなら、外部のファイル共有サービスを使うとか
jbpb0

2022/10/27 14:19 編集

私の回答は、質問のコードへの変更点のみ書いたので、質問のコードが変わったら、私が回答として書いた時点のコードを正確に再現させることができなくなります 質問のコードを、最初に質問した当初のものと同じに戻してください あと、質問に記載の問題点も、最初に質問した当初のものと同じに戻してください (同じものがずっと表示されるやつ) そうしないと、私の回答によって、何が改善されたのかが分からなくなります 【追記】 質問から「用意したテキストファイルの一部を表示します.」が消えてますけど、それも戻してください 私の回答は、それを処理して確認したので、それが無いと回答の意味がなくなります 当初の質問内容を解決する回答が書かれた後に、その回答が意味がなくなるように質問を改変するって、間違ってますよ そんなことされたら、回答を考える意欲がなくなります
studyprg

2022/10/27 19:12

すみません、了解しました。 修正しておきます。
guest

回答1

0

ベストアンサー

python

1historyproto = [text.split('\n\n\n')]

↓ 変更

python

1historyproto = text.split('\n\n\n')

 

python

1 proton = [''.join(x).split()[0] for line in m.parse(text).splitlines()] 2 for y in proton: 3 history.append(y)

↓ 変更

python

1 proton = [line.split()[0] for line in m.parse(x).splitlines() if "名詞" in line.split()[-1]] 2 if len(proton) != 0: 3 history.append(proton)

 
を行ってから、質問に記載の「用意したテキストファイルの一部を表示します.」をそのまま使って実行したら、

historyを表示(段落ごとに分割し,さらに名刺で分割された二次元配列になる)

となりました

history

1[['日本', 'ゴルフ', 'ツアー', '機構', '基礎', '情報', '非', '営利', '団体', '名称', '日本', 'ゴルフ', 'ツアー', '機構', 'ロゴ', '創立', '者', '団体', '種類', '社団', '法人', '一般', '社団', '法人', '設立', '年月日', '所在地', '起源', '主要', '人物', '会長', '海老沢', '勝二', '活動', '地域', '製品', '主眼', '活動', '内容', 'プロ', 'ゴルフ', 'ツアー', '主催', '活動', '手段', '収入', '基本', '財産', 'ボランティア', '人数', '従業', '員', '数', '会員', '数', '子', '団体', '標語', 'ウェブサイト', '解散', '特記', '事項', '一般', '社団', '法人', '日本', 'ゴルフ', 'ツアー', '機構', 'ほん', 'ゴルフ', 'ツアー', 'きこう', '年度', '日本', 'プロ', 'ゴルフ', 'ツアー', '試合', '主催', '主管', '組織', '概要', 'シーズン', '月', '東', '建', 'ホームメイトカップ', '新', '年度', '最初', '試合', '月', '前後', '試合', '開催', '基本', '的', '大会', '日間', '競技', '開催', '一部', '大会', '当', 'ツアー', 'ワンアジアツアー', '共同', '主催', '国外', '大会', '年', '試合', '日本', '開催', 'アジアン', 'ツアー', '共催', 'ダイヤモンド', 'カップ', '試合', '実質', '的', '当', 'ツアー', '開幕', '戦', 'インドネシア', '選手権', '2', '0', '1', '4', '年', '初戦', 'インドネシア', '選手権', '日本', 'ゴルフ', 'ツアー', '機構', '当初', 'タイ', 'ランド', 'オープン', '実質', '的', '開幕', '戦', '予定', 'タイ', '王国', '政治', '的', '内紛', '事情', '延期', '当初', '年間', '年', 'パーソナルコンピュータ', 'パソコン', 'ディスプレイコンピュータディスプレイメーカー', 'イーヤマ', '特別', '協賛', 'スポンサー', '関係', 'イーヤマツアー', '現在', 'ツアー', 'そのもの', '冠', 'ノー', 'スポンサー', 'ツアー', '開始', '当初', '権利', '能力', '社団', '任意', '団体', '年', '社団', '法人', '化', '文部', '科学', '省', '所管', '年月', '社団', '法人', '一般', '社団', '法人', '移行', '一般', '社団', '法人', '日本', 'ゴルフ', 'ツアー', '機構', '会長', '海老沢', '勝二', '新年', 'ご', '挨拶', '日本', 'ゴルフ', 'ツアー', '機構', '年月日', 'シード', '枠', 'ツアー', '出場', '優先', '順位', '永久', 'シード', 'プロ', 'ゴルフ', '永久', 'シード', '所持', '者', '過去', '年間', 'ツアー', '賞金', 'ランキング', '位', '者', 'メジャー', 'タイトル', '優勝', '者', '大会', '年間', 'シード', '枠', '対象', '試合', '日本', 'プロ', 'ゴルフ', '選手権', '大会', '日本', 'ゴルフ', 'ツアー', '選手権', '日本', 'オープン', 'ゴルフ', '選手権', '競技', '過去', 'フィランソロピートーナメント', 'メジャー', 'こと', '前', '年度', 'ワールドカップ', '日本', '代表', '年', 'ツアー', '制度', '施行', '後', 'ツアー', '競技', '勝', '以上', '者', '永久', 'シード', '前年度', 'ダイナスティーカップ', '日本', '代表', 'ゴルフ', '日本', 'シリーズ', '日本', 'プロゴルフマッチプレー', '選手権', '日本', 'マッチ', 'プレー', '過去', '年間', '優勝', '者', '過去', '年間', 'ツアー', 'トーナメント', '優勝', '者', '規定', '試合', '数', '出場', '者', '過去', '年間', '本', 'ツアー', 'トーナメント', '優勝', '者', '前年度', '当該', 'ツアー', 'トーナメント', '成績', '上位', '位', '以内', '者', '直近', 'ツアー', 'トーナメント', '基本', '的', '前週', 'ツアー', 'トーナメント', '上位', '位', '以内', '者', '会長', '推薦', '者', '前年度', 'ツアー', '賞金', 'ランキング', '位', '以内', '者', '規定', '試合', '数', '出場', '者', '特別', '保障', '制度', '適用', '者', 'ツアー', 'トーナメント', '複数', '競技', '優勝', '者', '年間', '勝', '者', '年', '翌年', '年間', '年間', '勝', '者', '年', '翌年', '年間', '規定', '試合', '数', '出場', '者', '年', 'ツアー', '制度', '施行', '後', '通算', '賞金', '獲得', 'ランキング', '位', '以内', '選手', '前年度', '末', '時点', '前年度', 'アジアン', 'ツアー', '賞金', 'ランキング', '位', '者', '指定', 'チャレンジ', 'トーナメント', '優勝', '者', '指定', 'ツアー', 'トーナメント', '出場', '前年度', 'チャレンジ', 'トーナメント', '賞金', 'ランキング', '上位', '位', '以内', '者', '当該', '年度', '回', 'リランキング', '出場', '可能', '前年度', '回', 'リランキング', '後', 'クオリファイングトーナメント', '上位', '者', '主催', '者', '推薦', '者', 'プロ', '選手', '資格', '年', '日本', 'プロ', 'ゴルフ', '協会', 'プロテスト', '合格', 'ツアー', '競技', '正式', 'メンバー', 'トーナメント', 'プレイヤー', '当', '機構', '誕生', '年', '以後', '日本', 'プロ', 'ゴルフ', '協会', '資格', '認定', '審査', 'プロテスト', '認定', 'ツアー', 'プロテスト', '現存', '年', '以降', 'クオリファイングトーナメント', '以下', '予選', '会', '出場', '一定', '成績', 'プロ', '資格', '事実', '上', 'プロ', '選手', '出場', '権利', '参加', '者', '事前', '申し込み', '過去', '参加', '者', '各種', 'ゴルフ', '競技', '団体', '推薦', '者', '資格', '月', '月', 'ファースト', '次', '予選', 'ラウンドホールズ', 'スタート', 'これ', '全国', '各地', '開催', '各', '会場', '人', '程度', '出場', '上位', '選手', '出場', '選手', '総数', '勝ち抜き', '者', '数', 'セカンド', '次', '予選', '中略', 'デフォルト', 'ソート', 'ほん', 'ふつ', 'きこう', '日本', 'ゴルフ', 'ツアー', 'ゴルフ', '日本', '組織', 'ふつ', 'きこう', '一般', '社団', '法人', 'スポーツ', '関係', '東京', '都', '港', '区', '一般', '社団', '法人', '年', '設立'], ['桂米朝', '画像', '結び', '柏', '桂米朝', '一門', '定紋', '桂米朝', 'かつら', 'いちょう', '上方', '落語', '名跡', '本来', '大', '名跡', '桂', '米', '團', '治', '前', '段階', '名跡', '初代', '入門', '際', '師匠', '米', '夫人', '名前', '米', '朝', 'の', '当代', '代', '目', '初代', '初代', '桂米朝', '年', '年月日', '後', '代', '目', '桂', '文', '團', '治', '立川', '三吉桂文朝林家菊松桂米朝桂順朝代目桂米團治', '代目', '桂', '文', '團', '治', '襲名', '本名', '前田', '七三郎', '代目', '代目', '桂米朝', '年', '年月日', '後', '桂', '米', '團', '治代', '目代', '目', '桂', '米', '團', '治', '初代', '桂', 'かこ', '桂', '米', '歌子', 'かこ', '初代', '桂', '米', '助', '米', '朝', '代目', '米', '團', '治', '襲名', '本名', '早田', '福松', '代目', '頃', '初代', '文', '團', '治', '襲名', '出世', 'ため', '本来', '前座', '名', '米', '朝', '名前', '代', '目', '当代', '桂米朝', '代', '目代', '目', '桂米朝', '年月日', '入門', '当時', '上方', '落語', '復興', '尽力', 'し笑', '福', '亭', '松', '鶴代', '目代', '目', '笑', '福', '亭', '松', '鶴', '桂', '文枝', '代', '目代', '目', '桂', '文枝', '桂', '春', '団', '治代', '目代', '目', '桂', '春', '団', '治', '昭和', '以降', '上方', '落語', '四天王', '本名', '中川', '清', '上方', '落語', '界', '落語', '界', '人目', '人間', '国宝', '後', '演芸', '界', '初', '文化', '勲章', '受章', '者', '先代', '諸', '事情', 'ため', '米', '團', '治', '名前', '公言', '長男', '落語', '家', '桂', '米', '團', '治代', '目代', '目', '桂', '米', '團', '治', '年', '襲名', '関連', '項目', '米', '朝', '一門', '米', '朝', '事務所', '上方', '落語', '協会', '落語', '家', '一覧', '上方', '噺家', '落語', '名跡', 'かつら', 'いち', 'よう'], ['文字数', '制限', 'ため', '小', '略']]

投稿2022/10/26 14:02

jbpb0

総合スコア7651

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

studyprg

2022/10/27 05:07

それです.それがやりたかったんです!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問