前提・実現したいこと
PKE(Python Keyphrase Extraction)という、キーフレーズ抽出ライブラリでキーフレーズ抽出をspaCyとGiNZAを用いて出力したい。
PKEのgithubのurl
発生している問題・エラーメッセージ
以下の様に、エラーメッセージがでて出力される単語が0と表示される。
該当のソースコード
python
pkeがspaCyが用いられているので、GiNZAとNLTKのストップワードを参照するのでダウンロードを行った。
import pke pke.base.ISO_to_language['ja_ginza'] = 'japanese' import ginza import nltk stopwords = list(ginza.STOP_WORDS) nltk.corpus.stopwords.words_org = nltk.corpus.stopwords.words nltk.corpus.stopwords.words = lambda lang : stopwords if lang == 'japanese' else nltk.corpus.stopwords.words_org(lang)
textはニュース記事を40個ほど使用していますが今回は文字数の関係で10個載せています。
text1 = "'米国、量子コンピュータやAIに10億ドルを投資、12の研究センターを新設へ' 米国政府は8月26日(米国時間)、量子情報科学やAI技術に今後5年間で10億ドル(約1060億円)を投資すると発表した。 これらの研究を進めるため、12の研究センターを新設するとしている。 量子情報科学研究センターの設立は米エネルギー省(DOE)が主導。アルゴンヌ国立研究所(イリノイ州)などDOE傘下の5つの研究機関でそれぞれ研究センターを立ち上げるため、6億2500万ドルを助成する。参画する民間企業や大学も、合わせて3億ドルを資金提供する。量子コンピュータを開発する米IBMやIntel、Microsoftなども量子情報科学研究センターに参画を表明。各センターでは複数の研究機関や民間企業から集まった共同研究チームが、量子ネットワーク、量子センシング、量子コンピューティング、量子材料科学などを主要なテーマに据えて研究を進める。AIの研究開発は米国立科学財団が主導。7つの研究センターの設立に1億4000万ドルを助成する。パートナー機関からの資金提供も含めると助成金額は3億ドルに上るという。 米国はこれらの研究センターを新設することで、次世代技術のリーダーシップ確保の他、雇用創出や次世代の労働力の育成にもつなげたい考えだ。" text2 = "'見えていない自分の姿勢を推定する「You2Me、 自分視点カメラから深層学習で' テキサス大学オースティン校、カーネギーメロン大学、Facebook AI Researchによる研究チームが開発した「You2Me」は、カメラ着用者の3次元姿勢を推定する深層学習ベースの手法だ。推定に用いるのは、ユーザーが胸に取り付けた1台のカメラで撮影した一人称視点(FPV)映像だ。 一人称視点映像に記録された自分と相手との動きの相互作用に着目し、カメラ装着者の3次元姿勢を推定する。誰かが握手をしようと手を伸ばしてきたら自分は反射的に握手するために手を伸ばすといった、認知科学の法則を利用している。 カメラ着用者の3次元関節を予測するために、一人称視点映像から一人称(自分)と二人称(相手)の特徴をRNN(Recurrent Neural Network)を利用して抽出する。 抽出する特徴は3種類。(1)カメラの動きから一人称の動的な特徴を得る。走ったりしゃがんだりするとカメラも動くように、カメラの動きは装着者の姿勢を推定する手掛かりになる。(2)周囲の風景の特徴。立っている,座っているときの視点など、周りの変化を手掛かりにする。(3)二人称の動きの特徴。相手の姿勢と動きを捉える。 これらの特徴を入力に用いたRNNアーキテクチャであるLSTM(Long short-term memory)で、カメラ装着者、シーン、対話している相手の現在の状態を学習し、カメラ装着者の次の姿勢を予測する。 実験では、会話、スポーツ、手遊び、ボール投げの4つの異なるアクションで3次元姿勢の推定に成功した。特にカメラ装着者がしゃがんだり座ったりするとき、アイテムを受け取るために手を上げたりキャッチしたりするとき、会話でジェスチャーを使っている時は正確に判別する。 カメラには自分の身体がほとんど映っていないにもかかわらず、相手の姿勢が有用な手がかりとなり、一人称の3次元的な動きをカメラの動きとシーンのコンテキストだけで予測できることを実証したとしている。" text3 = "'ルンバ、家具認識や掃除スケジュール提案など追加,挽野社長「アイロボット史上、最大のアップデート」' アイロボットジャパンは8月26日、同社のロボット掃除機「ルンバ」「ブラーバ」のソフトウェアアップデートを公開した。AIを活用し、ユーザーに掃除スケジュールの提案や、センサーを使った家具の認識、進入禁止エリアを自動で見つけるなどの新機能を追加。同社の挽野元・社長は会見で「アイロボット史上最大のアップデート」「本当に掃除を(ロボットに)任せられる時代になる」と自信を見せた。 ロボット掃除機をコントロールする専用アプリ「iRobot HOME」(Android/iOS)も同日から順次アップデート。掃除をする場所や時間、方法をユーザーの生活や掃除機の使い方に合わせてパーソナライズできるようにした。 '画像認識で「ソファのまわりだけ掃除」「テーブルの下だけ掃除」' ルンバ s9シリーズやブラーバ ジェットなどのフラグシップモデルには、光学センサーで取得したデータを基にソファやダイニングテーブルなどの家具を認識する「物体認識機能」を追加した。 これまでも間取りの認識はできたが、AIによる画像認識技術を活用し、「ソファのまわりを掃除する」「テーブルの下を掃除する」といった掃除場所のピンポイントな設定もできるようにした。物体認識機能は業界初という。 検出できる家具はソファ、カウンター、ダイニングテーブルのみ。今後のアップデートで他の家具にも対応する予定という。この他、アプリに表示した部屋のマップ上で指定したエリアだけをピンポイントに掃除する「部分清掃エリア」の機能も追加した。 'AIが掃除スケジュールを提案' これまでも搭載していたスケジューリング機能をスマートホーム機器との連携やAIの活用で強化した。アイロボットによると、人はあらかじめ決めた予定とは違う動きをすることも多いため、既存のスケジューリング機能ではスケジュールをキャンセルするユーザーが多かったという。 今回のアップデートで、スマートホーム機器などと連携して掃除スケジュールを柔軟に変更する「ルーティーン指定」機能を追加した。時間だけでなく「ユーザーが家を出たら実行する」といった行動を基準にしたコントロールをできるようにした。 ユーザーのロボット掃除機の利用傾向を基に、AIが掃除スケジュールを提案する機能も搭載。例えば「火曜日と木曜日にルンバを使っている」などの傾向を分析し、iRobot HOMEアプリ上で「火曜日と木曜日の夜を掃除スケジュールに追加しませんか?」と提案する。 この他、掃除ルートのお気に入り機能も追加。例えば、物体認識機能と組み合わせてキッチンとダイニングの掃除をまとめてお気に入り登録すれば、夕食後などに実行ボタンを押してテーブルの下などを指定した通りに掃除できる。 '進入禁止エリアの発見、季節に合わせた掃除方法の提案も' ロボット掃除機が苦手とする、電源コードなどの配線が多い場所などは、これまでも「進入禁止エリア」としてアプリ上で指定できた。 アップデートにより、掃除の際にルンバが電源コードなどを自動で検知し、一次停止した上でユーザーに「このエリアを進入禁止に設定しませんか?」と提案する機能を追加した。花粉が多い季節やペットの抜け毛が多い季節には、念入りな掃除を提案する機能もあり、場面や時期に合わせた提案をできるようにした。 それぞれの機能は対応機種が異なる。掃除スケジュールの提案やルーティーン指定機能、季節に合わせた掃除の提案などの機能は全ての製品に対応。その他の機能はルンバ s9シリーズ、ルンバ iシリーズ、ブラーバ ジェット m6にのみ対応している。 ソフトウェアアップデートは今後2週間をめどに順次行う。今後は3カ月に1度の頻度でアップデートを行い、物体認識できる家具や対応機種機種の拡大などを行うとしている。" text4 = "'2本腕の商品陳列ロボット、ファミマで実験スタート, 遠隔操作でペットボトルを並べる動画を公開' ファミリーマートは8月26日、小売店の商品陳列などを想定した遠隔操作ロボット「Model-T」の試験運用を始めたと発表した。東京・虎ノ門にあるオフィスから豊島区の店舗に設置したロボットを遠隔操作して商品陳列を行う。実際にロボットを遠隔操作している様子の動画も公開した。 Model-Tは、ロボット開発を手掛けるTelexistence(東京都港区)が開発する遠隔操作ロボット。胴体やアームに22自由度の関節を備え、人間は離れた場所からVR機器を使って現地の様子を見ながら遠隔操作できる。7月にファミリーマートとローソンが一部店舗で試験導入すると発表していた。 まずは第一段階として、店舗のバックヤードから飲料売り場のペットボトルを陳列する作業で商品陳列の速度や精度の検証を行う。今後はおにぎりやサンドイッチ、弁当など、ロボットが商品陳列を行う商品カテゴリーを拡大し、2022年までに最大20店舗への導入を目指す。 ファミリーマートはModel-Tなどの導入によって、店舗の省人化や物理的な店舗立地に制約されない自由度の高いスタッフ採用など、ロボティクスを軸にした新しい店舗オペレーション基盤「Augmented Workforce Platform」(拡張労働基盤)の開発を進めるという。 同社が公開した動画では、虎ノ門にあるTelexistenceのオフィスからファミリーマートとしまエコミューゼタウン店(東京都豊島区)に設置したModel-Tを遠隔操作して商品陳列を行う様子を確認できる。" text5 = "'YouTube、システムで自動削除した動画が倍増, ポリシー違反を判断する正確性より確実な削除を優先' 米Google傘下のYouTubeは8月25日(以下現地時間)、機械学習を活用してポリシー違反のアップロード動画を発見するシステムにより削除した動画の件数が、1~3月が571万件だったのに対し、4~6月は1084万件で倍増したと発表した。 4~6月の動画削除件数は約1140万件で過去最高を記録。そのうち自動削除によるものが1084万件に上った。1~3月の動画削除件数は全体で611万件で、そのうち自動削除件数は571万件だった。 YouTubeは通常、システムが自動的にチェックしたポリシー違反の動画を人間が確認して削除している。同社は新型コロナの感染拡大を受け従業員の自宅勤務を推進。投稿された動画のチェックに割ける人員の確保が難しくなったとして、3月にはシステムで動画を自動チェックする比率を高める方針を示していた。 人員の制限を受け、チェック漏れがあっても人間による確実な判断ができる範囲に制限して動画を削除するか、ポリシー違反ではない動画を間違って削除する可能性があってもシステムで迅速に削除を行うかの選択を迫られたという。 同社は正確性よりもYouTubeコミュニティーの安全性を優先するとして、システムによる動画チェックの割合を増やした。代わりに動画削除に対するクリエイターからの異議申し立てには迅速に対処できるようリソースを配分したという。申し立て件数は動画削除件数の3%未満で、半数は削除を取り消した。" text6 = "'写真を「ゴッホ風に」,「ピカソっぽく」AIが自動加工, 12種類の画風に対応' AIベンチャーのラディウスファイブ(東京都新宿区)は8月26日、AIが写真をゴッホやピカソの絵画風に自動で加工するサービス「Enpainter」を始めた。AIはゴッホなど著名な画家の作品を約1万件学習しており、ユーザーはファイルをドラッグ&ドロップするだけで、写真をこれらの画家が描いたような雰囲気に加工できるという。広告などで使用するデザインの素材としての利用を見込む。 写真の加工は無料。加工した画像のダウンロードは有料で、価格は1枚480円(税込、以下同)から。高画質な写真を変換したり、作成した画像を上限枚数まで月額固定料金でダウンロードしたりできるサブスクリプションプランも提供する。 対応する画風はゴッホ、ピカソ、モネ、雪舟など12種類。月額2万9700円で提供する「プロプラン」以上の有料プランの場合は最大2500×2500ピクセル、それ以外のプランでは最大1000×1000ピクセルの写真の変換に対応する。ユーザーが利用権を持たない写真の加工は禁止している。 今年3月には、AIが写真を基に西洋画家風の似顔絵を生成する無料サービス「AI画伯」が登場して話題になった。Enpainterでは西洋画家風に加え、雪舟など東洋画家の画風にも対応。肖像画だけでなく風景画像などにも対応している。 まずはPC向けに提供し、今後モバイル端末向けにも提供する計画。動画ファイルの変換への対応や、画風の追加も行う予定だ。" text7 = "'会議発言をAIが書き起こし、議事録作成を楽に, NTTテクノクロスが新サービス' NTTテクノクロスは8月24日、音声認識AIで会議中の発言を書き起こし、議事録作成を効率化するサービス「SpeechRec Plus for Meeting」を31日から提供すると発表した。約1000万語の音声認識に対応。会議でよく使われる例文を多く学習しており、長時間の会議音声も自動で書き起こせるという。 NTT研究所のAI技術をベースにした音声認識ソフトウェア「SpeechRec」を議事録作成用にカスタマイズした。話者や重要部分のタグ付け、テキストの検索機能なども搭載。業界ごとの単語や発話例などを学習した音声認識モデルもオプションで追加できる。地方議会や金融分野などのモデルをそろえているという。クラウド版とオンプレミス版を提供し、初期費用は15万円から。月額利用料は構成やアカウント数によって異なる。" text8 = "'口の中も自撮りで, 深層学習で口腔内を自動検査' 米カリフォルニア大学ロサンゼルス校、中国/清華大学、南京大学、アイルランド国立大学ダブリン校による研究チームが開発した「OralCam」は、スマートフォンで口の中を自撮りして歯の検査ができる、深層学習を用いたモバイルアプリだ。 アプリの起動後、ユーザーは衛生習慣や病歴に関する質問に答え、歯科用マウスオープナーを使って口を開け、口腔内の写真を複数枚、異なる角度から撮影する。 アプリは、取得した画像から歯周病、う蝕、ソフトデポジット(柔らかい沈着物)、歯石、歯の変色の5つの症状を検出する。 検査結果は、写真内の症状がある領域にヒートマップやバウンディングボックスなどで直接描画される。例えば、歯周病領域は赤い四角で囲み、ソフトデポジットや歯の変色領域はヒートマップで表示し温度が高いほどその症状との関連性が高いことを示す。 描画された領域に対して、疾患の種類ごとに罹患の可能性を3つのレベルで表示する。検出した結果から、症状に応じた治療や予防処置の提案も行う。例えばフロスの使用や食後の口洗い、食物繊維を含む食品を多めに摂取するなど。これらの提案は、歯科の専門家との議論を経て導き出したものだという。症状が出た領域をタップすると疾患情報が表示されるため、該当部分の画像を参照しながら知識が得られる。 一度の撮影で多様な情報が表示されるが、痛みや出血などアプリ側が見落としてしまう症状もある。その場合は自分で後から情報を追加することになる。追加した情報は、精度を向上させるために特徴マップとしてモデルに組み込まれる。 症状を検出するモデルには、画像ベースの深層学習フレームワークDCNN(Deep Convolutional Neural Network)が用いられる。モデルの学習には、3182枚の口腔内画像と歯科専門家による詳細なアノテーションからなるデータセットを使用。学習したモデルは、平均検出感度78%を達成している。" text9 = "'感情を表現する字幕、AIが自動生成, DNPとNHKテクノロジーズが試作' 大日本印刷(DNP)は8月24日、AIでテレビ番組の音声と映像を解析し、発言者の感情に合ったフォントで字幕を自動生成するシステムを発表した。NHKテクノロジーズと共同でプロトタイプを開発した。クローズドキャプション(視聴者がオン/オフできる字幕機能)に応用することで、耳の不自由な人にも番組の臨場感を伝えられるという。 音声認識AIで発言をテキスト変換しながら内容を分析。同時に画像解析AIが発言者の表情から感情を推測し、例えば楽しい内容には丸みのあるフォント、怒っているときは角張ったフォントを自動選択する。フォント選択には、2018年にDNPがSNS向けに開発した「DNP感情表現フォントシステム」を活用した。 画像解析AIの併用により、「例えば『やばい』などシチュエーションによって意味が変わる言葉でも正しいイメージのフォントを選択できる」という。また画像解析で発話者を特定し、自動的に口元近くに字幕を表示する機能もある。 今後はNHKの字幕放送(クローズドキャプション)で実用化を目指し、AIの精度向上などを図る他、生放送やネット同時配信サービスへの展開も検討する。DNPは音を出せない場所に設置するデジタルサイネージへの応用や、誰でも字幕を作れる映像編集用ソフトウェアとしても展開する計画だ。" text10 = "'グランツーリスモSPORT最速完走をAIで, 達人を凌駕する技術、ソニーなどが開発' スイス連邦工科大学チューリッヒ校とソニー・ヨーロッパの研究チームが開発した「Super-Human Performance in Gran Turismo Sport Using Deep Reinforcement Learning」は、カーレースゲーム「グランツーリスモSPORT」(GTS)を最速で完走する技術。タイムトライアルで超人的なパフォーマンスを実現する強化学習を用いたフレームワークだ。 コースを最短時間で完走することを目的とする自律走行は難しい。実車やシミュレーションの自律走行車では有望な結果が得られているが、その性能は達人が運転するのにはまだ及ばないのが現状だ。 GTSにおいても、エンジン出力調整などを行わない限り、ユーザーが操作しないノンプレイヤーキャラクター(NPC)では最速の達人に勝てない。 GTSは、タイヤの温度や燃料レベルが自動車のトラクションに与える影響など、現実に起きることをモデル化した、現実度の高いドライビングシミュレーションとして知られており、実世界でのレースに近いと言われている。 今回の手法では、タイムトライアルで達人よりも優れた性能を発揮する自律型エージェントを開発。エージェントは、達人がプレイする経路を参考に学習し、与えられたコース上での移動時間を最小化しながら、レースカーの動きに関する事前知識なしに自律的にナビゲートを可能にする。 具体的には、アルゴリズムの一種であるSoft Actor-Critic(SAC)と新しい報酬設計を利用して、与えられたレースコースをできるだけ早く完走するための運動ポリシーを訓練する。 訓練後のパフォーマンスは、現在ゲームに組み込まれているNPCの限界を超え、70カ国5万人以上のベストラップタイムデータセットにおいて、全てを凌駕した。 ただしこれには条件がある。コース上に他の車がいないシングルプレイヤーのタイムトライアルレースに限定することと、学習した制御ポリシーを単一のコースと車の組み合わせに適用すること。今後の研究では、他の車を認識できるようにしたいという。"
品詞やハイパーパラメータの設定を行う。(実行した際は、デフォルトで行った。)
# キーフレーズ抽出の抽出器作成 extractor = pke.unsupervised.MultipartiteRank() extractor.load_document(input=text40, language='ja_ginza', normalization=None) # 名詞、固有名詞、形容詞、数を抽出する extractor.candidate_selection(pos={'NOUN', 'PROPN', 'ADJ', 'NUM'}) # 閾値、計算方法はデフォルト extractor.candidate_weighting(threshold=0.74, method='average', alpha=1.1) # キーフレーズとして抽出する個数を指定し、抽出する extractor.get_n_best(n=7)
試したこと
パラメータの値を調節したりしましたが結果は変わりませんでした。
補足情報(FW/ツールのバージョンなど)
あなたの回答
tips
プレビュー