質問編集履歴

1 追記

cutter

cutter score 79

2017/04/07 10:54  投稿

WEBページの情報を自動認識してコンテンツを分類して持ってくるには
100のサイトのデータ取得には、100種類のプログラムを作成する必要があるものを、自動認識してコンテンツを分類して持ってくるには具体的にはどういう作業が必要なのでしょうか。
教育データとして定義を多数手動で作っておいて、という事なのでしょうか。
参考記事
https://goo.gl/MVS9LP
https://goo.gl/MVS9LP
定義を手動でしなければならないのでしょうか。
それとも教育データとしてある程度用意すれば、定義と若干違っても似ているものは取れるのでしょうか。
指定箇所指示に対してゆらぎなどを含めるのでしょうか。
https://nelog.jp/import-io
このツールなどは、自動で要点を判別しています。
  • PHP

    24512 questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • Python

    12253 questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Ruby

    9654 questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る