前提・実現したいこと
Watsonのspeech to textは音声を文字に変換し、出力結果は「テキスト」のみを表示します。
この出力結果に「テキスト」とそのテキストを読み取った音声ファイルの「時間帯」を表示させたいです。
このAPIのソースコードの概要が分かれば、それが実現可能だとは思いますが、そもそもAPIのソースコードは取得可能なのでしょうか?
APIに無知で初歩的な質問になってしまいすみません。
有識者の方宜しくお願い致します。
IBMに入社して開発に携わればソースを見れる機会はあるかもしれませんね
Watson APIを使った各種プログラミング言語のサンプルコードはgithub上に提供されているようですが、それは確認されましたか。その上で、要望を成したいということでしょうか。
https://github.com/watson-developer-cloud
普通に考えるとWatson本体のエンジンの機能に関わることなので、APIそのもののソースコードは無いのではないでしょうか。莫大なライセンス料を払ってコードを覗く、OEMで開発する、などは考えられるかもしれませんが。
ソースコードが公開されていないということは仮にソースを見れる機会があったとしてもそれを私用に利用することは禁止事項というのが一般的な認識ですか?
ありがとうごさいます、確認不足でした。GitHubでもう少しリサーチします。
> 仮にソースを見れる機会があったとしてもそれを私用に利用することは禁止事項というのが一般的な認識ですか?
「一般」の認識範囲が人それぞれと言うかんじはありますが、漏洩でしかそのような機会はないでしょうから、私が思う"一般的"の範囲では恐らくそうです。APIの利用規約に関連する事項の記載があるかもしれませんが、その有り無しに関わらず、損害、あるいは他方に一方的な利益が発生する場合は極端な話、裁判になってもおかしくないかと。
時間帯という精度であればAPIを呼び出した後なり前に時間帯を自身で取得し、戻ってきたテキストと合わせれば良いのでは?
サービスの心臓部の開発に携わる(=見れる機会)という事は、雇用契約等の際に100%そういう要項があるはずですからね。
で、その仕様というか考え方をザックリ理解して、万が一の裁判時にパクリと判断されないような設計をして作り直せば私用しても大丈夫でしょうけど、プログラムはその辺の基準が非常に曖昧なので、難しいところですね
質問変わってることに気付かんかった
それ要件ならソースコード関係無いですね
hentaimanさん
いえ、ご回答とても助かります。ありがとうございます。
t_obaraさん
音声ファイルの「時間帯」なので自力で音声の各フレーズを「時間帯」で取得するのは難しくないですか?
音声認識は波形とベクトルを用いて認識するそうなので波形の部分のコーディングをいじればテキストと共にそのテキストの時間帯を取得できると思っていました。
dodox86さん
丁寧な説明ありがとうございます。
理解しました。
APIを利用した実現方法ぐらいなら回答付くと思うけど
実現する為の小細工を試した事無いんで自分はコードサンプルも載せられませんが、案ぐらいなら。
「時間帯」とは昼とか夕方とか夜間といったものと考えたのですが、何か異なるものを取得したかったようですね。「音声ファイルの時間帯」を理解できませんでした。
あなたの回答
tips
プレビュー