Pythonの実行環境を移植しなくとも、実はLLMUnityというものがあったりします。
これはllama.cppを使ったものであり、通常のモデルよりも量子化という技術で軽量化されているので、こちらのほうがいいかもしれません。
また、蒸留されているモデルも豊富です。
ただ、それでも現状では厳しいものがあるかもしれません。
ファイルサイズだけに注目されていますが、動作させるためにもその分のメモリが使われます。
そのため、「メモリが足りず、そもそも動作しない」という問題が付きまといます。
8GB未満ということも普通にあり得るため、古いものだと普通に厳しいでしょう。
また計算量もあるため、デバイス次第では十分な速度が出ない場合もあります。
実際に私の場合だと
- 所持しているスマホでは最軽量のモデルがまともに動くかどうか
- PCはGPUのVRAMを確保できるよう、デスクトップに買い替えた
といった状況なので、一般ユーザーだと現状厳しいような気もします。
もちろん技術が進めば、デバイスの容量が大きくなったり、モデルを軽量化しても問題なくなったりするのですが、現状では「一部の人が使ってくれればいいかな」と割り切る必要があると思います。
もし多くの人に使ってほしい場合は、サーバーやAPIなどを使って、そもそもユーザーのデバイスで動作させること自体を避ける、といったことを行う必要があるのかなと思います。
それでも、LLMは面白いので、いろいろ試してみたくなってしまいますけどね。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。