OpenAIの発表で、SoraがAGI?と思ったけど、もしかして現状の映像から映像的な未来予想したりできる? もし内言的な、内面の映像再生として扱うことができるなら、ある時点の画像から予測的に映像を生成して、その上でその内面の映像に対して内部的に言語化して処理して判断するとかいける? ビジュアルシンカー的な o1の思考ステップの中に映像の生成が入ったりするイメージで、マルチモーダルに、言語、音声、映像、画像の生成まで、思考ステップに入る可能性あるんかな