もし生成画像をある種の内言的な、内面の再生映像として扱うことができるなら、ある時点の画像から予測的に映像を生成して、その上でその内面の映像に対して内部的に言語化して処理して判断するとかいける?

ビジュアルシンカー的な

o1の思考ステップの中に映像の生成が入ったりするイメージで、言語、音声、映像、画像まで、マルチモーダルに思考ステップに入るんかな