360 度幻影成像:把眼关上一半看世界 说确实,咱们那会儿一直盯着屏幕看,认定手机摄像头是全场唯一的“上帝视角”。直到那个坐在屏幕前、眼神空洞的老人坐到了我的面前,才让我明白,这玩意儿实际上挺别扭的。
这玩意儿不负责记录,它负责“欺骗”眼。 你看目前的手机,摄像头朝上,照见的是天花板,但人眼是朝下看的,本来指望能看到地上的。可这个 360 度幻影成像,它不选你,它选你光线的角度。它把摄像头转了 360 度,像个大陀螺一样梳子梳头发似的,把周围所有的光线全录一遍。你闭上眼,再睁开,它就用这些乱糟糟的画面拼凑出一张图片,让你认定世界是这玩意儿朝上照的一样。 这原理实际上就挺好办的,就是光路忒绕忒复杂了。你站在这,摄像头在下面拍地面,但你想看头顶,光线直接从天上射下来,照在你的眼里,这时候大脑会当作那是头顶。摄像头在上面拍你脸,但你想看地面,光线是从你的眼透过来的,大脑又认定你是从头顶看下来的。
这就像在搞魔术,你明明看着对面的人,大脑却自动脑补出你在看着天。 这就得依赖一个核心东西,叫“空间预置”。
这是这玩意儿最蠢也最智慧的一点。想象你在家里,把摄像头放下面,你看拿到地上的东西,也看不到天花板上的光。
这时候你脑子里有个小计算器,算出:啥距离叫地板?啥距离叫天花板?它把你看到的像素点,按这个距离的规律给归类。一旦你转身,摄像头转起来,它直接把这些计算好的脑袋给撕了,重新给你算一遍:啥距离是天花板?啥距离是地板?这就能让你认定世界就在摄像头上,彻底没变。 但这玩意儿有个庞大的弱点,就是依赖“空间预置”的准性。你略微歪了张嘴,要么换了个角度,它刚刚算的对的,目前算的就不对了,大脑就得重新推导。
这就害得它有时候真像个老古董,老人在旁边站着,它当作老人头朝北,实际上老人头朝东,它就把东西转了个圈,结局老人头朝东了,东西却歪了。 举个具体的例子,给你看一段实测的数据。有个测试,我在实验室里站定,眼闭着,把手机放在前面,让摄像头朝上。我闭眼的时候,大脑自动把摄像头定位在“头顶”,出于我的视网膜上确实没东西,只有天花板。目前我把手机摆到“侧脸”的角度。
这时候摄像头朝向我的右耳,我睁开眼看,它之前的算法当作我在看天花板,结局画面里除了摄像头没别的,出于它根本不需求那 360 度的数据。它要是能自动算出“我在看右耳”并忽略那 360 度的乱糟糟画面,那才是真本事。可它做不到,它只能给你一堆乱码,然后让你自己在脑子里搞个模型。 这就涉及到一个更深层的难题,叫“视觉遮挡”。当你转头,某个物体挡住了光线,要么你的眼离某些像素忒近忒远了,这些像素点的数据就会丢失。
这玩意儿就在这种时候挺 плачев。
比如你低头看手机,手机边框挡住了视线,手机里那个小图标就看不见了。
这就不是算法的难题,是物理位置的难题。 还有一个不得不提的,就是它跟现实世界的“脱节”。
你看着手机里的画面,它跟你眼前的现实世界是两个概念。你转头,手机里的东西也跟着转,但你的现实中,那个角度可能已经有别的物体了。你转头,手机里的人头也跟着转,可现实中,那个人头可能已经在你的视野外了,就连被其他东西堵住了。你明明举着手机在转,结局手机里的人头却原地踏步。
这就像你拿着放大镜看文章,文章上的文字跟着放大镜转了,但文章本身没动。 还有个细节,是它彻底不懂“前后距离”的微妙差别。
你看着手机,手机在你面前两米,它显示的就是两米。你要是往后退,两米变成两米五,它自己也不知道。它只知道自己拍了你,拍到了你,然后拿着拍到的东西,给你重新虚构一个距离。它不知道如何算,它只会说“画面是这样的”。 这就害得了它有个挺严重的缺点,就是彻底没“上下”概念,只有“左中右”。当你拿着手机转圈,它把你转了一圈,却压根儿没想过:这儿是头顶,那儿是脚丫。它就是个忠实的记录仪,死板地记录下了所有光线,然后凭运气拼凑出个世界。
这拼凑出来的世界,别看让你认定全貌全貌,但它实际上是个庞大的谎言。 再仔细看看,个具体的数据。在实验室测试里,我让一个志愿者闭眼,把手机放在正前方,看手机里的画面。
然后我把手机斜着拿,往右斜 30 度。
这时候,手机里的画面会往右移 30 度,彻底不会变。出于手机没动,它是忠实地记录下了斜着那个角度。你再看画面,它里面的东西也跟着右移了。但这跟你的肉眼不一样,你的肉眼斜着看,东西应当也会偏。手机里的东西是“直线偏斜”,但你的眼是“透视变形”。它的算法只会做直线偏斜,它察觉不出哪儿不对劲,出于它根本没被现实世界“纠正”。 这就引出个更严重的坑。就是“远近信息”的缺失。它只告诉了你“东西在哪个方向”,但它没告诉你“东西离我有多远”。你闭着眼,手机在面前,它告诉你这是头顶。你突然转头,手机在面前,它依然告诉你这是头顶。但这不代表它知道你目前看到的是头顶,它可能看到的是你的眼。出于你离摄像头忒近了,它根本算不准你眼到摄像头的距离。它只知道“镜头在 1 米外”,却搞不懂“你在镜头前 2 米处”。 这害得它有时候会给你毛病的指引。
比方说,你站在屏幕前,举着手机做鬼脸。手机里的鬼脸跟着你动,但你的鬼脸可能还在原地不动。出于手机拍到了“你脸”这个数据,但它不知道你目前是举起来了还是放下,也不知道你目前想看的鬼脸是左眼还是右眼。它只能给你一堆乱码,让你自己在脑子里猜。 还有一个常见的误区,是当作这玩意儿能“增强”现实。
实际上它只是“替换”。它给你的不是真的 3D 世界,也不是真的 2D 平面,它是一个基于光线追踪的 3D 重建。它用 360 度的数据,强行给你做了一个“看起来像 3D"的假象。它让你认定世界凸起来,世界凹下去,但它啥都没形成。它只是给世界加了一层滤镜。 这就解释了为啥有时候它会在你看不到的地方给你东西。
比如你低头,屏幕里显示的是头顶,但要是你转头,屏幕里突然多出来了一些东西。
那不是你眼看到的,是手机里的数据在“幻觉”出来的。它不知道那里有东西,但它知道那里应当有东西。 最终得提个技术层面的,就是它的计算量。它要处理 360 度的数据,哪怕是一帧,也得算几十亿次。
这玩意儿是纯靠 CPU 干活的,没 AI 辅助。它的算法是“事前设定”,光线打进来,它直接对应好位置。没法像目前的算法那样,实时学习,实时调整。
故此它只能在光线角度固定的时候,才准;光线角度一乱,它就崩了。 总的来说,360 度幻影成像就是个“拍照 + 脑补”的混合体。它把摄像头当摄像机,把光线当数据,把大脑当数据库。它拍下了所有的光线,然后试图把它们拼成一个整个的画面。但这画面里,所有的物体都是假的,所有的距离都是错的,所有的视角都是错的。它让你认定世界在跟着你转,实际上世界根本没动,只有你的大脑,被手机里的乱码给骗了。 这就是 360 度幻影成像,一个挺智慧,也挺狡猾,但根本不平等的怪物。它给你看世界,但它不关心世界是不是确实。它只关心,它能不能在你的眼里,装下一个它认定的世界。
要是能,那它就是神;要是不能,它就是个笑话。