扫一扫识别文字:把“人话”当算法做 目前的手机屏幕,那层厚厚的玻璃实际上是个庞大的反光板。
你看着屏幕,实际上能看到屏幕后面那层塑料层,它把光线强行塞进屏幕里。
这层塑料层之故此能“认”字,是出于它上面印了一套复杂的“自发光存器”技术,叫 E4 技术。
这玩意儿可不像我们平时见的那些一般/平平平板,它是一排排密密麻麻的发光点,把文字变成一个个像素点。 你想想,咱们平时打字,字迹是连续的,从左边拖到右边。但手机屏幕的像素点儿是离散的,它们像是一粒粒散落在桌面上的珠子。为了能把这些珠子连成字,屏幕里有一套“伪视差”设计。当光线穿过你的眼,经过这层塑料层的时候,光线会在珠子之间形成一点点细小的差别。你的大脑就当作这些珠子仿佛跟着你的眼球在动,就像人在跟着文字走一样。便,你的大脑就判定这串珠子是连贯的文字了。 不过,这层技术有个庞大的漏洞,它最怕底纹。
要是底纹忒复杂,要么留白忒少,光线在珠子之间形成的差别就变大了,大脑就搞不明白这到底是不是字。
故此,目前的手机屏幕,大局部都特意留了白色的底纹,保证光线在珠子之间有一点点细小的差别,这样就能骗过大脑,让它认定是连贯字了。 那到底是如何把散落的珠子连成“两个”的?实际上这原理跟咱们小时候玩“照相机”是一样的。
一般/平平照相机需求两个镜头:一个看远,一个看近,才能把远处和近处的画面拼在一起。手机屏幕也是这个逻辑。它有两块屏幕,一块负责看远(前面的平面),一块负责看近(后面的曲面)。当光线照进屏幕的时候,它先通过表面的反光层,变成一束光射向你的眼。
这时候,它就像照相机一样,把远处和近处的画面在视网膜上重叠。 关键点在于,手机屏幕的“看近”那局部,实际上是做活的。它会根据你手指头靠近屏幕的深浅,去调整后面那块“看近”屏幕的亮度。
这就好比你正在看电影,突然有人伸手过来按住屏幕,你发现这层屏幕变暗了,颜色变深了。你的大脑立马接收到信号:“哦,这个人过来了”,然后你持续看电影。
要是这层屏幕没反应,你看着暗下去的屏幕,大脑就会当作有人在按屏幕,要么在盯着你看,结局你就被吓到了。 故此,这层"E4 技术”里的第二块屏幕,实际上就是个“反光板”。它不负责成像,只负责把光线反射回去。它上面也印着“自发光存器”,就是那一大排发光点。当光线照过来,它就把这些点点亮,反射出你看到的文字。
这背后最核心的算法,实际上是利用了光的相位差。光源发出的光在穿过这层“反光板”的时候,出于经过了不同的路径,形成了一些细小的相位差。当这些相位差的光到达你的眼时,你的大脑就把这些光点识别成了一个个独立的像素点,进而还原出连贯的文字。 这就好比你在晚上开车,路灯是点亮的,而路灯杆是立着亮的。当车开那会儿,路灯变亮,杆子变暗。你的大脑会认定有个东西(车)过来了。但要是车开忒快,要么路灯忒亮,大脑就搞不清楚到底是有车来了,还是路灯杆本身就在发光,要么是别的光影效果。 咱们平时用手机扫书,实际上就是利用了“灰度渐变”和“相位差”的组合拳。当光线照进屏幕,通过那层 E4 技术,光线在珠子之间形成细小的相位差。你的大脑把这些光点识别成了一个个独立的像素点,进而还原出连贯的文字。
要是光线照进屏幕时,珠子之间的相位差忒大,大脑就搞不明白这到底是不是字了。
故此,手机屏幕在识别的时候,会利用算法来调整这些光点的亮度,让它们看起来更自然、更连贯。 不过,这层技术还有个致命的短板,那就是它最怕底纹。
要是底纹忒复杂,要么留白忒少,光线在珠子之间形成的差别就变大了,大脑就搞不明白这到底是不是字了。
故此,目前的手机屏幕,大局部都特意留了白色的底纹,保证光线在珠子之间有一点点细小的差别,这样就能骗过大脑,让它认定是连贯字了。 你又发现啥了?当你扫描一张图时,要是图里有红色的字,你扫出来是红色的;扫出来是黑色,那说明这层技术在这儿已经失效了。
这是出于红色和黑色在电子设备里表现方式不一样,红色是发光,黑色是不发光。
要是光进去,经过那层 E4 技术的处理,红色的字还是红色的,黑色的字还是黑色的。但要是光线照进屏幕时,珠子之间的相位差忒大,大脑就搞不清楚这到底是不是字了。 故此,这层技术实际上是个“伪视差”的升级版。它把一般/平平的“伪视差”变成了“相位差”。
一般/平平伪视差是假的,相位差是确实。当光线照进屏幕时,通过那层 E4 技术,光线在珠子之间形成细小的相位差。你的大脑把这些光点识别成了一个个独立的像素点,进而还原出连贯的文字。
要是光线照进屏幕时,珠子之间的相位差忒大,大脑就搞不明白这到底是不是字了。 这就好比你在晚上开车,路灯是点亮的,而路灯杆是立着亮的。当车开那会儿,路灯变亮,杆子变暗。你的大脑会认定有个东西(车)过来了。但要是车开忒快,要么路灯忒亮,大脑就搞不清楚到底是有车来了,还是路灯杆本身就在发光,要么是别的光影效果。 咱们平时用手机扫书,实际上就是利用了“灰度渐变”和“相位差”的组合拳。当光线照进屏幕,通过那层 E4 技术,光线在珠子之间形成细小的相位差。你的大脑把这些光点识别成了一个个独立的像素点,进而还原出连贯的文字。
要是光线照进屏幕时,珠子之间的相位差忒大,大脑就搞不明白这到底是不是字了。 这就好比你在晚上开车,路灯是点亮的,而路灯杆是立着亮的。当车开那会儿,路灯变亮,杆子变暗。你的大脑会认定有个东西(车)过来了。但要是车开忒快,要么路灯忒亮,大脑就搞不清楚到底是有车来了,还是路灯杆本身就在发光,要么是别的光影效果。 实际上,这层技术最核心的秘密,在于它利用了一种叫做“自发光存器”的装置,来模拟真世界中物体的纹理。当光线照进屏幕时,它会根据你手指头靠近屏幕的深浅,去调整后面那块“看近”屏幕的亮度。
这就好比你正在看电影,突然有人伸手过来按住屏幕,你发现这层屏幕变暗了,颜色变深了。你的大脑立马接收到信号:“哦,这个人过来了”,然后你持续看电影。
要是这层屏幕没反应,你看着暗下去的屏幕,大脑就会当作有人在按屏幕,要么在盯着你看,结局你就被吓到了。 故此,当手机屏幕扫描到文字时,它会把文字处理成一个个像素点。
要是这些像素点的亮度变化忒剧烈,大脑就质疑是不是有人在按屏幕。
要是亮度变化忒轻微,大脑就质疑是不是有东西在发光。
只有当亮度变化在中间,既不忒剧烈也不忒轻微,大脑才能判断出这肯定是一个连贯的文字。 在这个过程中,最关键的算法就是“相位差”计算。光源发出的光在穿过这层“反光板”的时候,出于经过了不同的路径,形成了一些细小的相位差。当这些相位差的光到达你的眼时,你的大脑就把这些光点识别成了一个个独立的像素点,进而还原出连贯的文字。 这就好比你在晚上开车,路灯是点亮的,而路灯杆是立着亮的。当车开那会儿,路灯变亮,杆子变暗。你的大脑会认定有个东西(车)过来了。但要是车开忒快,要么路灯忒亮,大脑就搞不清楚到底是有车来了,还是路灯杆本身就在发光,要么是别的光影效果。 咱们平时用手机扫书,实际上就是利用了“灰度渐变”和“相位差”的组合拳。当光线照进屏幕,通过那层 E4 技术,光线在珠子之间形成细小的相位差。你的大脑把这些光点识别成了一个个独立的像素点,进而还原出连贯的文字。
要是光线照进屏幕时,珠子之间的相位差忒大,大脑就搞不明白这到底是不是字了。 这就好比你在晚上开车,路灯是点亮的,而路灯杆是立着亮的。当车开那会儿,路灯变亮,杆子变暗。你的大脑会认定有个东西(车)过来了。但要是车开忒快,要么路灯忒亮,大脑就搞不清楚到底是有车来了,还是路灯杆本身就在发光,要么是别的光影效果。 实际上,这层技术最核心的秘密,在于它利用了一种叫做“自发光存器”的装置,来模拟真世界中物体的纹理。当光线照进屏幕时,它会根据你手指头靠近屏幕的深浅,去调整后面那块“看近”屏幕的亮度。
这就好比你正在看电影,突然有人伸手过来按住屏幕,你发现这层屏幕变暗了,颜色变深了。你的大脑立马接收到信号:“哦,这个人过来了”,然后你持续看电影。
要是这层屏幕没反应,你看着暗下去的屏幕,大脑就会当作有人在按屏幕,要么在盯着你看,结局你就被吓到了。 故此,当手机屏幕扫描到文字时,它会把文字处理成一个个像素点。
要是这些像素点的亮度变化忒剧烈,大脑就质疑是不是有人在按屏幕。
要是亮度变化忒轻微,大脑就质疑是不是有东西在发光。
只有当亮度变化在中间,既不忒剧烈也不忒轻微,大脑才能判断出这肯定是一个连贯的文字。