2025年,连小学生都会的看表技能,AI正确率只有13%,人类轻松拿下89%。
刚刷到这份ClockBench成绩单,第一反应是假消息。
再点开论文,720道题、180块表,从古董挂钟到极简表盘,全测一遍。
人类平均误差3分钟,AI动辄跑偏一小时,最离谱的模型直接把63%的钟表判成“时间不存在”。
这画面像极了不会调表的亲戚,指针乱指就宣布表坏了。
细看题型,分四大类:认时间、加减时间、指针旋转、时区换算。
AI在纯计算题里偶尔满分,一到读指针就翻车。
原因不复杂,训练数据里缺钟表实拍,模型没见过千奇百怪的表盘。
更尴尬的是,判断“无效时间”反而成了遮羞布,答对40%就算高光时刻。
有人觉得小题大做,看表又不是造火箭。
可生活里处处是钟表:地铁进站倒计时、叫号屏、厨房计时器。
AI若连这都搞不定,自动驾驶看路标、机器人端菜盘,照样会卡在同一道坎。
空间感加常识,才是现实世界通行证。
翻查资料,发现钟表图在公开数据里占比不到0.1%。
大厂忙着喂论文、喂代码,没人给表盘拍特写。
缺啥补啥,下次训练集里塞满一万张老式座钟、电子翻转表、机场LED大屏,分数或许能翻身。
但补数据只是止痛片,真正难题是让模型把视觉和逻辑焊死在一起,像人脑那样瞄一眼就知道几点。
换个角度想,AI不会看表,恰恰提醒人类别急着把方向盘交出去。
现在就把所有读时任务外包给算法,地铁误点、手术排班、航班起降都可能被一根走歪的指针搅乱。
技术圈流行一句话:先让AI做人类懒得做的事,再让它做人类做不到的事。
看表明显属于前者,可AI连懒事都搞砸,后面的路还长。
你手机里的语音助手能报时,却看不懂表盘,这事本身就够荒诞。
下次有人炫耀AI万能,把这篇文章甩过去,让他先教会模型看厨房计时器。
如果连三根指针都数清,再谈接管世界也不迟。