温馨提示:本站为童趣票务官方授权演出订票中心,请放心购买。
你现在的位置:首页 > 演出资讯  > 儿童亲子

AI解奥数如喝水,儿童图画却翻车?BabyVision评测戳破智能神话

发布时间:2026-01-15 16:40:22  浏览量:2

本文内容均是根据权威材料,结合个人观点撰写的原创内容,辛苦各位看官支持。

现在的AI模型能解大学奥数题,却连3岁小孩都能看懂的图画题都做不对这不是玩笑,是最新的BabyVision评测刚扒出来的真相。

前阵子GoogleDeepMind的老大DemisHassabis就吐槽,他们的AI能拿奥数金牌,却在小学几何题上栽跟头,当时我还以为是个别情况,直到看到这个评测数据。

咱们平时看AI写代码、做报告挺厉害吧?但让它看看儿童图画书里的连线题,能把你急死。

这个BabyVision评测集就是专门给AI出的"儿童试卷",有意思的是,它故意把那些能用文字描述的视觉题都剔除了。

比如说"哪个动物是猫"这种题,AI背背图片标签就能答对,不算真本事。

评测里全是得靠真眼力见的题,比大小、追轨迹、想空间、找规律。

就像让你看两张图,找出哪个积木堆得更高,或者看小球滚动的动画,判断最后会滚到哪个洞里。

这些题对咱们成年人来说简单到不用想,但对AI来说简直是噩梦。

看到对比数据时我有点不敢信。

20道视觉题,3岁小孩平均能对15道,6岁小孩基本全对。

而那些咱们耳熟能详的顶尖AI模型呢?GPT-5.2只对了7道,还不如刚会说话的娃,最厉害的Gemini3-Pro-Preview也就对了12道,刚过3岁基线,离6岁水平还差着20%呢。

有个垃圾分类连线题特别典型。

图上画着苹果核、塑料瓶、废电池,下面三个分类框写着"厨余垃圾""可回收物""有害垃圾"。

咱们成年人扫一眼就知道怎么连,3岁小孩可能犹豫一下也能连对。

但AI呢?把苹果核连到了"有害垃圾"框,塑料瓶连给了"厨余垃圾",简直是乱点鸳鸯谱。

后来看分析才发现,它根本没"看"清图片细节,是靠猜标签蒙的。

本来以为AI生成图像那么厉害,应该很懂视觉,后来发现完全不是一回事。

BabyVision-Full评测弄了388道题,参考了儿童认知教材和视觉发育测验,光候选图片就筛了4000多张,够严谨了。

结果人类正确率94.1%,AI最高的Gemini3-Pro-Preview才49.7%,连一半都不到。

这不是某一方面不行,是全方位拉胯。

评测把视觉能力分成四大类,精细辨别、视觉追踪、空间感知、视觉模式识别,AI在每一类上都被人类吊打。

最惨的是"数3D积木"那个题,给个立体积木堆的图,问总共有多少块。

成年人一看就知道要算上被挡住的,AI却只会数表面能看到的,结果差了一大截。

为啥会这样?我琢磨着有几个核心问题。

最关键的是"说不出来的信息"丢了。

咱们看一幅画,能抓住那些没法用语言描述的细节,比如线条的弧度、颜色的深浅变化。

但AI处理图像时,得把图片转成文字一样的"token",这个过程中好多细节就没了。

就像拼图补全题,咱们能看出缺口的形状和旁边图案的衔接,AI却只能瞎猜,因为那些微妙的轮廓信息在token化时丢了。

还有个问题是AI处理连续视觉轨迹时太"死板"。

比如让它看小球从斜坡滚下来的动画,预测最后停在哪。

咱们能想象出小球的运动轨迹,AI却像在看一张张独立的照片,没法把它们串成连贯的动态过程。

结果就是它选的落点跟实际能差十万八千里。

三维空间认知也是个老大难。

给个正方体的展开图,问折起来后是哪个立体图形。

成年人转转眼珠就能想出来,AI却像没长立体几何的脑子。

它没有稳定的3D内部表征,只能靠表面特征瞎蒙,经常把相邻面的图案搞混。

最让我觉得无奈的是图形规律归纳。

比如给一排图形,问下一个是什么。

人类会看结构规律,比如"圆形、三角形、圆形、三角形"这样交替。

AI却总盯着颜色、大小这些表面属性,明明规律是形状交替,它非说是颜色渐变,简直是驴唇不对马嘴。

如此看来,AI现在的视觉理解,其实是在"用语言翻译视觉",根本不是真的"用眼睛思考"。

就像一个只会背单词却不会说句子的人,看着挺厉害,一到实际交流就露馅。

那有没有办法改进呢?最近有个新尝试叫BabyVision-Gen,让AI用画图的方式解题。

比如问小球轨迹,AI直接在图上画条线出来。

结果发现,这种生成式作答比单纯选答案好多了,Nano-Banana-Pro在路径描绘题上正确率提高了快30%。

看来让AI"动手画"比"动嘴说"更适合视觉任务。

Sora2和NanoBanana-pro这两个模型在画轨迹时,居然能表现出"类人"的思考过程,会先画虚线草稿,再描实线,跟咱们解题时打草稿一样。

这说明视觉操作可能是弥补语言化损失的好办法。

说到底,AI要想在真实世界里靠谱点,必须先打好视觉地基。

你想啊,机器人要帮人拿东西,得先"看懂"哪个是杯子哪个是碗,自动驾驶要避险,得"看明白"前面是行人还是垃圾桶。

这些都不是靠语言能搞定的,得真的"用眼睛思考"。

现在的AI就像个偏科严重的学生,语文英语考满分,数学物理不及格。

要成为通用智能,偏科可不行。

BabyVision评测算是给行业提了个醒,别光盯着语言能力猛堆参数了,视觉这块短板再不补,AI永远成不了"明白人"。

或许未来的突破口,就是让AI学会像人类一样"看世界"不是把图像翻译成文字,而是直接用视觉信号思考。

到那时候,别说儿童图画题,估计连复杂的工程图纸、医学影像都能轻松搞定。

但在此之前,咱们得先承认,现在的AI,在"看懂"这个基本功上,真的还在幼儿园阶段。

不知道您对此有什么看法呢?欢迎在下方评论区留下你的想法,喜欢文章记得点赞关注我们下期再见。