能看风水 夸我多情味 Kimi现时齐这样野了吗
发布日期:2025-02-05 08:57 点击次数:162最近,差评君发现了个簇新玩意儿。
喂给 AI 一张图,它就能给你预计出一个东说念主的脾气。

光靠歌单,就能把东说念主最近的心思情状预计个七七八八。

而这些,齐出自 Kimi 最新的 k1 视觉念念考模子之手。这不,距离前次推出数学模子 k0-math 打榜 o1 才一个月, k1 就火速登场了。天然,这个 k1 可不啻是像开始那样,只会看图分析脾气那么苟简。

前次咱测试 k0-math 的时期,也曾眼力过了 “ 作念题家 ” 的才气,那解题的念念考进程给差评君齐看得一愣一愣的。只能惜,有些绕逻辑的数学题还有几何题,几许差了点敬爱。
但此次的 k1 就有说法了,既有推理才气又有视觉才气,敬爱即是不错径直拍照上传解题,还堪称能在数理化上打平以致卓著 Open AI 的 o1 。

那如果这样比的话,咱可就来劲了。恰恰, k1 新模子现时也不需要等内测, App 和网页版齐能用上,话未几说,我们径直开整。上来,就扔了 K1 一齐本年高考的几何题。

领先, k1 对题干的解读富足细腻无比,也知说念我方的方针到底是啥。题目给定的条款中可能波及到的余弦定理也斟酌到了,就跟我们在解题时的念念维近似,看到 a2 + b2 - c2 =2ab ,立马会理料想余弦公式 c2 =a2 +b2 -2ab·cosC 。
再凭据公式和条款不竭推导,很快就能求出角 B=60 °。往上滑动稽察更多]article_adlist-->
第( 2 )题稍许难了那么一丢丢,但差评君仔细查验了一遍 k1 的解题进程,念念路妥协法齐没差错,终末边长 c=2√2的谜底亦然对的。(因为这题 k1 的念念考进程确切配头太长,截图就不展示了。)
相通的题目问 o1 ,领先在推理速率上, o1 的 58s 就也曾输了。正确率的话, o1 和 k1 打了个平手,齐作念对了。不同的是, o1 把答题念念路隐敝起来了,没给像 k1 那样的完好意思念念考进程。

不外有一说一,差评君对 k1 模子这种师法东说念主类念念考的样子,倒也不是十分吃惊。因为前次 k0-math 模子就也曾战抖过我一趟了,能意志到我方的失误、还会进行反复考据的形貌,像极了写数学题时苦思冥想的我。
比较之下,此次的 k1 在补短板方面更出彩一些,前次 k0-math 翻车的初中几何题我又拿 k1 试了一次,现时也曾能作念对了,就连上高考难度也不褊狭。
况且我也发现, k1 不仅擅长作念数学题,物理题也不在话下。往上滑动稽察更多]article_adlist-->
接着,我又拿出了一齐逻辑稍许有点绕的逻辑罗网题试了试:一个西瓜进价 50 元,卖价 70 元,雇主收了 100 元假币,终末亏几许钱?
这题打眼一看苟简,但网友对于这说念题的谜底那叫一个丰富多采,有说亏 150 的,有说 180 的,还有说 100 的。。。
我们就望望连好多东说念主类齐想不解白的题, k1 能不成瞧出来内部的罗网。
况且,这说念题我还挑升手写得比较粗率,趁便也测一测 k1 的视觉才气到底是不是有宣传的那么神。

你别说,你还真别说,这模子的 “ 目光 ” 照实不赖。题方针正确率方面, k1 前半部分的分析先得出了一个亏 100 元的谜底,但很快它就含糊了我方。
不竭把假币、找零还有本钱利润这些复杂身分详尽斟酌进去,终末终于想解析雇主亏了 80 元。( 正确谜底是 80 元 )往上滑动稽察更多]article_adlist-->

归正这一通测试下来,差评君发现 k1 会念念考有逻辑,目光好使才能也高, Kimi 这 “ 作念题家 ” 的名号算是坐实了。不外除了作念题之外,我此次还摸索出了更多花里胡梢的玩法。
分析数据、看报表没啥敬爱, k1 模子不是会凭据图片来推理吗,那想必鉴识古钱币也应该有一手吧?
差评君零碎从网上找了一张民国时期银元的图片,两枚银元上假下真,发给 k1 ,淡淡来一把 “AI 版听泉鉴宝 ” 。图源小红书用户@古玩今来(公博代理收评)

k1 不仅知说念钱币是民国时期的,还对钱币的各式细节 kuku 一顿输出,终末居然的确看出来了上头这枚是假币。

咱再冒昧发一张房间的图片,让 k1 望望 “ 风水 ” 。什么 “ 气口 ” 、对称布局、能量均衡。。。
说的头头是说念,以致还真给了冷落,让咱把床换个位置、如期修剪植物、换一个更任性的吊灯。往上滑动稽察更多]article_adlist-->

不外最让我以为惊艳的,如故 k1 看图猜电影的才气。我给了它一张《 七宗罪 》的电影截图,莫得台词只好画面,对于好多没看过这部电影的东说念主来说,想猜出来齐很难。

一启动看 k1 的分析我以为这把大要率要黄了,截至下一秒来一句 “ 拍摄角度和色彩让我想起了大卫 · 芬奇的电影 ” ,还推断出了截图里的画面是《 七宗罪 》里的某一个场景。

的确太强了。。。就连一些晦涩的梗图丢给 k1 ,它也能一册矜重地栽种笑点到底在哪。

诚然有点过度解读的嫌疑,但大体上的敬爱基本齐 get 到了。

就这样说吧,基于 k1 的视觉和推理才气,作念题齐是基操了,只消脑洞够大,还不错解锁出更多的玩法。而 k1 的这种才气,很猛进度要归功于一个叫作念COT ( Chain of Thought )念念维链的手艺。
大要敬爱即是,模子在输出谜底之前,师法东说念主类大脑的念念考样子,把复杂的任务拆解之后,再一步时局治理。这个手艺,不错让模子的才能变高。
另外一边,借助强化学习手艺,也让模子学会了在不竭试错的进程中进化,以此来达到最优的截至,就跟训狗似的。

至于为啥 Kimi 会率先遴荐数学这个场景算作推理模子的切进口,我想,跟我们东说念主类学好数学老师念念维,是一个真谛。
在模子 “ 学好数学 ” 的基础上,再将这种逻辑推理的才气哄骗到物理、化学,乃至于我们正常生计的方方面面,直到终末真实贯穿这个寰球。

而很明显, Kimi 推理模子的泛化才气也曾启动自满出来了。在数据见顶的前提下,这种基于强化学习手艺的旅途,未必能够让模子杀青更好的成果。
不外说到底,模子用了哪些手艺、纸面分数有多高,大伙儿其实更宽恕模子到底好不好用、实作假用。而向来以长文本见长的 Kimi ,如今长文本、强化学习两手持,亦然治愈我方的器具属性徐徐往用户需求逼近的发扬。
毕竟,当手艺不再至高无上,能匡助东说念主们治理本色问题的时期,才算真实完成了它的职责。
背负裁剪:随性著述内容举报
]article_adlist--> 声明:新浪网独家稿件,未经授权禁锢转载。 -->
栏目分类