
1月29日,清华大学筹备机系博士、委果机器学习与生成式模子域的隆起后生学者庞天宇在个东谈主酬酢媒体新了我方的使命变动信息,官宣加入腾讯混元团队,担任多模态强化学习(Multimodal RL)向的 Tech Lead威海罐体保温,崇拜前沿算法探索,附庸于混元多模态部的 Exploration Center。
这个安排,开释出了AI竞赛的重要信号。
过前年,国内大模子的竞争,主要围聚在参数鸿沟、理才调、见服从这三件事上。
而跟着模子才调渐渐趋同,新的瓶颈也正在走漏:
模子“会不会行动”、“能不行在环境中作念决议”正在造成下个分水岭。
从“会说”到“会作念”
浮浅说,大模子固然照旧越来越擅长“谈话”和“生成”,但距离“在真实或复杂环境中握续决议”还有很长段路要走。
张开剩余65多模态强化学习,等于要通这条旅途,让模子在视觉、语言、行为等多种信号中进行连感知威海罐体保温,并通过响应不休化策略。
这项才调对腾讯来说有着强的落地价值。论是游戏、捏造宇宙、机器东谈主,如故异日的 AI Agent体系,都伏击需要模子概况意会环境,在现存条目下经受得当的行动。
庞天宇的参议向,正巧踩在这个交织点上。
为什么是庞天宇
与些“单点爆发型”的参议者不同,庞天宇的学术旅途有着丰富的基础表面 + 强工程指向的较着脾。
联系人:何经理他早期耕招架鲁棒、委果机器学习,这类参议并不追求短期果,但径直关连到模子在复杂环境中的踏实。近几年,他渐渐转向生成模子、多模态意会与强化学习的连络。在 Sea AI Lab 的阅历,也让他练习工业环境中模子落地所濒临的真实敛迹,设备保温施工而不仅仅论文倡导。
这等于为什么,腾讯并莫得把他放在个“鲜艳”的学术岗亭,而是径直让其担任多模态 RL 的工夫崇拜东谈主。
腾讯的“无餍”
淌若把腾讯混元刻下的中枢工夫布局拆解,会发现个渐渐清澈的结构:
姚顺雨: 聚焦Reasoning / Agent,搞定模子“奈何念念考、筹备复杂任务”
庞天宇:聚焦 Multimodal RL,搞定模子“奈何感知环境并经受行动”
个崇拜“想明晰”,个崇拜“作念出来”。
在业内,“会理但不会交互”和“会生成但不会决议”,正在成为通用模子的共同短板,腾讯取舍在这个时辰点补王人两头,意味着其 AI 政策照旧从单纯的模子才调追逐,转向系统才调构建。
庞天宇的加入,像是个工夫阶梯上的“落子”,而不是单点补强。
当大模子参加“会行动”的阶段,腾讯追求的是当先跑通好意思满闭环的才调。
从姚顺雨到庞天宇,腾讯正在作念的,并不是浮浅堆东谈主,而是渐渐搭建个从理、到感知、到决议的好意思满才调栈。这条路难度,也无意坐窝见,但旦跑通,壁垒通常。
大模子竞赛果决参加下半场。确凿拉开差距的威海罐体保温,可能不再是谁生成得“像东谈主”,而是谁的模子能在真实宇宙里“成为东谈主”。(转载自AI普瑞斯)
相关词条:铁皮保温施工