以OpenAI语言大模型ChatGPT为代表,参数以指数速度扩增的基础模型正通过规模的极致化拟合世界,引发人工智能新一轮技术变革,使得我们可以借助一种最直接而又精妙复杂的方式——自然语言——与机器灵活有效地沟通和交流,为人工智能赋能,使其能较好地完成文案撰写、问题回答、摘要总结、代码编写等极具挑战性的任务。ChatGPT发布短短2个月就积累了1亿活跃用户,是人类历史上最快达到此目标的产品,展示出较高程度的普适智能,产生了深远的社会影响。第一期秀湖会议与会专家达成的共识是:基础模型可敏锐捕捉数字空间中丰富的符号关联,反映出从学习数据形式到学习数据内容的范式转变,这对模型能力涌现具有重要意义。但也要注意到,数据内容学习不能替代知识学习,有机结合知识、数据、算法、算力四大要素是实现通用人工智能的必由之路。基础模型在学科交叉、安全伦理等层面的重要问题也值得重视和深入思考。
中国科学院院士、清华大学教授张钹以“从ChatGPT看人工智能”为题作特邀报告。张钹基于符号主义、连接主义、知识数据双驱动三个代际特征回顾人工智能发展历程,指出ChatGPT倚仗知识、数据、算法、算力四大要素实现开领域、多任务、兼具常识和推理能力等重要突破,仍是第三代人工智能的延续。他强调,当前人工智能仍处于探索“无人区”的过程中,希望广大学者关注ChatGPT本质性缺陷、基础性理论等问题,勇于试错、敢于创新。浙江大学教授庄越挺以“ChatGPT+AIGC:跨媒体智能的突破机遇”为题作特邀报告。报告阐述了以自然语言为媒介关联多媒体的天然优势,探讨以语言大模型作为实现跨媒体智能新路径的重要意义,强调语言大模型可充当现实物理世界复杂系统的中控单元,与物理世界复杂系统密切配合促成智能边界的不断拓展,最终形成“AI包罗万象”的趋势。在以“我国人工智能基础模型未来发展之路”为主题的圆桌讨论中,中国科学院院士、国防科技大学教授王怀民作引导报告。报告强调知识在大模型学习应用中的核心地位,指出知识是符号联系中的稳定模式,大模型预训练及对齐的本质在于对符号建立充分联系并与人类认知形成共鸣。数字化时代的人类不经意间将自身对符号联系的认知保留在互联网数字空间中,使模型更易获取、学习和记忆知识,这是ChatGPT能力优异的重要因素。
清华大学教授孙茂松以“关于ChatGPT及大模型的思考”为题作引导报告,指出ChatGPT的能力涌现在工程价值外更具科学意义,可影响产业生态、文化形态的变化。他强调语言作为进入人工智能的重要门户之于多模态融合的重要意义。哈尔滨工业大学(深圳)/苏州大学教授张民以“语言基础模型”为题作引导报告,报告指出基础模型质量对最终模型效果具有决定性影响,基础模型的先天不足无法通过指令微调弥补,训练可靠基础模型需要夯实数据治理、算力调度等基础工作。哈尔滨工业大学教授车万翔以“ChatGPT浅析”为题作引导报告,指出ChatGPT不同于传统知识存储调用,其以参数形式存储知识,以人机交互获取知识,是继数据库和搜索引擎后的全新一代“知识表示和调用方式”,学术界可从利用模型、弥补不足、研究机理和推广应用四条路径进行探索。复旦大学教授邱锡鹏以“MOSS:对话式大型语言模型”为题作引导报告,报告指出相较于相对固化的基础模型训练,指令微调更加复杂,仍存在较多技术难题亟待突破。他从能力强化、模态融合、世界对齐和开源开放等方面对未来大模型的发展进行了展望。
中国科学院计算技术研究所研究员陈云霁以“AI Processors for LLMs”为题作特邀报告。他结合英伟达从P100到H100的技术演进路线,探讨了智能芯片在大模型时代的挑战和发展,揭示了制造工艺、显存技术改进对大模型训练的支撑作用。报告进一步指出,随着参数规模不断增大,机器通信将成为主要瓶颈,这是堆叠算力规模无法解决的痛点问题,需要软硬件与模型研究合力解决。清华大学教授胡事民以“从深度学习框架看大模型发展”为题作引导报告,深入探讨了国内外深度学习框架在大模型时代的挑战和发展,介绍了国产计图(Jittor)框架面向大模型的发展趋势,在元算子、统一计算图、高效分布式与存储策略、国产软硬件生态支持等方面的创新工作。他强调相较于OpenAI的闭源策略,建设开源生态更有利于促进学术界与工业界优势互补,加速科学研究和技术应用的进程。鹏城实验室研究员余跃以“复杂智能系统工程视角下的软硬件环境”为题作引导报告。报告介绍了英伟达、微软和OpenAI在硬件算力、云计算平台和算法模型上的组合创新力,指出单一建造算力中心模式在系统性能方面的不足,应构建“中国算力网”,实现广域算力协同、大模型驱动垂直模型和层次多级反馈的新计算模式。
北京大学教授李戈以“基于大模型的软件开发自动化”为题作引导报告,揭示了代码与自然语言在顺序性、结构性和层次性方面具有相似统计特性,对大模型能力建模起关键作用,同时结合这些特性,基础模型技术未来有潜力实现一定范围的自动化软件开发。清华大学教授宋森以“类脑智能的可能启示”为题作引导报告,报告引述经典认知系统的分类,强调大脑结构、连接梯度为大脑网络不同区域的学习提供先验,揭示模块化和稀疏化大模型的可能性,并以盲人颜色概念研究展示通过语言学习多模态的可能性。清华大学教授崔鹏以“(后)GPT时代关于不变性、因果性和异质性的探讨”为题作引导报告,强调了大模型的快速增长难以长期持续且未必是通向通用人工智能的唯一途径,根据ChatGPT在因果知识应用、显式因果推断与隐式因果推断上能力逐层下降的现象,揭示了挖掘因果规律对实现通用人工智能的重要作用。
京东集团技术副总裁何晓冬以“关于多模态基础模型,工业界关心的几个问题”为题作特邀报告,指出基础模型通过多轮沟通把复杂任务下达给机器,缓解人机间交流障碍,是近年来人工智能的一大质变。基础模型具有较高的制造成本,但其通用能力可显著降低部署上线成本,使智能服务真正成为工业品,而“多模态统一的基础模型”是下一步必要的攻坚方向,有巨大潜力引领业界变革。上海交通大学教授俞凯以“关于多模态语言基础模型的一些思考”为题作引导报告,指出多模态信息处理应是感知认知统一架构,能对多模态信号实现离散符号映射与重构,进而实现物理世界、行动工具间的互联互通,未来具备较强多模态能力的智能体将具备“社会”属性,产生群体智能。微软亚洲研究院研究员刘树杰以“Discrete is the Nature of the World”为题作引导报告,指出自监督训练是某种意义上的数据压缩,即用有限离散参数记忆海量数据,模型需要抽象数据规律(知识)以提升记忆效率,这些规律使模型具备较高的泛化能力。微软亚洲研究院研究员谭旭以“AIGC多模态基础模型的讨论”为题作引导报告,介绍了当前两条多模态基础模型实现路线,一是训练统一模型兼顾所有模态,二是以语言模型为枢纽调度多个模态模型。前者从长期来看有利于实现学习范式、建模方法的大一统,后者有利于短期落地。腾讯公司研究员葛艺潇以“ChatGPT和视觉基础模型”为题作引导报告,报告指出对多模态数据进行编码并实现编码特征融合的“大一统”方案虽然训练代价高、实现难度大,但具有实现多模态能力涌现的潜力,应当作为未来的重要研究方向。
乌镇智库理事长张晓东以“大模型的第一性原理”为题作引导报告,提出语言大模型采用的“临近词预测”任务与归纳理论存在深刻联系,为大模型在安全、伦理和价值观研究上提供了全新视角。复旦大学教授王国豫以“通用模型的伦理与治理”为题作引导报告,指出大模型作为复杂系统,其内在涌现性和同质性导致一定的不确定性和不鲁棒性,进而给道德治理带来挑战,模型道德治理需结合上下游伦理调节及宏观微观并行策略共同推进。中国科学院自动化研究所研究员曾毅以“构建有道德的强人工智能”为题作引导报告。他通过真实案例凸显大模型在社会信任与伦理方面面临的挑战,主张明确人工智能与人类的界限,强调仅依赖强化学习不能实现具有道德感的智能体,需要基于自我感知塑造人工智能的道德直觉。上海交通大学教授刘鹏飞以“生成式人工智能的评估与安全性”为题作引导报告,他阐述了生成式人工智能如何作为新生产力改变学术界与工业界,强调人工智能安全与价值观对齐的重要性,知识、数据、算法、算力需结合人类需求以真正发挥生产力。
当参数量以百亿乃至千亿计,数据量以万亿计时,基础模型对庞大的信息进行压缩,捕捉其中的规律对世界产生认知。在利用庞大的语料预测下一个字符的过程中,基础模型学习到情感计算、文本分类、数学计算乃至复杂推理等一系列能力,这是一种“极致的多任务学习”(张钹)。从更宏观的角度来看,如果将知识看作符号联系中的稳定“模式”,“预测下一个单词”则是人类文本中最自然的模式信号(王怀民)。训练与涌现 尽管各个模型的训练过程不尽相同,但一个显著规律不断被验证:更大的模型往往具备更好的性能。一系列研究表明,随着计算量的增大,一些特殊能力随之“涌现”,例如情境学习(in-context learning)能力,通过学习几个样本就能掌握解决问题的方法,是一种举一反三的能力,这种能力在小模型上无法观测到。另一个引人瞩目的是思维链(chain-of-thought)能力,这种能力能拆分复杂问题,一步步地提示模型完成任务,给予了基础模型应用无限遐想空间。物理学家、诺贝尔奖得主菲利普·安德森(Philip Anderson)在1972年发表的论文中认为涌现是系统量变引起行为质变。基础模型能力涌现是在数据量大和参数空间大的条件下,揭示并打通隐藏句法、语义和语用模式,模型习得了语言中蕴含的句法和语义知识,两者的结合形成了功能层面的组合泛化,引发了基础模型能力涌现(孙茂松)。人类社会和互联网是人类建立的两大复杂系统,基础模型的成功就在于捕捉到人类社会认知行为在互联网空间的符号映射,并建立了深刻关联(王怀民)。亦有观点认为,当把度量尺度缩小到更细粒度时,这种涌现会表现得更加平滑(邱锡鹏)。对齐与激发 相较于预训练,对齐是一个更为轻量的过程,本质上是希望模型对输入产出符合人类预期的输出。在技术发展早期,研究者通过构造单个或少量任务的监督数据对模型进行微调来完成对齐。随后更加深入的研究表明,在经过多样化数据的“指令微调”后,模型可具备强大的零样本/少样本泛化能力,即在没有见过的任务上也能表现出色。这个现象几乎被谷歌、OpenAI等机构同时发现,并且作为训练更加通用的模型的基本流程。指令微调打通了任务间的壁垒,模型训练不再被分割为互相独立的具体任务,而是以灵活的形式告诉模型人类期望它对特定输入产生什么样的输出(车万翔)。考虑到指令微调给模型注入了人类偏好,因此微调过程须秉持特定原则,如学术界广泛认同的3H原则(有用(Helpful)、诚实(Honest)、无害(Harmless))。指令微调后,更为复杂的带有人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)也被广泛应用,通过训练“甄别好坏”的奖励模型(reward model)提升模型输出的质量、信息量和无害性。这项技术对基础模型和奖励模型都有较高要求,需要更多训练数据,精细对齐调整和优化,具有较大实施难度(邱锡鹏)。无论方案如何,对齐过程被认为是对预训练模型的“能力激发”,因此对齐表现和预训练质量息息相关,二者彼此呼应,不可或缺。安全与伦理 基础模型的强大能力使安全伦理成为无法回避的问题,而基础模型本身的不可解释性、涌现性更进一步加深了潜在隐患(王国豫)。如何摆正基础模型在人类社会中的位置,确保模型符合人类伦理要求,值得谨慎设计与思考。今年3月,基于对人工智能潜在风险的警惕,美国非营利组织生命未来研究所(Future of Life Institute)呼吁暂停大规模人工智能实验,获得包括约书亚·本吉奥(Yoshua Bengio)、埃隆·马斯克(Elon Musk)等2.7万余人的联合签名支持。5月初,杰弗里·辛顿(Geoffrey Hinton)从谷歌离职,并发表有关人工智能威胁性的警告。伦理道德并非单独的科学,探讨人工智能伦理道德需要将其置身于特定语境中(一致意见),应当鼓励社会各界参与,通过不断交互动态构建道德规范,同时在应用过程中进行全生命周期伦理责任监管(曾毅)。可以预见,基础模型的安全伦理研究将是一场长期旅程,相关讨论、规范、制度、监管会随着时间推移而呈现不同面貌,甚至同一时间不同地域也会存在差异。语言与视觉1 基础模型以语言为媒介取得惊人表现,理解以文本模态表示的人类意图并生成符合预期的语言回复,甚至充当物理世界复杂系统的中控单元(庄越挺)。可以预见,以语言模型为基础的多模态基础模型必将成为未来重要的研究方向。在模型架构层面,目前有大一统架构和模块化架构两种思路。使用大一统架构对不同模态数据进行表征易触发多模态能力涌现(孙茂松、何晓冬、刘洋、葛艺潇),但也会加深模型的实施难度和不可解释性。模块化架构更符合人脑分区特征,学习难度低、可解释性高,但存在能力上限。从长远来讲,多模态统一表征是大趋势,大一统架构有较大可能性能实现;而模块化架构可在短期内落地,提供宝贵的先期实践经验(车万翔、俞凯、宋森、谭旭)。在信号形式层面,有离散和连续两种表征形态,两者各具优势。离散信号接近计算机体系结构,任何模态的数据在计算机内的表示本质上是离散的(孙茂松、俞凯、曾毅、宋森、刘树杰)。连续信号具有计算便捷性和鲁棒性,即使被施加微弱扰动也不会产生剧烈输出变化,并且具有信息还原简单的优势(张民、崔鹏)。离散和连续并非完全矛盾对立(胡事民、陈云霁、李戈、谭旭),数据存储和计算在机器中是离散的,但深度学习算法是建立在函数连续性基础上的。与模型架构类似,选择信号建模形式也需要结合实际情况考虑。
机理与应用 基础模型的很多机理我们并不完全理解,已知结论主要通过实验获得。要想更好地发展基础模型,理论机理研究尤为重要,但这绝非易事,基础模型理论可由神经网络、自监督学习、优化等以一种错综复杂的形式交织而成。若要构建自洽的理论体系,可以参考理论物理和数学相辅相成的发展过程,积极开展与其他学科的交流和互动,从数学、物理、神经认知等学科汲取经验并发展相关工具。基础模型创新应用同样值得关注。大量实验表明,将复杂任务序列化,基础模型就能完成传统人工智能难以完成的任务,包括流程规划、工具使用等。未来,基础模型可作为基础设施被应用到医疗、教育、交通等众多领域,每个领域均有特定需求,这需要领域专家和人工智能专家充分合作和交流,建设完善机制,将其适配、定制化到具体场景以提升生产效率。硬件与软件 由于历史原因和技术瓶颈,国内芯片企业与国际领先企业存在关键技术上的差距。对于基础模型,芯片技术尤为重要,但不应单纯缩小晶体尺寸、增加晶体集成度,而是需要结合模型及算法特性进行针对性优化。此外,模型规模增大后,算力的存储能力呈线性增长,而通信需求则呈平方增长,只有在算力、存储和通信三者之间取得平衡,底层硬件才能有效支撑千亿/万亿级基础模型。当下,硬件已然不是一个独立课题,而是需要与软件深度协同共同发展(陈云霁)。例如,英伟达公司预判人工智能和基础模型的发展,早早投入CUDA(Compute Unified Device Architecture)框架开发,并且提前针对Transformer进行适配,使得美国在基础模型时代能够快速推出性能高且符合市场需求的产品。在中国,软硬件也应协同发展,共同推动基础模型的研发和优化(胡事民),通过软件算法创新和硬件设计提升填补与国外的技术差距。随着计算能力的不断提升,未来端侧设备的计算能力也将越来越强,做好端云算力协同、实现算力资源的优化利用也是未来需要研究的重要课题(余跃)。开源与闭环 开源精神是计算机科学的重要特征之一,Linux操作系统、Apache软件、Git代码管理工具等技术产品均秉持开源精神。人工智能领域同样如此,基础模型的“起点”技术Transformer和BERT均在推出后直接开源,使得该领域迅速发展。但这份社区默契在基础模型时代悄然转变,自GPT-3开始,OpenAI选择模型私有化,GPT-4则更是不透露具体细节。谷歌的PaLM和Bard模型、Anthropic的Claude模型均采取闭源发布。闭源背后的原因较为复杂,一方面,基础模型资源消耗大,庞大模型的维护、使用、托管也十分繁琐,开源可能会损害机构的核心竞争力;另一方面,基础模型能力强大,被滥用的潜在隐患也高于传统模型。当前,开源社区内来自全世界的开发者都在积极复现基础模型,尽管目前还难以达到和闭源模型完全等同的水平,但已卓有成效。作为计算机技术得以飞速发展的核心动力之一,开源对未来基础模型的发展不可或缺,但我们面临的开源情况也更加复杂,要在数据、算力、算法、治理、应用多个层面上协同构建开源生态(一致意见)。跟跑与领跑 基础模型已成为世界范围内的“必争之地”,我国主要处于紧随美国的跟跑状态,自有技术目前还无法实现基础模型从训练到应用的全覆盖,存在受制于人的风险。从跟跑到领跑需要各个层面的创新和突破,在国内建立从平台到应用的完备生态框架(孙茂松、张民、李戈)。面向未来,我们应保持人工智能哲学的多样性,实现理论方法创新(张钹),不应被方法论局限(例如结构主义和行为主义),不同哲学之间应当并行发展(张钹、周明辉)。人脑作为碳基,其中很多细节结构能弥补生化能转化为电能的低效,即使采取结构主义方法,也并不意味着要亦步亦趋模仿人脑的每一个结构,而应针对计算机“硅基”特性进行设计(何晓冬、俞凯、宋森)
在硬件层面,除芯片本身的突破外还需要建立中国算力网,通过算力协同为基础模型提供支持保障;在软件层面,积极自研支持国产芯片的高效深度学习、云计算框架,提供包括训练、微调、评测在内的基础软件设施(陈云霁、胡事民、余跃、刘鹏飞);在制度层面,需要建立健全大数据和基础模型管理、知识产权保护、模型道德规范等相关法规制度,营造稳定且开放的环境。尽管大数据概念已提出很久,但已有研究对数据的认识仍不够深刻,包含丰富知识的数据仍没有得到妥善存储和利用,这是很大的损失(庄越挺、张民)。
基础模型的实践表明,人类似乎找到了一种通过对文本进行穷尽式计算,形式化建立数字世界基本语义秩序的有效手段,并且逐渐向更多模态进行扩散,潜移默化地改变人类的思考和行为方式。从学术视角看,基础模型展现了人工智能深刻改变人类社会的潜力,我们既不能陶醉于模型能力突破而忽视其潜在风险,亦不必囿于可能的威胁而畏手畏脚;从产业视角看,ChatGPT并非人工智能的终极目标,中国亟须尽快发展基础模型,建立开源开放的学术社群与软硬件生态,提升中国在全球人工智能领域的竞争力。相信在全社会的共同努力下,人工智能研究者及从业者必将持审慎之心,而不失开拓之意,走出有利于人类社会的基础模型之路。1尽管此处强调“视觉”,但本小节也不失一般性地可涵盖其他模态数据,如语音、视频等。
CCF专业会员。清华大学博士后。主要研究方向为自然语言处理、预训练模型、机器学习。ningding.cs@gmail.com
CCF专业会员。清华大学博士后。主要研究方向为自然语言处理、预训练模型、信息获取。hanxu2022@tsinghua.edu.cn
CCF高级会员。清华大学教授。主要研究方向为人工智能、自然语言理解、中文信息处理、Web智能和社会计算。sms@tsinghua.edu.cn
其他作者:车万翔、刘洋、邱锡鹏