文心一言 编辑

百度发布的知识增强大语言模型

文心一言文心一言

文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。

2023年3月16日,百度新一代大语言模型文心一言正式启动邀测。 8月31日,文心一言率先向全社会全面开放。开放首日,文心一言共计回复网友超3342万个问题。 12月28日,百度首席技术官王海峰在第十届WAVE SUMMIT深度学习开发者大会上宣布文心一言用户规模已突破1亿 。

截至2024年4月16日,文心一言用户数已突破2亿,API日均调用量也突破了2亿,服务客户数8.5万,千帆平台AI原生应用数超过了19万。 2024年9月4日,文心一言APP升级为“文小言APP”。

基本信息

编辑

软件名称:文心一言

上线时间:2023年3月16日

开发商:百度

外文名:ERNIE Bot

发展历程

编辑

早期研发历程

2019年3月16日,百度正式发布知识增强的文心大模型ERNIE 1.0,该模型基于飞桨深度学习平台打造,通过将数据与知识融合,提升了大模型学习效率及学习效果。

2019年7月31日,百度文心大模型升级到2.0。ERNIE 2.0通过持续学习框架,持续学习大规模语料中的词法、语法、语义等知识,在共计16个中英文任务上取得全球最好效果。

2020年7月9日,文心大模型(ERNIE)荣获世界人工智能大会WAIC最高奖项SAIL奖。

2021年7月6日,百度官方消息,百度发布文心大模型 3.0(ERNIE 3.0)。ERNIE 3.0首次在千亿级预训练模型中引入大规模知识图谱,ERNIE 3.0刷新54个中文NLP任务基准,并在国际权威的复杂语言理解评测SuperGLUE上, 以超越人类水平0.8个百分点的成绩登顶全球榜首。

2019年-2022年,文心大模型(ERNIE)在语言理解、文本生成、跨模态语义理解等领域取得多项技术突破,在公开权威语义评测中斩获了十余项世界冠军。

发布历程

2023年2月7日,百度官宣新一代大语言模型文心一言(英文名: ERNIE Bot)。百度全栈布局人工智能四层架构,包括芯片层、框架层、模型层和应用层。文心一言,位于模型层。

2023年2月13日,百度官微消息,文心一言将于3月和大家正式见面。

2023年3月16日,百度新一代大语言模型文心一言正式启动邀测。

2023年3月16日,百度北京总部召开新闻发布会,主题围绕新一代大语言模型文心一言。百度创始人、董事长兼首席执行官李彦宏及百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰出席,并展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

2023年4月16日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰再次做客CCTV-2 《中国经济大讲堂》,阐释文心一言这类大语言模型的产品能力、技术原理和产业价值。

2023年4月17日,百度官微发文称文心一言在百度内部全面应用在智能工作平台“如流”。

2023年5月4日,百度创始人、董事长兼首席执行官李彦宏在内部“新使命六周年暨百度骄傲颁奖典礼”发言:文心一言内测一个多月,就完成了4次大的技术升级,大模型推理成本已经降到了原来的十分之一,推理性能提升近10倍。

2023年5月26日,百度创始人、董事长兼首席执行官李彦宏在2023中关村论坛发表题为《大模型改变世界》演讲。他表示百度很快还会推出文心大模型3.5版本。

2023年6月26日,百度创始人、董事长兼首席执行官李彦宏出席“世界互联网大会数字文明尼山对话”,发表了题为《大模型重塑数字世界》的演讲。提到文心大模型已经迭代到3.5版本,与3月份的3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%。

2023年6月27日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰接受采访,详细解读了文心3.5在技术和工程上的升级。据了解,与文心大模型3.0相比,3.5版本不仅在创作、问答、推理和代码能力上全面升级,安全性显著提升,训练和推理速度也大幅提升。功能方面,文心大模型最大的一个变化是新增了插件机制。

2023年8月16日,WAVE SUMMIT深度学习开发者大会消息,文心一言已上线五个官方原生插件:百度搜索(使模型具备生成实时准确信息)、览卷文档(基于文档的长文本摘要和问答)、E言易图(数据洞察和图表制作)、说图解画(基于图片的创作和问答)、一镜流影(文生视频能力)。据介绍,文心一言目前可以支持一次同时使用3个插件,不但扩展了大模型能力边界,也更适应场景需要 。

2023年8月31日,文心一言率先向全社会全面开放。开放首日,文心一言共计回复网友超3342万个问题。

2023年9月18日晚,文心一言大语言模型作为科技创新成果代表登上《新闻联播》。

2023年10月17日,百度世界2023大会上,李彦宏宣布文心大模型4.0正式发布,开启邀请测试。文心大模型4.0是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升。

2023年10月28日,中国计算机大会上百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰表示,文心一言发布至今,文心大模型4.0训练算法效率提升3.6倍,周均训练有效率超过98%,推理性能提升50倍。

2023年11月1日,文心一言专业版正式上线。文心一言官网显示,专业版会员连续包月费用为49.9元,单月购买为59.9元。此次专业版会员服务对应的模型版本是文心大模型4.0,而文心大模型3.5仍可免费使用。

2023年11月8日,世界互联网大会上,百度知识增强大语言模型关键技术荣获“世界互联网大会领先科技奖”。 百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰披露,文心一言用户规模现已达到7000万,场景4300个。

2023年12月28日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在第十届WAVE SUMMIT深度学习开发者大会上宣布,文心一言用户规模已突破1亿,飞桨开发者达到1070万。

2024年1月17日,由粤澳工商联会和百度联合主办的“百度‧澳门AI战略合作签署仪式暨文心一言App澳门智慧城市发布会”在澳门举办。

2024年1月26日,三星电子将在中国推出的Galaxy S24系列智能手机中集成百度的大语言模型文心一言,这将成为其新款手机系列的主要亮点。

2024年2月1日,目前文心一言APP正在内测数字分身新功能,2月2日起,iOS和Android用户升级新版本后,均可免费使用该功能。

2024年4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上正式发布了文心大模型4.0的工具版。截止2024年4月16日,文心一言用户数已突破2亿,API日均调用量也突破了2亿,服务客户数8.5万,千帆平台AI原生应用数超过了19万。

2024年6月28日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在WAVE SUMMIT深度学习开发者大会2024上宣布文心一言累计用户规模已达3亿,日调用次数也达到了5亿,并正式发布文心大模型4.0 Turbo、飞桨框架3.0等最新技术。

2024年9月4日,百度文心一言App获推4.0.0版本升级,更新日志显示,文心一言升级为“文小言”,号称“功能更强大,场景更丰富”。

模型能力

编辑

文心一言是新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。

五个场景综合能力

2023年3月16日文心一言新闻发布会上,百度创始人、董事长兼首席执行官李彦宏及百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

文学创作

文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。此外,文心一言准确回答了《三体》作者、电视剧角色扮演者等事实性问题。生成式AI在回答事实性问题时常常“胡编乱造”,而文心一言延续了百度知识增强的大模型理念,大幅度提升了事实性问题的准确率。面对“于和伟张鲁一有哪些共同点”、“于和伟和张鲁一谁更高”这类问题,文心一言也基于推理能力得出了正确答案。

商业文案创作

文心一言顺利完成了给公司起名、写Slogan、写新闻稿的创作任务。连续三次内容创作生成中,文心一言既能准确理解人类意图,又能清晰地表达,这是基于庞大数据规模而发生的“智能涌现”。

数理逻辑推算

文心一言还具备了一定的思维能力,能够学会数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。

中文理解

作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力,在中文语言和中国文化上有更好的表现。在现场展示中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。

多模态生成

百度创始人、董事长兼首席执行官李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。文心一言甚至能够生成四川话等方言语音。

文心大模型 4.0

2023年10月17日百度世界大会上,文心大模型 4.0 正式发布。百度创始人、董事长兼首席执行官李彦宏表示,这是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升,综合能力“与 GPT-4相比毫不逊色”。 文心大模型 4.0的理解、生成、逻辑、记忆四大能力都有显著提升,其中理解和生成能力的提升幅度相近,而逻辑和记忆能力的提升则更大,逻辑的提升幅度达到理解的近 3 倍,记忆的提升幅度也达到了理解的 2 倍多。

基于文心大模型4.0,百度创始人、董事长兼首席执行官李彦宏依次演示了四大能力的特点与应用场景。

在理解能力上,他通过询问公积金异地贷款政策的案例,展示了文心一言对前后乱序、模糊意图、潜台词等复杂提示词的理解力,例如“在北京工作”等同于“在北京缴纳公积金”等等,“今天,你说的每一句话,它大概率都能听懂”。

在生成能力上,李彦宏展示了文心一言如何在短短几分钟内,根据一张素材图片,迅速生成了一组广告海报、五条广告文案以及一条营销视频。据介绍,基于这一系列能力,百度已经推出了AIGC营销创意平台擎舵,让“一个人就成为一支AI营销队伍”。

同时,他还通过解数学题、总结知识点等场景,展示了大模型的逻辑能力;通过数千字的小说撰写和角色、情节设置,体现了大模型的记忆能力;以及数字人医生帮助患者解读药品说明书,来展现四大能力的综合应用。

文心大模型4.0在多个关键技术方向上进一步创新突破。在万卡算力上运行飞桨平台,通过集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了大模型的稳定高效训练。建设了多维数据体系,形成了数据挖掘、分析、合成、标注、评估闭环,充分释放数据价值,大幅提升模型效果。基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐,保证模型更好地与人类的判断和选择对齐。可再生训练技术通过增量式的参数调优,有效节省了训练资和时间,加快了模型迭代速度。

文心大模型4.0在输入和输出阶段都进行知识点增强。一方面,对用户输入的问题进行理解,并拆解出回答问题所需的知识点,然后在搜索引擎、知识图谱、数据库中查找准确知识,最后把这些找到的知识组装进prompt送入大模型,准确率好,效率也高。另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有差错的点进行修正。

在强大的基础大模型的基础上,百度进一步研制了智能体机制,包括理解、规划、反思和进化,能够做到可靠执行、自我进化,并一定程度上将思考过程白盒化,让机器像人一样思考和行动,自主完成复杂任务,在环境中持续学习实现自主进化。

文心大模型 4.0 Turbo

百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在WAVE SUMMIT深度学习开发者大会2024上发布了文心大模型4.0 Turbo,网页版、APP、API陆续面向用户开放。企业用户即刻起登录百度智能云千帆大模型平台,即可使用API服务。

通过数据、基础模型、对齐技术、提示、知识增强、检索增强和对话增强等核心技术的持续创新,以及飞桨文心的联合优化,文心大模型4.0 Turbo的速度更快,效果更好。

官网介绍

编辑

文心一言官网向广大用户提供对话交互、内容创作、知识推理、多模态生成等模型能力,辅助用户工作、学习、生活中的各类需求;并上线了一言百宝箱、新手引导、问题推荐、指令润色、智能配图、回答复制、回答分享、历史对话管理等功能,帮助用户更便捷、深入地使用大语言模型;此外,文心一言官网还推出了智能体广场:如农民院士智能体、阅读助手、说图解画plus、一镜流影等,进一步拓展了大语言模型的能力边界,更广泛地满足用户需要。

文心一言专业版则向用户提供了更强大的文心大模型4.0、文心大模型4.0 Turbo、更丰富的图片生成能力、更多的智能体、更长的输入输出、升级的产品界面等会员尊享权益,进一步发挥大语言模型对专业用户的独特价值。

产品功能

一言百宝箱

用户可在一言百宝箱搜索、浏览不同职业和场景的优质指令词,学习指令撰写技巧、使用符合自身需求的指令;用户还可以查看当日热门指令,收藏高频使用的指令。

问题推荐

用户可以在文心一言官网首页点击问题推荐模块,快速了解模型能力;此外,模型会根据用户的问题,自动生成推荐问题,帮助用户进一步发掘和满足需求。

对话管理

用户可以对文心一言的回答进行复制、分享,还可以对历史对话进行置顶、修改标题等操作;此外,模型也会自动摘要历史对话的标题,帮助用户快速定位过往对话。

智能体广场

农民院士智能体

农民院士朱有勇,为你解答关于旱地优质稻的各类问题。

PPT助手

百度文库AI助手,助你一键生成精美PPT。支持对生成的PPT进行AI二次编辑、手动编辑、格式转换及导出等多样化操作。覆盖营销、教学、会议、知识总结、沟通讲解、开题报告、述职答辩等分享与汇报场景。

E言易图

基于Apache Echarts为您提供数据洞察和图表制作,目前支持柱状图、折线图、饼图、雷达图、散点图、漏斗图、思维导图(树图)。

阅读助手

原ChatFile,可基于文档完成摘要、问答、创作等任务,仅支持10MB以内文档,不支持扫描件。

AI词云图生成器

词云图生成助手,可以根据用户的指令生成对应的词云图片。

商业信息查询

爱企查提供商业信息检索能力,可用于查企业工商/上市等信息、查老板任职/投资情况。

学术检索专家

百度学术提供的文献检索插件,收录6.8亿文献信息资源,覆盖国内外120万个学术站点,为用户提供全面的学术资源检索服务。

百科同学

一个可以答疑所有历史问题的小能手,无论询问哪个历史时期、哪个历史事件或哪个历史人物,我都会尽力提供精准回答及相应依据来源。

加盟资讯顾问

加盟星提供加盟信息检索能力,可用于查询具体品牌的加盟流程、加盟费用、加盟条件等信息。

说图解画Plus

根据图片进行文案创作、知识问答、实景匹配、数据分析、代码撰写,暂支持10MB以内图片。

阅读助手Plus

可基于文档内容完成知识问答,内容摘要,文案创作等任务。支持Word/PDF/TXT/Excel/PPT多种格式。

仔细想想

在输入与输出环节增强文心一言的思考能力。输入环节引入慢思考机制,能够深入理解和分析用户需求,输出环节可自主拆解答案并进行精准校验,极大提升了回答的准确性和可靠性。当前只对文本创作和知识问答任务生效。

智慧图问

根据图片进行文案创作、知识问答、实景匹配、数据分析、代码撰写,暂支持10MB以内图片。

一镜流影

AI文字转视频,从主题词、语句、段落篇章等文字描述内容,一键创作生成视频,暂仅支持生成30s内的视频。

更多智能体见文心一言官网智能体广场

技术优势

编辑

百度在搜索、人工智能领域深耕20多年。自2010年起开始全面布局人工智能,是全球为数不多、进行全栈布局的人工智能公司。从昆仑芯片、飞桨深度学习平台、文心大模型到应用四层架构中,百度在技术栈的各层都有领先业界的关键自研技术,实现了层与层反馈,端到端优化,大幅提升效率。文心一言新一代大语言模型,位于模型层。

文心一言的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,ERNIE和PLATO中已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。

知识增强

主要有“知识内化”和“知识外用”两种方式。

知识内化是从大规模知识和无标注数据中基于语义单元学习,利用知识构造训练数据,把知识学习到模型参数中;

知识外用则是引入外部多源异构知识,做知识推理、提示构建等。

检索增强

来自以语义理解与语义匹配为核心技术的新一代搜索架构。通过引入搜索结果,可以为大模型提供时效性强、准确率高的参考信息。

对话增强

基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,从而更好实现对话的连贯性、合理性和逻辑性。