比特派钱包app|王小川公布最新大模型，号称全球最长上下文，是GPT-4的14倍 -

2023-10-30栏目：bitpie钱包

原文来源：钛媒体

作者：林志佳

图片来源：由无界 AI生成

国内大模型技术竞争加速，继讯飞星火、智谱推出最新产品之后，百川也迎来了新的大模型成果。

钛媒体获悉，10月30日上午，王小川创立的 AI 大模型公司“百川智能”宣布，推出Baichuan2-192K大模型，其上下文窗口长度高达192K，能够处理约35万个汉字。

百川智能称，Baichuan2-192K是目前全球最长的上下文窗口，也是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗口，实测约8万字）的4.4倍，更是GPT-4（支持32K上下文窗口，实测约 2.5万字）的14倍（1400%）。这不仅在上下文窗口长度上超越Claude2，在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

据悉，Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户。目前百川智能已经启动该大模型的API内测，并开放给法律、媒体、金融等行业的核心合作伙伴。

据悉，百川智能成立于2023年4月10日，由搜狗公司创始人、前CEO王小川创立。其核心团队由来自搜狗、Google、腾讯、百度、华为、微软、字节等知名科技公司的AI顶尖人才组成。目前，百川智能的团队规模170余人，其中硕士及硕士以上学历员工占比近70%，研发人员占比超80%。

过去200多天，百川智能平均每28天发布一款大模型，已连续Baichuan-7B/13B，Baichuan2-7B/13B四款开源可免费商用大模型及Baichuan-53B、Baichuan2-53B两款闭源大模型，在写作、文本创作等领域能力已达到行业较好水平。目前，Baichuan-7B/13B两款开源大模型在多个权威评测榜单均名列前茅，累积下载量超过600万次。

对于建立 AI 大模型公司，王小川曾表示，其团队已有的技术工具可以用来建造大模型，公司的竞争对手就是大公司的开源方案。王小川还认为，整个团队不用太大，百人足够。

8月31日，百川智能率先通过国家《生成式人工智能服务管理暂行办法》备案，是首批八家公司中唯一一家今年成立的大模型初创公司，并于9月25日开放Baichuan2-53B API接口，正式进军To B企业端领域，开启商业化进程。

10月17日，百川智能宣布已完成A1轮3亿美元的战略融资，阿里、腾讯、小米等科技巨头及多家顶级投资机构均参投了本轮。加上天使轮的5000万美元，百川智能累计融资额已达3.5亿美元（约合人民币25.43亿元）。

百川智能未透露当前具体估值，仅表示本轮融资后，公司跻身于科技独角兽行列。根据一般定义，独角兽估值超过10亿美元（约合人民币72.66亿元）。

此次发布的Baichuan2-192K，百川智能表示在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异，有7项取得SOTA，显著超过其他长窗口模型，全面领先Claude2。

百川方面指出，扩大上下文窗口能有效提升大模型性能是人工智能行业的共识，但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前，业内有很多提升上下文窗口长度的方式，包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度，但对模型性能均有不同程度的损害，换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。而本次百川发布的Baichuan2-192K通过算法和工程的优化，实现了窗口长度和模型性能之间的平衡，做到了窗口长度和模型性能的同步提升。

算法方面，百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案，在保证分辨率的同时增强了模型对长序列依赖的建模能力，而且当窗口长度扩大，Baichuan2-192K的序列建模能力持续增强；工程方面，在自主开发的分布式训练框架基础上，百川智能整合优化多个技术，独创了一套全面的4D并行分布式方案，能够根据模型具体的负载情况，自动寻找最适合的分布式策略，极大降低了长窗口训练和推理过程中的显存占用。

Baichuan2-192K便能够与更多的垂直场景深度结合，真正在人们的工作、生活、学习中发挥作用，助力行业用户更好的降本增效。比如它可以帮助基金经理总结和解释财务报表，分析公司的风险和机遇；帮助律师识别多个法律文件中的风险，审核合同和法律文件；帮助技术人员阅读数百页的开发文档，并回答技术问题；还能帮助科员人员快速浏览大量论文，总结最新的前沿进展等。

目前，Baichuan2-192K以API调用的方式开放给百川智能的核心合作伙伴，已经与财经类媒体及律师事务所等机构达成了合作，称不久后将全面开放。

王小川团队表示，百川智能Baichuan2-192K在算法和工程上针对长上下文窗口进行创新，验证了长上下文窗口的可行性，为大模型性能提升开拓出了新的科研路径。同时，其更长的上下文还将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。

比特派钱包app|王小川公布最新大模型，号称全球最长上下文，是GPT-4的14倍 -

随机看看

热门文章