百川智能发布 Baichuan2-192K 大模型 可处理约35万个汉字

作者:小编 更新时间2023-10-30 11:31:23 点击数:

百川智能发布了 Baichuan2-192K 大模型,具有全球最长的上下文窗口长度,能够处理约35万个汉字。

与目前最优秀的大模型 Claude2相比,Baichuan2-192K 的上下文窗口长度超过了4.4倍,超过了 GPT-4的14倍。

微信图片_20230809104207.jpg

Baichuan2-192K 在长窗口文本生成、理解、问答、摘要等方面表现出色,并在10项长文本评测中取得了7项 SOTA 成绩。

据悉,Baichuan2-192K 通过算法和工程的优化,实现了窗口长度和模型性能的平衡,采用动态采样的位置编码优化和4D 并行的分布式方案。

目前,Baichuan2-192K 已经开始内测,已与法律、媒体、金融等行业的核心合作伙伴合作,将于不久后全面开放。Baichuan2-192K 能够应用于长篇文档关键信息提取与分析、长文档摘要、审核、编写、复杂编程辅助等场景,并为多模态输入和迁移学习提供支持。