经过多方多轮次专家的建议与修订,拟采用如下评测标准,包括6大维度27个细化的指标项,作为对通用 大模型进行评测的基础标准。尽管中国本土通用大模型在初始化阶段落后于国外产品,但随着技术的不断进步和创新,以及数据规模的不 断扩大,中国本土通用大模型的能力正在逐步提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下。具体到6大关键能力(基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力、安全体 系能力),中国本土通用大模型所表现出来的实力不俗,尤其是在“安全体系能力”方面,以文心一言、 ChatGLM为代表,已经逐步拉开了与GPT3.5的差距。从评测的结果来看,本次评测的所有通用大模型,都在有意识的发展 专业领域的能力,例如文心一言、ChatGLM在6大领域的专业能力发展较 为均衡,而GPT3.5在“行业与场景”、“经济与社会”领域较为突出; ——需要注意的是,在专业领域能力方面,提出的问题(执行的任务)主 要集中在对“专业领域问题进行有效的识别、匹配并检索”,所以结果较 好,一旦涉及较为复杂的问题,大模型现在所能反馈的内容具有一定的局 限性。

TE智库《中国通用大模型内容生成及安全性能力评测》
download

声明:本站所有报告及文章,如无特殊说明或标注,均为本站用户发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。