X.AI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆,离开OpenAI之后马斯克又再次开始推出大模型AI,即Grok。X.AI在2023年11月5日宣布了Grok-0模型和Grok-1模型的细节。其中Grok-1模型在多个知名榜单评测上的得分结果超过了ChatGPT-3.5水平。
Grok简介
Grok是一个以《银河系漫游指南》为模型的AI,旨在回答几乎所有问题,更难的是,它甚至能够建议要问什么问题!而这个建议问什么问题的功能很有可能是此前透露的SuperPrompt(参考:马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!)。
目前官方宣布的Grok模型包含两个版本:
Grok版本 | 简介 | 参数量 | DataLearner模型信息卡地址 |
---|---|---|---|
Grok-0 | 初始版本 | 330亿 | https://www.datalearner.com/ai-models/pretrained-models/Grok-0 |
Grok-1 | 新版本 | 未透露 | https://www.datalearner.com/ai-models/pretrained-models/Grok-1 |
Grok-1是一个基于自回归Transformer的模型,预训练用于执行下一个词预测。该模型随后通过人类和早期Grok-0模型的大量反馈进行了微调。最初的Grok-1具有8,192个词的上下文长度。
根据官方的消息,xAI成立之后立即开始训练Grok-0模型,这个模型参数为330亿,只用了LLaMA2一般的资源就接近了LL
aMA2-70B的水平。因此,在最近2个月,他们重新训练了一个新的模型Grok-1,这个模型没有透露参数量,但是评估结果显示它的评分超过了ChatGPT-3.5。
Grok的在语义理解和数学推理的评测结果
官方已经公布了Grok的评分,DataLearnerAI已经第一时间同步,官方公布了MMLU、GSM8K和HumanEval的评分。
在综合评测上,如下图所示:
数据来源:https://www.datalearner.com/ai-models/llm-evaluation
上图是按照MMLU评分排序结果,可以看到Grok-1模型的得分73.0,超过了ChatGPT-3.5,仅次于GPT-4和Google的PaLM2模型。十分强悍。在GSM8K得分62.9,也是超过了ChatGPT-3.5,排名第四(第三是智谱AI前段时间开源的ChatGLM3-6B:https://www.datalearner.com/ai-models/pretrained-models/ChatGLM3-6B-Base )。
这里的MMLU是英文理解和通用知识相关评测,GSM8K则是 OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。具体评测指标解释参考:DataLearner大模型综合评测对比表!国产大模型与全球最强大模型大比拼:语义理解、数学推理同台竞技,究竟谁更厉害~
相比较而言,Grok-0就得分低一点,但也是评测排行很靠前的位置,具体大家参考排行网址:https://www.datalearner.com/ai-models/llm-evaluation
Grok编程水平的评测结果
Grok-1的编程水平也很好。根据官方公布的数值,Grok-1在HumanEval的评测上得分63.2,超过了GPT-3.5的48.1。
如下图所示,是DataLearnerAI编程水平排行按HumanEval排行的结果:
数据来源:https://www.datalearner.com/ai-models/llm-coding-evaluation
可以看到,除了专用代码优化的模型,Grok-1得分仅次于GPT-4,远超ChatGPT-3.5模型。不过,专用优化的编程模型从这里看也是十分强大。
Grok的工程实践
官方还透露了xAI为训练Grok而搭建的一整套基础设施。为了创建Grok,xAI基于Kubernetes、Rust和JAX构建了一个自定义的训练和推断堆栈。
为了应对在深度学习训练过程中可能出现的硬件故障,比如GPU的各种问题,Grok采用了定制的分布式系统来确保故障可以立即被识别并自动处理。
GPU出现故障的方式多种多样:制造缺陷、连接松动、配置不当、内存芯片退化、偶尔的随机位翻转等等。在训练过程中,我们需要跨数以万计的GPU同步计算,持续数月之久,而所有这些故障模式因规模的增大而变得频繁。从这可以看出xAI的确是做了很多努力。