7月18日,OpenAI宣布推出GPT-4o mini,一个极具成本效益的小型模型。
OpenAI把GPT-4o mini描述为,一个具有卓越文本智能和多模态推理能力的小模型。
据OpenAI介绍,GPT-4o mini在MMLU上的得分为82%,目前在LMSYS排行榜上的聊天偏好方面优于GPT-4。
GPT-4o mini在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5 Turbo和其他小型模型,并且支持的语言范围与GPT-4o相同。
GPT-4o mini在函数调用方面也表现出色,可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。此外,与GPT-3.5 Turbo相比,GPT-4o mini的长上下文性能有所提高。
GPT-4o mini已经在几个关键基准上进行了评估。
推理任务:GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准MMLU上的得分为82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%。
数学和编码能力:GPT-4o mini在数学推理和编码任务中的表现优于市场上之前的小型模型。在测量数学推理的MGSM上,GPT-4o mini得分为 87.0%,而Gemini Flash得分为75.5%,Claude Haiku得分为71.7%。在测量编码性能的HumanEval上,GPT-4o mini得分为87.2%,而Gemini Flash得分为71.5%,Claude Haiku得分为75.9%。
多模态推理:GPT-4o mini在多模态推理评估MMMU中也表现出色,得分为59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。
全部评论