大模型也掀起价格战？OpenAI推出低价小模型GPT-4o mini

7月18日，OpenAI宣布推出GPT-4o mini，一个极具成本效益的小型模型。

小而优

OpenAI把GPT-4o mini描述为，一个具有卓越文本智能和多模态推理能力的小模型。

据OpenAI介绍，GPT-4o mini在MMLU上的得分为82%，目前在LMSYS排行榜上的聊天偏好方面优于GPT-4。

GPT-4o mini在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5 Turbo和其他小型模型，并且支持的语言范围与GPT-4o相同。

GPT-4o mini在函数调用方面也表现出色，可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。此外，与GPT-3.5 Turbo相比，GPT-4o mini的长上下文性能有所提高。

GPT-4o mini已经在几个关键基准上进行了评估。

推理任务：GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型，在文本智能和推理基准MMLU上的得分为82.0%，而Gemini Flash为77.9%，Claude Haiku为73.8%。

数学和编码能力：GPT-4o mini在数学推理和编码任务中的表现优于市场上之前的小型模型。在测量数学推理的MGSM上，GPT-4o mini得分为 87.0%，而Gemini Flash得分为75.5%，Claude Haiku得分为71.7%。在测量编码性能的HumanEval上，GPT-4o mini得分为87.2%，而Gemini Flash得分为71.5%，Claude Haiku得分为75.9%。

多模态推理：GPT-4o mini在多模态推理评估MMMU中也表现出色，得分为59.4%，而Gemini Flash为56.1%，Claude Haiku为50.2%。

请登录后查看