每日經濟新聞
商訊推薦

每經網首頁 > 商訊推薦 > 正文

中國模型崛起!阿里Qwen2.5-Max數學及編程能力趕超OpenAI

2025-02-04 19:29:34

2月4日凌晨,三方基準測試平臺Chatbot Arena公布了最新的大模型盲測榜單,一周前剛發布的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理類的中國大模型冠軍。同時,Qwen2.5-Max在數學和編程等單項能力上排名第一,在硬提示(Hard prompts)方面排名第二。

截圖自https://lmarena.ai/?leaderboard

據了解,Chatbot Arena是由LMSYS Org推出的大模型性能測試平臺,目前集成了190多種模型。該榜單采用匿名方式將大模型兩兩組隊,交給用戶進行盲測,用戶根據真實對話體驗對模型能力進行投票。因此,Chatbot Arena LLM Leaderboard成為全球頂級大模型的最重要競技場。

ChatBot Arena官方評價稱:阿里巴巴的Qwen2.5-Max在多個領域表現強勁,特別是專業技術向的(編程、數學、硬提示等)。

Qwen2.5-Max是阿里云通義團隊約一周前發布的最新MoE模型,展現出極強勁的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

Qwen2.5-Max發布后,立刻在海內外大模型社區引發熱議:ChatBot Arena官方發推文稱,以Qwen2.5-Max為代表的中國大模型正在迎頭趕上;有從業者在驚嘆新模型強大性能的同時,也興奮地表示:“我們可以告別ChatGPT了!”

目前,企業可在阿里云百煉調用Qwen2.5-Max模型的API服務,開發者也可在Qwen Chat平臺中免費體驗最新模型。

責編 朱德燁

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

模型 大模型 Ai 數學

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

国产午夜精品理伦片,亚洲手机在线人成网站播放,欧美一级一级a做性视频,亚洲国产色精品三区二区一区
日本午夜福利片在线观看 | 亚洲免费VA不卡在线播放 | 日本一本之道之视频在线不卡 | 日本熟女乱子视频 | 亚洲日本在线观看网址 | 亚洲中文字幕精品有码在线 |