跳至主要內容

LLM汇总

Liz大约 3 分钟LLMLLM

LLM汇总

    1. LLM性能评估平台
    1. LLM组织和模型

1. LLM性能评估平台

1.1. LMSYS

组织:
LMSYS 和 UC Berkeley SkyLab

评估方式:
Chatbot Arena - 一个众包的随机对战平台。
在真实世界中通过人类偏好评估 LLMs,向两个匿名模型(例如,ChatGPT、Gemini、Claude、Llama)提出任何问题,并为更好的一个投票!

评估结果:
Arena Elo
Elo 评级系统是以其发明者、匈牙利裔美国物理学家 Arpad Elo 的名字命名的。它最初是在 20 世纪 60 年代为评级国际象棋棋手开发的。

网址:
https://chat.lmsys.org/
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

1.2. LiveBench

组织:
Abacus.AI

特点:

  • LiveBench 旨在通过每月发布新问题以及基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影梗概的问题来限制潜在的污染。
  • 每个问题都有可验证的、客观的真实答案,允许对难题进行准确和自动的评分,而无需使用 LLM 作为评判者。
  • LiveBench 目前包含 6 个类别中的 18 个不同任务,将随着时间的推移发布新的、更困难的任务。

网址:
https://livebench.ai/

1.3. Fine-tuning Index

微调排行榜将受欢迎的在多个任务上进行微调的开源模型的性能与 GPT-4 进行了比较。

值得注意的是,大多数经过微调的开源模型都优于 GPT-4,其中 Llama-3、Phi-3 和 Zephyr 表现最佳。

网址:
https://predibase.com/fine-tuning-index

1.4. SuperCLUE

国内模型排行榜

2. LLM组织和模型

OrganizationProductOpenSourceLocation
Foreign
OpenAIGPTCloseUS, UK(美国,英国)
GoogleGemini/Bard/Gemma/PaLMOpen-
AnthropicClaudeCloseUS, UK(美国,英国)
MetaLlama/AlpacaOpen-
MicrosoftPhi/WizardLM/BingOpen-
MistralMistral/MixtralOpenUS, France(美国,法国)
HuggingFaceZephyrOpen-
CohereCommand ROpen-
NousResearchNous/OpenHermesOpen-
LMSYSVicuna/FastChat--
Reka AIRekaOpenUS, UK, Singapore(美国,英国,新加坡)
NvidiaNemotron/NV/ChipNeMoOpen-
NexusflowStarlingOpenPalo Alto, CA(美国加利福尼亚州门帕洛阿尔托)
Databricks/MosaicMLDBRX/Dolly/ MPTOpenMany
OpenChatOpenChat--
SnowflakeSonwflakeClose-
UC BerkeleyStarling/Koala/GorillaClose-
Perplexity AIpplxClose-
Cognitive ComputationsDolphinOpenPersonal
Upstage AISOLAROpen韩国
TIIfalconOpen阿拉伯
Together AIStripedHyenaOpenSan Francisco(美国加利福尼亚州旧金山)
Allen AITulu/OLMoOpenSeattle, WA, United States(美国华盛顿州西雅图)
Nomic AIGPT4AllOpenNew York(美国纽约)
RWKVRWKVOpen-
OpenAssistantOpenAssistantOpen-
Stability AIStableLMOpenCanada(加拿大)
BloombergBloombergGPTCloseUS, UK(美国,英国)
inflection.aiInflectionCloseSan Francisco Bay Area(美国加利福尼亚州旧金山湾区)
xAI(Elon Mask)GrōkCloseSan Francisco Bay Area, California, U.S(美国加利福尼亚州旧金山湾区)
ScaleScaleCloseSan Francisco(美国加利福尼亚州旧金山)
Character AICharacterCloseMenlo Park, CA(美国加利福尼亚州门洛帕克)
Domestic
Alibaba(阿里)Qwen(通义千问)Open杭州
Tsinghua/Zhipu AI(清华&智谱AI)GLM/ChatGLMOpen北京
Baichuan(百川智能)BaichuanOpen北京
ModelBest(面壁智能)CPMOpen北京
01 AI(零一万物)YiOpen北京
DeepSeek AI(深度求索)DeepSeekOpen杭州
Colossal AI(潞晨科技)ColossalOpen北京
XVERSE(元象科技)XVERSEOpen深圳
Moonshot(月之暗面)MoonshotClose北京
Step(阶跃星辰)StepClose上海
MiniMax(稀宇科技)ABABClose上海
Baidu(百度)ERNIE(文心一言)Close北京
SenseTime(商汤)SenseChat(商量)Close上海
Bytedance(字节跳动)Doubao/CozeClose北京
Tencent(腾讯)Hunyuan(混元)Close深圳
360360gptClose北京