CLUEbenchmark/SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

evaluationchinesegpt-4foundation-modelschatgpt
This is stars and forks stats for /CLUEbenchmark/SuperCLUE repository. As of 08 May, 2024 this repository has 1818 stars and 61 forks.

SuperCLUE 中文通用大模型综合性基准SuperCLUE SuperCLUE最新9月榜单 文章地址:www.cluebenchmarks.com/superclue.html 技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark 【2023-9-12】 SuperCLUE-Safety:中文大模型多轮对抗安全基准 【9月26日】,SuperCLUE发布中文大模型9月榜单。 SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。 相比与上月,新增了AI Agent智能体 SuperCLUE能力评估结构图 SuperCLUE多维度测评方案 为什么新增AI Agent智能体能力? AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。 然而,面向AI agent智能体,缺乏针对中文大模型的广泛评估。为了解决这一问题,我们在SuperCLUE新的榜单中新增了AI...
Read on GithubGithub Stats Page
repotechsstarsweeklyforksweekly
curiousily/Get-Things-Done-with-Prompt-Engineering-and-LangChainJupyter Notebook44201470
e-johnstonn/FableForgePython3180530
HqWu-HITCS/Awesome-Chinese-LLM3.3k+110288+5
refuel-ai/autolabelPythonJupyter NotebookMakefile1.4k0890
zjunlp/DeepKEPythonJupyter NotebookOther2.4k05650
chat2db/Chat2DBJavaTypeScriptLess7.7k01k0
ramonvc/freegpt-webuiPythonJavaScriptCSS5.3k01.6k0
rshipp/awesome-malware-analysis10.3k02.5k0
facexl/AI-chatLessVueTypeScript32050
embedchain/embedchainPythonTypeScriptJupyter Notebook5.5k01k0