hikariming/alpaca_chinese_dataset

人工精调的中文对话数据集和一段chatglm的微调代码

Jupyter NotebookPythondatasetalpacachatglm
This is stars and forks stats for /hikariming/alpaca_chinese_dataset repository. As of 02 May, 2024 this repository has 970 stars and 78 forks.

alpaca_chinese_dataset 鲁迅说过:有多少人工,才有多少智能 当前的聊天对话模型数据集主要都是由英文构成,但是当前中文聊天模型构建的需求也较为迫切,因此我们将斯坦福的alpaca数据集进行中文翻译,并再制造一些对话数据,并开源提供。 我们的目标是:基于我们数据+自己领域的数据,以及一定的微调策略,可以在模型内加入某领域的知识的同时,尽量保持原有模型的能力,虽然此目标当前还未做到,但至少能够缓解一些模型微调后过专的问题。 此翻译并非完全的chatgpt机翻,会进行人工校验,遇到英文特异性表达的时候会变为较为中文化的表述,因此每日翻译量有限。 0327更新:我们感觉alpaca数据集太多表述过于英文化,所以人工翻译完这六部分后不再翻译,改为构建自己的数据集 Currently, most chatbot datasets are composed in English, but there is an urgent need to train Chinese chatbot models. Therefore, we have translated the Alpaca...
Read on GithubGithub Stats Page
repotechsstarsweeklyforksweekly
openai/chatgpt-retrieval-pluginPythonOther19.8k03.6k0
cisagov/untitledgoosetoolPythonPowerShell8390690
gururise/AlpacaDataCleanedPythonHTMLJavaScript1.3k01330
binary-husky/chatgpt_academicPythonCSSOther42.9k+4375.6k+41
sahil280114/codealpacaPython1.3k0960
feizc/MLE-LLaMAPython2920190
liusj5257/azurlane_anti_nameShellPython4280930
bazelbuild/bazel-central-registryStarlarkPythonShell17401360
furrtek/VGChipsVerilogPython131+1120
coolwanglu/pdf2htmlEXHTMLC++JavaScript10k+311.8k+9