GanymedeNil/document.ai

基于向量数据库与GPT3.5的通用本地知识库方案(A universal local knowledge base solution based on vector database and GPT3.5)

PythonHTML

Stars and forks stats for /GanymedeNil/document.ai

0 forks on 2022-12-310 forks on 2023-01-010 forks on 2023-01-020 forks on 2023-01-030 forks on 2023-01-040 forks on 2023-01-050 forks on 2023-01-060 forks on 2023-01-070 forks on 2023-01-080 forks on 2023-01-090 forks on 2023-01-100 forks on 2023-01-110 forks on 2023-01-120 forks on 2023-01-130 forks on 2023-01-140 forks on 2023-01-150 forks on 2023-01-160 forks on 2023-01-170 forks on 2023-01-180 forks on 2023-01-190 forks on 2023-01-200 forks on 2023-01-210 forks on 2023-01-220 forks on 2023-01-230 forks on 2023-01-240 forks on 2023-01-250 forks on 2023-01-260 forks on 2023-01-270 forks on 2023-01-280 forks on 2023-01-290 forks on 2023-01-300 forks on 2023-01-310 forks on 2023-02-010 forks on 2023-02-020 forks on 2023-02-030 forks on 2023-02-040 forks on 2023-02-050 forks on 2023-02-060 forks on 2023-02-070 forks on 2023-02-080 forks on 2023-02-090 forks on 2023-02-100 forks on 2023-02-110 forks on 2023-02-120 forks on 2023-02-130 forks on 2023-02-140 forks on 2023-02-150 forks on 2023-02-160 forks on 2023-02-170 forks on 2023-02-180 forks on 2023-02-190 forks on 2023-02-200 forks on 2023-02-210 forks on 2023-02-220 forks on 2023-02-230 forks on 2023-02-240 forks on 2023-02-250 forks on 2023-02-260 forks on 2023-02-270 forks on 2023-02-280 forks on 2023-03-010 forks on 2023-03-020 forks on 2023-03-030 forks on 2023-03-040 forks on 2023-03-050 forks on 2023-03-060 forks on 2023-03-070 forks on 2023-03-080 forks on 2023-03-090 forks on 2023-03-100 forks on 2023-03-1168 forks on 2023-03-1284 forks on 2023-03-13104 forks on 2023-03-14109 forks on 2023-03-15112 forks on 2023-03-16122 forks on 2023-03-17125 forks on 2023-03-18125 forks on 2023-03-19128 forks on 2023-03-20133 forks on 2023-03-21140 forks on 2023-03-22140 forks on 2023-03-23144 forks on 2023-03-24146 forks on 2023-03-25147 forks on 2023-03-26147 forks on 2023-03-27152 forks on 2023-03-28159 forks on 2023-03-29159 forks on 2023-03-30

159forks in total +91last 90 days

0 stars on 2022-12-310 stars on 2023-01-010 stars on 2023-01-020 stars on 2023-01-030 stars on 2023-01-040 stars on 2023-01-050 stars on 2023-01-060 stars on 2023-01-070 stars on 2023-01-080 stars on 2023-01-090 stars on 2023-01-100 stars on 2023-01-110 stars on 2023-01-120 stars on 2023-01-130 stars on 2023-01-140 stars on 2023-01-150 stars on 2023-01-160 stars on 2023-01-170 stars on 2023-01-180 stars on 2023-01-190 stars on 2023-01-200 stars on 2023-01-210 stars on 2023-01-220 stars on 2023-01-230 stars on 2023-01-240 stars on 2023-01-250 stars on 2023-01-260 stars on 2023-01-270 stars on 2023-01-280 stars on 2023-01-290 stars on 2023-01-300 stars on 2023-01-310 stars on 2023-02-010 stars on 2023-02-020 stars on 2023-02-030 stars on 2023-02-040 stars on 2023-02-050 stars on 2023-02-060 stars on 2023-02-070 stars on 2023-02-080 stars on 2023-02-090 stars on 2023-02-100 stars on 2023-02-110 stars on 2023-02-120 stars on 2023-02-130 stars on 2023-02-140 stars on 2023-02-150 stars on 2023-02-160 stars on 2023-02-170 stars on 2023-02-180 stars on 2023-02-190 stars on 2023-02-200 stars on 2023-02-210 stars on 2023-02-220 stars on 2023-02-230 stars on 2023-02-240 stars on 2023-02-250 stars on 2023-02-260 stars on 2023-02-270 stars on 2023-02-280 stars on 2023-03-010 stars on 2023-03-020 stars on 2023-03-030 stars on 2023-03-040 stars on 2023-03-050 stars on 2023-03-060 stars on 2023-03-070 stars on 2023-03-080 stars on 2023-03-090 stars on 2023-03-100 stars on 2023-03-11888 stars on 2023-03-121 143 stars on 2023-03-131 356 stars on 2023-03-141 462 stars on 2023-03-151 494 stars on 2023-03-161 533 stars on 2023-03-171 555 stars on 2023-03-181 555 stars on 2023-03-191 585 stars on 2023-03-201 638 stars on 2023-03-211 681 stars on 2023-03-221 681 stars on 2023-03-231 709 stars on 2023-03-241 730 stars on 2023-03-251 746 stars on 2023-03-261 746 stars on 2023-03-271 787 stars on 2023-03-281 822 stars on 2023-03-291 822 stars on 2023-03-30

1.8kstars in total +934last 90 days

This is stars and forks stats for /GanymedeNil/document.ai repository. As of 30 Mar, 2023 this repository has 1822 stars and 159 forks.

document.ai 基于向量数据库与GPT3.5的通用本地知识库方案(A universal local knowledge base solution based on vector database and GPT3.5) 目录 code 目录中有本次MSD示例的相关示例代码 流程 整个流程非常简单,也没有复杂的地方,相信关注GPT领域的都会看到过如上的流程。 主要就以下几个点: 将本地答案数据集,转为向量存储到向量数据 当用户输入查询的问题时,把问题转为向量然后从向量数据库中查询相近的答案topK 这个时候其实就是我们最普遍的问答查询方案,在没有GPT的时候就直接返回相关的答案整个流程就结束了 现在有GPT了可以优化回答内容的整体结构,在单纯的搜索场景下其实这个优化没什么意义。但如果在客服等的聊天场景下,引用相关领域内容回复时,这样就会显得不那么的突兀。 使用范围 请参考 OpenAI 的使用政策 https://openai.com/policies/usage-policies 我的 MSD 案例只是探索其中一个垂直领域的可行性,你可以把这个项目迁移到任何你熟悉的领域中,而不必拘泥于医疗领域 难点 查询数据不准确 基于数据的优化 问答拆分查询 在上面的例子中,我们直接将问题和答案做匹配,有些时候因为问题的模糊性会导致匹配不相关的答案。 如果在已经有大量的问答映射数据的情况下,问题直接搜索问题集,然后基于已有映射返回当前问题匹配的问题集的答案,这样可以提升一定的问题准确性。 抽取主题词生成向量数据 因为答案中有大量非答案的内容,可以通过抽取答案主题然后组合生成向量数据,也可以在一定程度上提升相似度,主题算法有LDA、LSA等。 基于自训练的Embedding模型 openAI 的Embedding模型数据更多是基于普遍性数据训练,如果你要做问答的领域太过于专业有可能就会出现查询数据不准确的情况。 解决方案是自训练 Embedding 模型,在这里我推荐一个项目 text2vec ,shibing624 已经给出了一个模型基于 CoSENT + MacBERT +STS-B,shibing624/text2vec-base-chinese。 我也在前些日子训练了基于 CoSENT + LERT + STS-B的两个模型一个隐层大小是1024的text2vec-large-chinese,另一个是768的text2vec-base-chinese。也欢迎比对。 为了做这个Demo我还训练了两个医疗问答相关的模型基于cMedQQ数据集,其他与上面的一致分别是text2vec-cmedqq-lert-large和text2vec-cmedqq-lert-base。 基于 Fine-tune 目前我自身测试下来,使用问答数据集对GPT模型进行Fine-tune后,问答准确性会大幅提高。你可以理解为GPT通过大量的专业领域数据的学习后成为了该领域专家,然后配合调小接口中temperature参数,可以得到更准确的结果。 但 现在 Fine-tune 训练和使用成本还是太高,每天都会有新的数据,不可能高频的进行 Fine-tune。我的一个想法是每隔一个长周期对数据进行 Fine-tune ,然后配合外置的向量数据库的相似查询来补足 Fine-tune 模型本身的数据落后问题。 Buy me a coffee
Read on GithubGithub Stats Page
repotechsstarsweeklyforksweekly
pkuliyi2015/multidiffusion-upscaler-for-automatic1111PythonJavaScript7650390
SociallyIneptWeeb/LanguageLeapAIJupyter NotebookPython43001050
StarStringStudio/so-vits-svcPython2.3k04150
WassimTenachi/PhySOPython1.3k01690
blackburnnnn/octo-memePython1020320
sidpalas/devops-directive-docker-courseRoffMakefileJavaScript340+2827+4
snowflakedb/spark-snowflakeScalaPythonShell1710860
ansible/slidesSCSSHTML2000
hugo-sid/hugo-blog-awesomeHTMLSCSSCSS330180
mallexibra/mallexibra-websiteSCSSCSSHTML21000