1. 什么是DeepSeek,Distill,Qwen?
- DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型 。DeepSeek-R1的强项之一是具有很强的推理能力。
- 数据搜索能力
- Qwen,阿里巴巴的大模型,强项是具有较为丰富的参数。
- 丰富的数据
- Distill,蒸馏这个过程,就是结合两者的优势,组合成一个新的大模型。
- 强大的数据集 + 强大的推理计算能力
2. 如何选择模型文件?
- DeepSeek-R1-Distill-Qwen-32B-IQ3_M.gguf, 14.81GB
- DeepSeek-R1-Distill-Qwen-7B-f16.gguf, 15.24GB
以这两个模型为例,它们大小相近,但大多数情况下,2优于1。
- 1具有320亿参数,IQ3_XS代表了一种平衡性能与效率的量化策略,量化过程可能会导致一定的精度损失,但是它仍然保留了大量的原始信息。
- 2只有基于70亿参数,没有经过裁剪或量化处理。理论上可以提供最接近于原始训练模型的性能,特别是在准确性和细节处理方面。但是由于参数量较少,它可能在理解和生成复杂文本时不如32B版本。
本站文章除单独注明外均为原创,本文链接https://bowmanjin.com/1119,未经允许请勿转载。
请先
!