大模型与大数据主要矛盾的介绍,解决路径,优化方向的思考

1.问题背景

企业在尝试接入ai与大模型的过程中,面临着两个主要的问题:

这两个问题就是大模型与大数据之间的主要矛盾。

大模型吞吐数据量的能力是有限制的,而企业的数据规模往往是庞大的,如果想借用大模型的检索,总结,分析,决策和预测能力,现有矛盾就务必要攻破,否则大模型在细分领域中仅仅是空有大脑,没有手脚,无力施展

dify-工作流应用,能实现多模型,多节点,多模态的协同和逻辑判定,能构建外部http请求
tomd-表格处理工具,能实现将表格转化为md,正在开发md转json,可进一步用于模型训练
mysql-数据库,能实现数据存储,查询,新增,修改,删除等操作,能处理大量数据,可配合dify响应数据请求
tosql-数据查询web服务,是dify与mysql的桥梁在数据查询和响应的桥梁
ragflow-专业级知识库构建应用,能实现知识的检索,组织,管理,可与dify协同,构建知识图谱
llamafactory-模型训练应用,零代码的模型训练与图形界面应用,能实现模型的训练及训练效果的评估
模法科学/模法自然/模法力量/万模集群/奔腾模科(名称待定)-即将上线的,可下沉到3级甚至4级细分领域的,覆盖千行百业的模型共享平台,用户可免费上传,并设置开源免费,不开源免费,不开源收费下载
类tomd工具链-覆盖知识嵌入到模型训练全流程的工具软件链条,提升效率,降低时间及人力消耗

三者不对立，是你中有我，我中有你的关系

3中的全部工具可以实现互相嵌套,互相串联,要取其所长,发挥最大效益,最终目的是:

这样的一个不可能三角,类似于”赚得多,事儿少,离家近”,但我们需要追求三者之间的平衡

对应着就需要设置一个侠义的面向大模型的数据筛选,以形成对应上述4点的映射和具体的数据内容

简单说,不是所有的数据都适合rag,不是所有的数据都适合模型训练

#部署实操

#deepseek #本地部署

大模型与大数据主要矛盾的介绍,解决路径,优化方向的思考

http://localhost:8090/archives/da-mo-xing-yu-da-shu-ju-zhu-yao-mao-dun-de-jie-shao-jie-jue-lu-jing-you-hua-fang-xiang-de-si-kao

作者

Administrator

发布于

2025年04月21日

更新于

2025年04月21日

许可协议