大模型与大数据主要矛盾的介绍,解决路径,优化方向的思考

1.问题背景

企业在尝试接入ai与大模型的过程中,面临着两个主要的问题:

  1. 计算资源的限制

  2. 数据量的限制

这两个问题就是大模型与大数据之间的主要矛盾。

大模型吞吐数据量的能力是有限制的,而企业的数据规模往往是庞大的,如果想借用大模型的检索,总结,分析,决策和预测能力,现有矛盾就务必要攻破,否则大模型在细分领域中仅仅是空有大脑,没有手脚,无力施展

2.常见问题场景

  1. 大量数据嵌入无法精准获取:通过rag方式投喂给大模型后,大模型仅在部分内容上实现精准问答,大部分内容无法识别或胡乱猜测

  2. 嵌入数据量过大,无法处理:某企业有几个g的数据内容,现有显存及内容容量根本吃不完,甚至无法启动面向大模型的任何应用

  3. 数据类型繁杂,囊括了文本/表格/图像/音频/视频等等诸多类型,而已知的是,只有md(markdown)格式或纯文本的txt格式能够实现较好的被处理

  4. 可以考虑文本格式和内容的转换,但工作量过于庞大,望而却步

  5. 数据来源纷杂,有api形式,有数据库,有自建excel表格,有聊天记录的截图,有手工填写的单据等等,既没有统一入口,也没有统一出口

  6. 可以考虑统一数据的入与出,但最终统一成什么格式或样式尚不清晰,由于开弓没有回头箭,投入成本巨大,大模型出来效果不好,一定程度上是无法接受的损失

3.既有知识,技能,工具资源的储备情况

  1. dify-工作流应用,能实现多模型,多节点,多模态的协同和逻辑判定,能构建外部http请求

  2. tomd-表格处理工具,能实现将表格转化为md,正在开发md转json,可进一步用于模型训练

  3. mysql-数据库,能实现数据存储,查询,新增,修改,删除等操作,能处理大量数据,可配合dify响应数据请求

  4. tosql-数据查询web服务,是dify与mysql的桥梁在数据查询和响应的桥梁

  5. ragflow-专业级知识库构建应用,能实现知识的检索,组织,管理,可与dify协同,构建知识图谱

  6. llamafactory-模型训练应用,零代码的模型训练与图形界面应用,能实现模型的训练及训练效果的评估

  7. 模法科学/模法自然/模法力量/万模集群/奔腾模科(名称待定)-即将上线的,可下沉到3级甚至4级细分领域的,覆盖千行百业的模型共享平台,用户可免费上传,并设置开源免费,不开源免费,不开源收费下载

  8. 类tomd工具链-覆盖知识嵌入到模型训练全流程的工具软件链条,提升效率,降低时间及人力消耗

4.AI时代的架构设计总方针

  • 人能做什么

  • 模型能做什么

  • 现有自动化软硬件能做什么

三者不对立,是你中有我,我中有你的关系

5.执行层的工具选择

3中的全部工具可以实现互相嵌套,互相串联,要取其所长,发挥最大效益,最终目的是:

  • 运转效率高(响应快速)

  • 资源占用少(硬件)

  • 人力成本低

这样的一个不可能三角,类似于”赚得多,事儿少,离家近”,但我们需要追求三者之间的平衡

6.面向大数据抽离给大模型的四个接口

  1. 数据嵌入-rag

  2. 数据查询-tosql

  3. 模型训练-llamafactory

  4. 提示词-约束大模型生成的响应内容

对应着就需要设置一个侠义的面向大模型的数据筛选,以形成对应上述4点的映射和具体的数据内容

简单说,不是所有的数据都适合rag,不是所有的数据都适合模型训练

7.面向大模型的数据筛选总体策略

  • 有一定映射规律的去训练

  • 时常更新的去嵌入

  • 数据源构成复杂且主要用于检索的去tosql

  • 过程中往复修正提示词和上述任意一条的执行策略


大模型与大数据主要矛盾的介绍,解决路径,优化方向的思考
http://localhost:8090/archives/da-mo-xing-yu-da-shu-ju-zhu-yao-mao-dun-de-jie-shao-jie-jue-lu-jing-you-hua-fang-xiang-de-si-kao
作者
Administrator
发布于
2025年04月21日
更新于
2025年04月21日
许可协议