大模型与大数据主要矛盾的介绍,解决路径,优化方向的思考
1.问题背景
企业在尝试接入ai与大模型的过程中,面临着两个主要的问题:
计算资源的限制
数据量的限制
这两个问题就是大模型与大数据之间的主要矛盾。
大模型吞吐数据量的能力是有限制的,而企业的数据规模往往是庞大的,如果想借用大模型的检索,总结,分析,决策和预测能力,现有矛盾就务必要攻破,否则大模型在细分领域中仅仅是空有大脑,没有手脚,无力施展
2.常见问题场景
大量数据嵌入无法精准获取:通过rag方式
投喂
给大模型后,大模型仅在部分内容上实现精准问答,大部分内容无法识别或胡乱猜测嵌入数据量过大,无法处理:某企业有几个g的数据内容,现有显存及内容容量根本吃不完,甚至无法启动面向大模型的任何应用
数据类型繁杂,囊括了文本/表格/图像/音频/视频等等诸多类型,而已知的是,只有md(markdown)格式或纯文本的txt格式能够实现较好的被处理
可以考虑文本格式和内容的转换,但工作量过于庞大,望而却步
数据来源纷杂,有api形式,有数据库,有自建excel表格,有聊天记录的截图,有手工填写的单据等等,既没有统一入口,也没有统一出口
可以考虑统一数据的入与出,但最终统一成什么格式或样式尚不清晰,由于开弓没有回头箭,投入成本巨大,大模型出来效果不好,一定程度上是无法接受的损失
3.既有知识,技能,工具资源的储备情况
dify-工作流应用,能实现多模型,多节点,多模态的协同和逻辑判定,能构建外部http请求
tomd-表格处理工具,能实现将表格转化为md,正在开发md转json,可进一步用于模型训练
mysql-数据库,能实现数据存储,查询,新增,修改,删除等操作,能处理大量数据,可配合dify响应数据请求
tosql-数据查询web服务,是dify与mysql的桥梁在数据查询和响应的桥梁
ragflow-专业级知识库构建应用,能实现知识的检索,组织,管理,可与dify协同,构建知识图谱
llamafactory-模型训练应用,零代码的模型训练与图形界面应用,能实现模型的训练及训练效果的评估
模法科学/模法自然/模法力量/万模集群/奔腾模科(名称待定)-即将上线的,可下沉到3级甚至4级细分领域的,覆盖千行百业的模型共享平台,用户可免费上传,并设置开源免费,不开源免费,不开源收费下载
类tomd工具链-覆盖知识嵌入到模型训练全流程的工具软件链条,提升效率,降低时间及人力消耗
4.AI时代的架构设计总方针
人能做什么
模型能做什么
现有自动化软硬件能做什么
三者不对立,是你中有我,我中有你的关系
5.执行层的工具选择
3
中的全部工具可以实现互相嵌套,互相串联,要取其所长,发挥最大效益,最终目的是:
运转效率高(响应快速)
资源占用少(硬件)
人力成本低
这样的一个不可能三角,类似于”赚得多,事儿少,离家近”,但我们需要追求三者之间的平衡
6.面向大数据抽离给大模型的四个接口
数据嵌入-rag
数据查询-tosql
模型训练-llamafactory
提示词-约束大模型生成的响应内容
对应着就需要设置一个侠义的面向大模型的数据筛选
,以形成对应上述4点的映射和具体的数据内容
简单说,不是所有的数据都适合rag,不是所有的数据都适合模型训练
7.面向大模型的数据筛选总体策略
有一定映射规律的去训练
时常更新的去嵌入
数据源构成复杂且主要用于检索的去tosql
过程中往复修正提示词和上述任意一条的执行策略