【CDGP真题解析】202603-论述题3-数据质量(3/4)

四季读书网 2 0
【CDGP真题解析】202603-论述题3-数据质量(3/4)
前言:数据质量问题为CDGP论述题必考内容,通常考察内容为有什么质量问题?怎么解决?解决质量问题的方法?质量生命周期活动的七个阶段/活动?本次考试与以往不同的点在于,还是跟AI大模型强相关,第一问问的是AI幻觉产生的原因是什么?实际上根因穿透下去,还是已有数据质量不高。
论述题大意:某公司部署大模型知识库,输出内容幻觉现象严重,问原因是什么,怎么提升输出的数据质量,AI辅助公司业务发展还有哪些应用场景。
参考答案:
1、幻觉本质上是模型训练数据或输入上下文的质量和结构化问题。缺乏高质量的数据语料训练导致了大模型一本正经的胡说八道。

数据质量差的原因又来源于5个方面:缺乏领导力、数据输入的问题、数据处理的问题、数据设计的问题、解决问题引起的问题。

1)缺乏领导力:缺乏意识、缺治理、缺领导力管理能力、难证明改进合理性、测量工具不合适不起作用;
2)数据输入过程引起问题:数据输入接口问题、列表条目放置、字段重载、培训问题、业务流程变更、业务流程执行混乱。
3)数据处理功能引起的问题:有关数据源错误假设、过时的业务规则、变更的数据结构。
4)数据设计问题:未能执行参照完整性、未执行唯一性约束、编码不准确、数据模型不准确、字段重载、时间数据不匹配、主数据管理薄弱、数据复制
5)解决问题引起的问题:手动数据修复、未经测试的代码、没有备份原始数据。
2、提升数据质量的办法:PDCA戴明环
数据质量和数据治理一样是一个组织的持续性工作,PDCA戴明环被认为是解决质量问题的基本方法。通过收集反馈的幻觉案例(P,计划),分析根因并针对性改进(D,执行),监控修复后同类问题的复现率(C,检查),将新规则及校正后的文档纳入知识库(A,行动),让系统具备自学习和持续改善能力。(每个阶段可以适度展开一两句话)。
从技术角度讲,具体针对大模型输出的数据质量,可以采取以下动作:定义高质量数据、识别关键数据,对文档等数据进行清洗,删除重复、错误、模糊数据,从源头减少产生幻觉的“有毒文本”。;对元数据进行版本管理,让模型知道“该信谁”;设计高质量的提示词,定义业务规则,设置验证步骤等,强制模型聚焦上下文,抑制“编造”倾向。。
3、AI助力业务流程重点可以体现在客户服务、业务能力提升、内容生成及创作、数据智能分析、风险防控等方面。(根据个人理解写两三个即可)
客户服务领域:智能客服、智能外呼等业务场景,解决人工客户培训成本高、响应慢、知识库查找效率低等问题。
业务能力提升领域:通过RPA+AI等手段提升合同审核、发票录入、合规检查等应用场景,解决人工处理重复性工作易出错、成本高等问题。
内容生成及创作:应用多模态AI辅助营销文案生成、报告文稿框架搭建等应用场景,解决内容创作耗时,风格不一等问题。
数据智能分析:通过智能编程、代码调用等实现自然语言查询数据库、生成智能BI报表等,解决业务人员不熟悉IT操作,分析耗时等问题。
风险防控:大数据识别监测实现反欺诈、异常交易提醒等,解决传统规则引擎效率低,无法快速迭代更新等问题。

抱歉,评论功能暂时关闭!