【CDGP真题解析】202603-论述题3-数据质量(3/4)
四季读书网
2
【CDGP真题解析】202603-论述题3-数据质量(3/4)
前言:数据质量问题为CDGP论述题必考内容,通常考察内容为有什么质量问题?怎么解决?解决质量问题的方法?质量生命周期活动的七个阶段/活动?本次考试与以往不同的点在于,还是跟AI大模型强相关,第一问问的是AI幻觉产生的原因是什么?实际上根因穿透下去,还是已有数据质量不高。论述题大意:某公司部署大模型知识库,输出内容幻觉现象严重,问原因是什么,怎么提升输出的数据质量,AI辅助公司业务发展还有哪些应用场景。1、幻觉本质上是模型训练数据或输入上下文的质量和结构化问题。缺乏高质量的数据语料训练导致了大模型一本正经的胡说八道。数据质量差的原因又来源于5个方面:缺乏领导力、数据输入的问题、数据处理的问题、数据设计的问题、解决问题引起的问题。
1)缺乏领导力:缺乏意识、缺治理、缺领导力管理能力、难证明改进合理性、测量工具不合适不起作用;2)数据输入过程引起问题:数据输入接口问题、列表条目放置、字段重载、培训问题、业务流程变更、业务流程执行混乱。3)数据处理功能引起的问题:有关数据源错误假设、过时的业务规则、变更的数据结构。4)数据设计问题:未能执行参照完整性、未执行唯一性约束、编码不准确、数据模型不准确、字段重载、时间数据不匹配、主数据管理薄弱、数据复制5)解决问题引起的问题:手动数据修复、未经测试的代码、没有备份原始数据。数据质量和数据治理一样是一个组织的持续性工作,PDCA戴明环被认为是解决质量问题的基本方法。通过收集反馈的幻觉案例(P,计划),分析根因并针对性改进(D,执行),监控修复后同类问题的复现率(C,检查),将新规则及校正后的文档纳入知识库(A,行动),让系统具备自学习和持续改善能力。(每个阶段可以适度展开一两句话)。从技术角度讲,具体针对大模型输出的数据质量,可以采取以下动作:定义高质量数据、识别关键数据,对文档等数据进行清洗,删除重复、错误、模糊数据,从源头减少产生幻觉的“有毒文本”。;对元数据进行版本管理,让模型知道“该信谁”;设计高质量的提示词,定义业务规则,设置验证步骤等,强制模型聚焦上下文,抑制“编造”倾向。。3、AI助力业务流程重点可以体现在客户服务、业务能力提升、内容生成及创作、数据智能分析、风险防控等方面。(根据个人理解写两三个即可)客户服务领域:智能客服、智能外呼等业务场景,解决人工客户培训成本高、响应慢、知识库查找效率低等问题。业务能力提升领域:通过RPA+AI等手段提升合同审核、发票录入、合规检查等应用场景,解决人工处理重复性工作易出错、成本高等问题。内容生成及创作:应用多模态AI辅助营销文案生成、报告文稿框架搭建等应用场景,解决内容创作耗时,风格不一等问题。数据智能分析:通过智能编程、代码调用等实现自然语言查询数据库、生成智能BI报表等,解决业务人员不熟悉IT操作,分析耗时等问题。风险防控:大数据识别监测实现反欺诈、异常交易提醒等,解决传统规则引擎效率低,无法快速迭代更新等问题。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至23467321@qq.com举报,一经查实,本站将立刻删除;如已特别标注为本站原创文章的,转载时请以链接形式注明文章出处,谢谢!