加入收藏 | 设为首页 | 会员中心 | 我要投稿 宣城站长网 (https://www.0563zz.cn/)- 数据湖、行业智能、边缘计算、开发、备份!
当前位置: 首页 > 站长资讯 > 动态 > 正文

数据科学的5个陷阱与缺陷

发布时间:2021-03-24 12:52:47 所属栏目:动态 来源:互联网
导读:体系的不断演进正在持续的改变大家的工作与决策方式;正在不断的革新大家的思维方式;同时也产生了新的商业逻辑,新的发展机会。 1976 年,Pascal 作者 Nikalus Wirth 曰:Algorithms + Data Structures = Programs. 就像之前的SOA,云计算等概念一样,目前



体系的不断演进正在持续的改变大家的工作与决策方式;正在不断的革新大家的思维方式;同时也产生了新的商业逻辑,新的发展机会。

1976 年,Pascal 作者 Nikalus Wirth 曰:Algorithms + Data Structures = Programs.

就像之前的“SOA”,“云计算”等概念一样,目前数据科学自身的概念还在不断的变革,各家公司的实践者们一边摸索,一边获利;一边总结,一边布道;当然同时还参杂着很多凑热闹的同志把概念折腾的更加模糊。所以数据科学本身的能力边界,方法论体系,最佳实践等等还没有完善的建立起来,有很多问题没有办法很好的回答。由此就会产生一些迷信和误会,”强行数据“,”随意数据“,”政治正确数据“等等情况比较常见, 无论是实际的操作层面,还是方法层面,都存在着一些不小的误会。这也是我打算总结一下在数据科学实践中存在的陷阱与缺陷的缘由。

这篇分享是根据我自己的工作经验,和对相关资深同事的访谈总结而成。它的正确性受限于我个人的认知水平和目前行业的发展水平,它整理了一些目前可能存在的问题,但未必是长久的道理。希望大家读的时候批判性的看待。抛砖引玉,如果有不同想法欢迎大家跟我随时沟通与验证,结论本身也可以随时更新。

陷阱与缺陷 1:数据质量杀死自动 / 智能决策

网易严选的很多业务,比如风控业务,核心驱动力是数据及算法。我们在风控业务起步的时候就建立了数据算法驱动风控的方法体系,所以能保证很小的团队(3 个人)来支撑严选几十个内外部风险场景,每天执行百万次风险决策。当然,这是数据驱动自动决策 / 智能决策带来的力量。成功的美好,或许会让你按耐不住的想把很多业务运转方式转型过来,但遗憾的是,数据质量保障的缺失会让这一切变成随时会倒塌的空中楼阁!事实上,绝大部分组织对数据质量的理解 支撑不了更加自动和智能的决策场景。强行转型与减员增效会让他们原本稳定的业务接近崩溃。

严选风控出现过几次大的故障都跟数据质量紧密相关。今年 8 月份的时候,风控在执行每周误判巡检的时候发现整体疑似误判率增加了 4 倍。最终定位原因是设备号相关的日志内容有些异常。从而导致了相当一部分用户的行为(签到操作)被错误的执行了拦截。

这是一个很有意思的案例。一些关键的决策:比如用户是不是坏人?某个商品要采购多少量?可能会依赖于很不被重视的某个线上日志的一小部分内容。我们的整个质量保障体系很难把视角投入到某个具体应用的某个日志字段在高压力下会不会出错?在传统的应用服务质量保障理念里,日志字段的某个偶尔的小错误,没人会把它当作 Bug,开发人员更不会去关注。但如果你一旦把 数据当作了生产资料,如果我们不对应用质量保障的理念和工具进行革新,你的大量的数据分析报告,训练好的算法模型,做出的决策

(编辑:宣城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读