加入收藏 | 设为首页 | 会员中心 | 我要投稿 宣城站长网 (https://www.0563zz.cn/)- 数据湖、行业智能、边缘计算、开发、备份!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

金融科技行业的新蓝图

发布时间:2021-02-05 16:31:58 所属栏目:传媒 来源:互联网
导读:分类示例 :借记卡诈骗 分类选用一组具有已知标签和预先确定特性的数据,并学习如何根据这些信息标记新数据。特性是你问的是否问题。标签就是这些问题的答案。 让我们看一个借记卡诈骗的示例。 我们想要预测什么? 某一笔借记卡交易是否为欺诈。 欺诈是标签(

分类示例 :借记卡诈骗

分类选用一组具有已知标签和预先确定特性的数据,并学习如何根据这些信息标记新数据。特性是你问的“是否”问题。标签就是这些问题的答案。

让我们看一个借记卡诈骗的示例。

我们想要预测什么?

  • 某一笔借记卡交易是否为欺诈。
  • 欺诈是标签(对或错)。

你可以用来进行预测的“ 是否 ”问题或属性是什么?

  • 今天花费的金额是否大于历史平均水平?
  • 今天的这些交易是否在多个国家?
  • 今天的交易数量是否大于历史平均水平?
  • 今天的新商户类型与过去三个月相比是否较高?
  • 今天是否在多个带有风险类别代码的商家处购买?
  • 今天是否有不寻常的签名与以往使用PIN相比?
  • 与过去三个月相比,是否有新的购买行为?
  • 与过去三个月相比,现在是否有国外购买?

要构建分类器模型,你需要提取对分类最有贡献的有用特性。

决策树

决策树创建一个基于输入特征预测类或标签的模型。它的工作原理在于评估每个节点上包含一个特征的问题,然后根据答案选择到下一个节点的分支。预测借记卡欺诈的可能决策树如下所示。特性问题是节点,答案“是”或“否”是树中到子节点的分支。(注意,真正的树会有更多的节点。)

问题一:24小时内的花费是否大于平均?

问题2:今天是否有多笔交易来自高风险的商家?

  • 是欺诈概率 = 90%
  • 非欺诈概率 = 50%

决策树很受欢迎,因为它们易于可视化和解释。将算法与集成方法相结合,可以提高模型的精度。一个集成例子是一个随机森林算法,它结合了决策树的多个随机子集。

无监督学习

无监督学习,有时也被称为描述分析,没有预先提供的标记数据。这些算法发现输入数据中的相似性或规律。无监督学习的一个例子是基于购买数据对相似的客户进行分组。

聚类

在聚类中,一个算法通过分析输入实例之间的相似性将它们分类。一些聚类用例包括:

  • 搜索结果分组。
  • 分组相似客户。
  • 分组相似病人。
  • 文本分类。
  • 网络安全异常检测(发现不相似之处,集群中的异常值)。

K均值算法将数据分组到K个集群中,每个数据都属于离其集群中心均值最近的集群。

聚类的一个例子是,一个公司希望细分其客户,以便更好地定制产品和服务。客户可以依据比如人口统计和购买历史记录等特征被分组。为了得到更有价值的结果,无监督学习的聚类常常与有监督学习相结合。例如,在这个banking customer 360用例中,首先根据问卷答案对客户进行细分。接着对客户群体进行分析,并标上用户画像。然后,这些标签通过客户ID与账户类型和购买内容等特性进行链接。最后,我们在被标签的客户身上应用了监督机器学习,允许将调查用户画像与他们的银行行为联系起来,以提供深入的见解。

深度学习

深度学习用来称呼多层神经网络,它是由输入和输出之间的节点“隐含层”组成的网络。神经网络有许多变种,你可以在这个神经网络备忘单上了解更多。改进的算法、GPUs和大规模并行处理(MPP)使得具有数千层的神经网络成为可能。每个节点接受输入数据和一个权重,然后向下一层的节点输出一个置信值,直到到达输出层,计算出该置信值的误差。通过在一个叫做梯度下降的过程中进行反向传播,误差会再次通过网络发送回来,并调整权值来改进模型。这个过程重复了数千次,根据产生的误差调整模型的权值,直到误差不无法再减少为止。

在此过程中,各层学习模型的最优特征,其优点是特征不需要预先确定。然而,这也意味着一个缺点,即模型的决策是不可解释的。由于解释决策可能很重要,研究人员正在开发新的方法来理解深度学习这个黑盒子。

(编辑:宣城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读