世界上最大的图形资源网站存在sql漏洞
可以看到,在这张图表上,横纵轴分别表示业务影响和技术可行性,圆圈的大小则表明数据有效性。用例7和用例6在三个要素上均表现出较高水准。用例3虽然在其中一个维度表现欠佳,但相较其他用例,综合来看可以列为下一个候选。 这里其实涉及到一个绕不过去的问题:到底多少数据算够? 这个问题其实并没有一个确切的答案。解决这个问题的经验之谈是先回答下面这个问题:有效数据是否足以支撑建立一个最小规模的可行模型?如果答案是肯定的,那么建议可以继续努力,好好考量这一用例的发展潜力。 2. 创建高效的数据平台 数据是新型“石油”,在组织中呈“满溢”之势,如何从中提取价值就成为每个组织都面临的挑战。而人工智能和数据是共生关系,需要彼此来互相成就。 长久以来,组织机构就试图创建一个数据分析平台,从数据库、数据仓库一直到数据湖,都试图驯服这只“野兽”。而新的数据结构模式随着数据技术的发展应运而生。2017年,我在博文《揭秘数据湖架构》中重点提到了——实用的AI数据平台的组成要件。数据技术虽然在不断进化,但核心还是不变的,这些概念依旧可用。 但有个问题有必要做一下深入思考:数据平台利用人工智能的原则是什么? 以下是我的三条建议: (1)以原始格式存储所有数据:数据的本质是复杂的。只有当你在真正使用时才能了解这些数据的用法。最好的策略是将它们全部以原始格式存储,不做任何变动。云技术的出现降低了数据存储的成本。存储在云中的数据可能根据其生成方式、处理方式以及在生存期内的访问方式而有所不同。以Azure为例,Azure存储提供了不同的访问层,包括热访问层、冷访问层、存档访问层。用户所存储的数据0-50TB是按平均每月每GB 0.044美元计费,约为每月每TB 4.4美元,花销还比不上星巴克的一杯中杯摩卡。这里有一条建议,对企业来说,我建议至少存储过去5年的数据,那之后如果发现没什么用,再归档也不迟。 (2)解耦存储和计算:存储和计算这两种负载对计算机资源的诉求完全不同,解耦存储和计算有助于系统负载均衡调度。处理引擎可以面向批处理,也可以面向流处理。按需处理在一定程度上可以控制成本。根据所需的处理类型构建适当的处理引擎,任务完成后可以中止或销毁处理引擎。解耦计算和存储节省了大量的支出,还提供了很大的灵活性。 (3)对数据进行编目和管理:防止数据湖变成交换平台的一个最关键的原则是对数据进行详尽的编目和管理。作为一条经验法则,任何非瞬时化的内容都会被编目。对于业务分析人员、数据科学家或任何希望以正确格式找到正确数据的人来说,积极编目有利于轻松搜索数据元素,因此再怎么强调积极编目的重要性都不为过。编目和管理决定了数据分析平台的成败。 3. 采用正确的工具、过程和技术 除了识别正确的用例、创建高效的数据平台之外,选择合适的工具和技术来实现AI也非常重要。要推动人工智能的蓬勃发展,这里有三个原则需要遵循: 利用规模优势:数据与人工智能之间密切相关,通常来说,要训练的数据越多,就意味着模型越可用。过去由于存储和计算能力有限,训练模型的能力也因此受限。而在过去的二十年里,存储和计算技术持续进化,云平台不断创新,存储和计算成本变得可控,在可接受的范围内进行规模化的数据处理和模型训练逐渐成为可能。
关注功能而不是技术:构建一个灵活的数据架构,每个组件都满足特定的功能,但可用的技术特性并不会与组件绑定。基于功能是恒定的而技术是不断变化的,云平台的一大优势就凸显出来。云平台的创新往往意味着可以不断引进新技术,以更低的成本提供相同或更好的功能。 这些领域彼此关联,每一个领域都需要共同协作才能展现出可见的影响。我将在本文中详细阐述实现这个框架的可行方法。 1. 识别正确的用例 当一个组织决定开始人工智能之旅,首要任务就是识别正确的用例。在这一方面,发散-收敛法属于经过验证的、行之有效的方法。通过头脑风暴探索尽可能多的AI用例,完成后就能汇总候选列表,找出其中排名前三的用例。 问题的关键是:如何汇总用例?重点要考量哪些维度? 建议从以下三个方面入手: 业务影响:这个用例是否有实际的业务影响?对其进行量化。 技术可行性:当前的技术环境是否支持这个用例的实现?创建一份技术图谱。 数据有效性:是否有相关的数据点来支持这个用例?好好做一下研究。
以这三个要素构成一张基准图,就可以用来判断用例的可行与否。以下图为例: (编辑:宣城站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |