你的数据基础是否稳固、具备未来适应性并能增加价值? 云企业战略博客
你的数据基础是否坚实、可持续并具附加值?
关键要点
强大的数据基础设施对组织实现数据的全面价值至关重要。数据质量影响决策,特别是在使用生成AI时。组织应培养数据驱动文化,提高团队的数据素养。数据管理需要明确的策略、文化、组织和技术支持。组织需要一个强大的基础设施,以实现其数据的全部价值。此基础设施的目的是组织数据,确保其质量,管理元数据,并创建一个中央目录,以便于查询组织内的数据。这个基础设施被称为数据基础,使得组织能够拥有干净、组织良好且易于访问的数据,以提升决策能力和商业洞察。
数据是新石油。
克莱夫罗伯特亨比 (Clive Robert Humby) OBE,数学家
亨比通过将数据称为“新石油”提升了对大数据的关注。这一隐喻为数据驱动的创新、人工智能/机器学习AI/ML和生成AI奠定了基础。许多组织开始以大规模存储结构化和非结构化数据有时甚至有些近乎痴迷。“我们可能将来会需要这个”是组织常常重复的一句口头禅。于是,各种数据被无原则地存储在文件系统、数据库、数据仓库和数据湖中。
数据是新鲜牛奶:你需要快速使用,否则就会变质
艾米丽戈尔肯斯基 (Emily Gorcenski),数据科学家
不幸的是,数据存储往往像跳蚤市场:如果你知道自己在寻找什么,那里可以找到许多宝藏,但也可能花费很多金钱在无用的东西上。没有特定用途或使用案例而收集的数据,往往被消费者持怀疑态度,因为他们认为这是一种二流产品。数据来源不明确、质量不确定、文档缺失。这一问题通常是由于数据由一个缺乏足够知识的独立团队管理,而不是由原始生产者管理。
在这些情况下,从技术和组织的角度来看,数据基础并不如预期那样牢固。这是一个问题。
这也导致了大量额外的工作。根据我的经验至少在我曾工作过的公司中,数据科学家花费的时间中多达60用于组织、清理和重新格式化数据,而不是解决商业问题。
此外,存储的数据可能符合,也可能不符合你所在国家的数据保护法规。组织必须了解这些法规并能够证明其合规性。作为一名IT经理,我曾经收到数据保护当局的七位数字罚款通知。原因是有员工报告我们违反了数据保护规定,但幸运的是,这并非事实。罚款是因为数据保护当局发现我们未能清晰记录我们为何存储某些数据及存储多长时间。幸运的是,我们能够反驳这一指控,但一开始就不得不应对这一问题无疑导致了大量不必要且可以避免的工作。
云梯npv加速器数据质量在使用生成AI时尤其重要。这些基础模型生成的通用数据无法创造竞争优势,因为你的竞争对手可能也在使用相同的模型并生成相同的结果。你必须用自己的数据来训练或定制模型,但如果使用低质量的数据,这可能导致糟糕的结果或加固模型中的现有偏见。
管理者常常低估和忽视这些数据基础问题,原因有几个:
首先,大多数管理者和员工缺乏数据素养。Gartner将数据素养定义为“在特定上下文中阅读、书写和沟通数据的能力,包括对数据来源和构造、所应用的分析方法和技术的理解,以及描述使用案例、应用及其结果价值的能力。”根据Gartner年度首席数据官调查,数据素养不足被认定为首席数据官办公室成功的第二大内部障碍。
其次,通常没有建立定期评估和监测数据存储和使用风险概率及影响的流程。
第三,管理者通常没有理解的 数据清单概览。如果存在数据清单,它通常是为数据科学家而制作的,使用的是非常具体的技术信息。
你知道你公司的数据状态、风险与价值吗?如果不知道,谁能在按下按钮时给予你评估?
一个强大的数据基础由四个维度组成:
战略:制定一个清晰的数据战略,该战略应跟随你的业务战略并支持战略性举措。避免使用过于技术化的语言;它的目的是提供方向,而不是详细的指导。有效的数据战略由清晰简明的原则组成,描述数据在技术和组织上的处理方式。一些组织,如德国房地产网站Scout24,称其为数据宣言。
文化:相当一部分69的首席数据官将大部分时间用于推动以数据为驱动的文化,55的首席数据官将缺乏以数据为驱动的文化视为实现商业目标的首要挑战。我的同事Ishit Vachhrajani写过一本备受推荐的电子书讨论这一主题。
组织:为你的分析数据定义清晰的、面向业务领域的责任。在中央数据团队中,这种责任往往定义不明确。这些团队并未生成数据;他们从事务性应用程序中提取数据,现在努力管理为公司其他单位使用的数据。我建议将分析数据的控制权从中央数据团队转移到生成这些数据的组织单元。这种做法被称为组织数据网格。这些团队根据特定的用例和业务问题来存储数据,以满足内部和外部客户的需求。因此,责任在组织层面上转移到生产者手中。技术上,他们可以选择在数据湖中集中存储数据或在数据网格中分布存储。AWS提供的服务可以构建这两种现代数据架构。由于能力与控制是相辅相成的,因此需要投资提升员工的数据素养。数据生产者通常在处理事务性数据方面具备能力,但缺乏分析能力。AWS可以帮助你进行数据分析培训。此外,应建立适当的访问政策。并不是所有人都需要默认访问所有数据,但所有人都应能够在数据目录中发现可用数据,并在需要时通过API获得访问权。AWS Lake Formation可以轻松创建安全的数据湖,使数据可用于广泛的分析。使用Amazon DataZone可以在组织边界间以治理和访问控制的方式发现和共享数据。
技术:一刀切的解决方案可能并不是一个强大数据基础的最佳选择,尤其是在支持不同分析用例时,这些用例通常归属不同的组织单元。我建议采取最佳工具策略,以便在每个上下文和用例中使用最佳工具。这些工具必须良好集成,并从架构角度与整体技术战略保持一致。AWS提供了一整套服务用于存储、查询、集成、编目、治理和操作数据。利用这些服务,组织能够以大规模构建集中或分布式的数据架构。我一般建议加速云转型,充分发挥AWS云的潜力。应用现代且经过验证的软件开发实践,如版本控制、CI/CD和自动化测试,用于开发和运营分析数据系统。这将提高生产力和质量,同时缩短开发时间,改善变更的可追溯性。
生成AI能为未来的数据基础做出重要贡献。大型语言模型LLM如Amazon Titan模型可以帮助你对数据进行分析、提取和丰富元数据、维护数据目录并增强自然语言搜索。然而,与所有生成AI应用一样,你仍需对AI的结果和建议进行审慎审核例如,所生成的元数据是否正确。
数据和数据基础设施可能看起来复杂而令人困惑,但它们可以在明确和安全的基础上使用。你组织中的数据创造了许多机会;你只需好好运用它们。

数据就像新酒
如果你合理处理、存储和提炼数据,最终可以实现惊人的结果,且随着时间的推移,结果会变得更好。如果不加小心,它会迅速失去质量,变得毫无用处。
你对数据基础的经验如何?我很想听听你的看法。
如何构建数据能力,Ishit Vachhrajani
如何创建数据驱动文化,Ishit Vachhrajani
揭示你组织的数据问题,Joe Chung
标签:AI、人工智能、数据、数据战略、数据驱动文化、机器学习
马蒂亚斯帕察克
马蒂亚斯于2023年初加入企业战略家团队,此前担任AWS解决方案架构的首席顾问。在这一角色中,马蒂亚斯与执行团队合作,探讨云如何帮助提升创新速度、IT效率以及其技术所产生的业务价值。不加入AWS之前,马蒂亚斯曾担任AutoScout24首席信息官及Home Shopping Europe的常务董事。在这两家公司,他成功引入了大规模精益敏捷运营模型,并领导成功的云转型,带来了更短的交付时间、提升的商业价值以及更高的公司估值。