You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

108 lines
13 KiB
Markdown

This file contains invisible Unicode characters!

This file contains invisible Unicode characters that may be processed differently from what appears below. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to reveal hidden characters.

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 04 | 软件:数据定义和数据工具,才是用好数据的关键
你好,我是付晓岩。
在上一讲我们提到,数据是最重要的新生产要素,并且会参与到分配中。要处理数据,光用好软件就够了吗?不是,还得有能力做好数据的定义。
举个例子。一个销售人员,要数用据来分析下这个月的工作结果。但是,除了销售数据,他发现自己需要的数据:打了多少电话,和哪个客户打了几次,哪个客户答应了但因为跟进不及时线索断了,几乎都没有。因为跟进不及时导致线索断了,这种事儿为啥就没个小助手提醒一下呢?
其实,这倒不是因为业务系统功能少,而是提供的数据和你想要的数据不一致。在我看来,要解决这个问题,我们作为数字时代的业务人员,得对数据敏感,在提需求的时候就得想清楚需要什么数据。否则,就会出现后期你查不到想要的数据的情况。所以,除了要有数据思维,还得具备定义数据的能力,才算是真正懂数据,才能掌控数据这个新生产要素。而数据定义和数据工具技能的叠加,就是大多人面向软件该具备的数字化工作技能了。
## 提升自己的数据定义能力
### 业务人员学习数据建模,可以解决啥问题?
数据定义有一个重要的方法,就是数据建模。你一定会问了,这不应该是技术人员而且是做数据的那一小撮人的事情吗?未必。我建议,所有业务人员都要去学习下数据建模。为啥呢?
人依赖于时代而存在人的技能树往往跟主流的生产方式密切相关。既然在数字化时代数据是最重要的生产要素也会参与到分配中那么数据建模的技能就应该被更多的个体掌握。不然数据的流通、交易怎么普及呢数据流通中涉及的标准化问题既不是单纯的技术问题也不是技术人员能搞定的了是需要从业者共同制定的。现在互联网企业在提的“One Data”说的就是要逐渐走向统一的数据定义而这些定义基本都来自业务侧。
如果要大范围推动数字化,业务人员是一定要具备数据建模的技能。说到这里,你也不必焦虑。因为数据建模的核心问题并不是技术复杂,而是沟通麻烦,需要大家对众多琐碎的数据都达成一致的认知。那么,业务人员具备了数据建模技能之后,会触发哪些改变呢?
首先,可以**进一步提高数据质量**。要想数据为决策提供高质量的支持,那必须得要求决策的源头也就是数据,得是高质量的。一个典型的例子是,资产负债表、现金流量表、损益表这些很多企业都会用到的经营数据。表中的每个数字都信息量巨大,但是这些数字是由一笔一笔的业务记录汇总起来的,错一笔账整个表就是错的,提供的决策支持就会有问题。这就是数据质量问题。
那如何保证数据质量呢?除了把账记对之外,我们还会面临更大的挑战。数据已经在产品设计、销售、品牌管理、运营、风险防范、旅游、外卖等各种场景中广泛应用了,所以我们需要越来越多的数据去认清周围环境的变化。所以,越来越多的事物被定义成数字,以方便我们收集它们的变化,这就要求必须得先把数据定义好。
**其次,完成更多事物的“数字化”。**只有能更准确地识别数据,才能用数据去准确地描述一个事物。
以茶杯的数字化为例,你得需要定义这些要素:
* 茶杯材料是紫砂的,描述紫砂的可以有产地、泥的种类、存放时间等;
* 形状则有不同的器型描述、长宽高数据;
* 色彩有不同的颜色定义;
* 归属涉及对人的信息的表述,可以有制作者、不同时期的主人;
* 状态可以包括完整、残缺、残缺程度等;
* 时间则是茶杯从诞生开始的存续时间,甚至会划分成不同的时间阶段以匹配不同的归属;
* 位置信息则记录了茶杯走过的地方。
这些数据就能准确地描述一个茶杯的前世今生了就能将茶杯给数字化了。如果是个普通茶杯这些数据的价值可能会很低而如果是个古董茶杯的话这些数据就决定了它的价值。你看其实我们一直在用数据去描述事物从而准确地去制造它或者让别人认识到它。现在我们需要让更多的事物被数字化到业务系统中让更多的生产过程被更好地计算和控制从而提高生产效率。同时我们也在让更多的事物进入虚拟环境去营造更好的虚拟体验在讲AR、VR应用时我也提到过。
随着这种数字化模式越来越普及,必然会要求每个从业者都有能力用数据去描述他的工作对象,否则就很难理解要处理的对象,也很难理解企业提供的工具。
**最后,提高资源利用效率。**数据建模过程中,还要注意对数据生命周期的定义。数据不应该长命百岁,存在一天就消耗一天的存储和计算资源,还会增加系统升级改造的成本或者复杂性。此外,随着数据立法的加强,根据客户的意愿有些数据是可以被删除的。这更加说明了准确理解数据生命周期的重要性,不然,否则你连业务需求都提不对。
理解了数据建模技能的重要性之后,我们该如何去提升自己的数据建模技能呢?
### 如何提升自己的数据建模技能?
现在市面上已经有很多数据建模的图书了,这里我只推荐一本经典的书《数据建模经典教程》。这本很薄的小册子不是面向数据库设计来写的,是一本非常好的入门书。这本书中提到的不同建模方法对于数据模型的定义略有不同,你学习时可以注意下。不过,这些差别并没有严格的对错,只是影响表达形式而已,所以也不要在关于差异的争论上花费太多时间。
接下来我再和你分享4个提升数据建模能力的要点供你参考。
第一,**学会建立事物之间的边界**。
数据建模过程也是探索事物结构的过程,也就是研究怎么归类众多属性才能成为对一个事物的数据化描述。比如茶杯的例子,就是材料、颜色、工匠、交易记录等多类信息组合描述的。但是拆开来看,这些信息之间没有任何关系,就是一组独立的信息。所以,不能单纯地看到一个事物,而是得学会看到这个事物跟其他事物之间的边界,以及这个事物内部的结构和这些构成要素之间的边界。这就是结构化看待事物的能力,是建立数据模型的基础能力。
第二,**学会结合业务流程看待数据的定义**。
对于刚接触数据建模的人来讲,一定不要凭自己的感觉建立数据模型,一定要结合业务过程去看。
如果是针对自己的业务领域建模,一定要想清楚:自己做业务的过程是什么样的?每个环节中处理哪些事物,也就是业务对象?在业务处理过程,这些业务对象发生了什么变化?如何记录这些变化,以及需要哪些不同的分类去描述他们?比如,做饭的时候大米从生到熟,你怎么实现它,需要放多少米、加多少水、需要多高温度、加热多长时间,把这些都用数据描述出来,就能找到做电饭锅的业务逻辑了。这就是“一切业务数据化,一切数据业务化”的简单例子。
**第三,学会动态地看待数据。**
数据定义之后并不是一成不变的。业务人员对业务变化的感知是第一时间的,可以及时提出数据模型的变更,这也是我建议业务人员也得具备业务建模技能的原因之一。
随着物联网技术的发展,我们对世界的感知会越来越依赖数据。如果对事物的新认知不能及时反应到数据定义上,我们对事物的认知在数据层面就会滞后。这就好像你听不懂网络流行词一样,可能产生交流障碍。
第四,**把主要精力花在模型设计上**。
数据建模是有专业工具支持的比如ER-Win。但是在企业中数据模型的维护目前还是少数专业人员的工作所以我们可以先不在这些专业工具的学习上花费过多精力。你只要用好最简单的数据建模工具也就是白板、PPT就好把主要精力花在模型设计上更合适。
具备了数据建模技能之后,我们还需要掌握一些基本的数据工具。
## 基本的数据工具
电子表格,是一个很朴素却功能异常强大的一个工具,绝对是你必须掌握的一个工具。
2004年我在银行体系工作的时候我们完成复杂的监管报表报送用的就是电子表格。将几十张电子表格联动起来自动更新加上一些校验规则编到表里看看数据对错也就完成了复杂的监管报送。现在这样的能力已经做到一些银行的系统中了。
做了一段时间的业务分析后我使用的还是电子表格一些简单的函数加上数据透视表就可以应对很多工作需求了。再后来我做企业架构的时候需要进行业务建模会涉及对电子表格的批量改动。这时候简单学些VBVisual Basic就可以处理自动打开多个文件表、自动修改指定字段、自动修改文件名称等操作了。
你看,**电子表格配上编程语言,就可以满足数据分析、业务分析、业务建模中的大部分工作需求了**。当数据成为主要的生产要素后,电子表格这种唾手可得的数据工作,就应该是你的必备技能了。要掌握这些技能,找些评分还不错的书或者教程,边学边用即可。分享一个我的学习建议:没必要一上来就花很多精力去系统学习,工具还是重在使用,学了一堆用不上的功能也是浪费时间。
说到这里,你可能会觉得这和大数据、人工智能等数字化画风不符啊。其实不然,毕竟很多企业还无法依靠数据平台来为员工提供数据工具,哪怕公司业务的信息化已经进行到一定程度了。另外,单纯就数据分析能力而言,并不是公司提供的工具就一定会很强。公司提供的数据工具,最大的优势是跟公司数据源的结合,可以更方便地获得公司的数据。
**除了电子表格现在还有一些可以瞬间让图表高大上的BI工具**,你也可以考虑去学习。当数据平台通过云的方式逐渐普及了,你会发现这些工具依然用得上,因为他们的基本功能其实都集成在平台里了,操作方式可能都差不多。
**如果你想让自己的数据工具技能再上一个台阶,可以学习一门编程语言**。我推荐你学习Python它上手快还可以做各种函数处理。有了编程语言的助力你就可以自己创造分析模式而不用受限于电子表格的内嵌函数了。不过要想使用语言去创造分析模式还得要求你具备不错的数学功底。
以上就是几种常用的数据工具了,你不用全部都学习,也没必要一定要按照啥顺序来学习,根据所在环境来决定学习哪个就好了。
## 总结
今天这一讲,我们一起学习了数据定义和基本数据工具的技能,这就是大多人面向软件该具备的数字化工作技能了。
第一,随着生产要素和生产工具的改变,所有从业者都必须直面数据本身去认识数据了。不然,数据思维、数字化理念这些都很难真正形成。值得注意的是,用得好数据,已经从过去要求看报表升级为能真正定义数据了。真正懂得数据的前世今生,才能更好地养成数据思维。
第二,很多企业还无法通过平台去提供数据工具,这就要求我们具备离线使用电子表格等基本工具处理数据的技能。其实,各种数据处理工具提供的数据处理能力有相通之处,现阶段我们通过电子表格积累的数据处理技巧,也不会白学。
今天的内容我总结了一张图,你可以用来回顾下:
![图片](https://static001.geekbang.org/resource/image/12/59/1247455c599a6c2a51781b97473e2059.jpg?wh=1920x718)
## 思考题
你现在常使用的数据分析工具是什么、用起来方便吗?期待你能多分享交流,我们一起对比看看各家企业的数据工具,以及应用情况。
欢迎你在评论区留言,我们一起讨论。如果这一讲对你理解数据、提升自己的数据处理技巧有所帮助,欢迎你把它分享给你的朋友,我们一起交流、碰撞。