数说智慧水务：大数据中的“大”、“数”、“据”（一）-watergpt

菜鸟与顺丰之争，似乎让大家忽然明白，数据真的是资产，而资产就是可以卖钱的，可以在资产负债表在予以体现的。前几天，我在博客上发了一篇“《菜鸟有点菜，顺丰不太顺：向谷歌学习格局》（http://gaoyl2003.blogchina.com/482502200.html）”的文章。中间提到了几个观点：

一是大数据归谁所有。菜鸟平台、顺丰快递、水费者似乎都是这些数据的创造者，他们都应该是数据的拥有者。只是谁都没有承认谁是主角，谁是配角，谁在台前，谁在幕后。这个问题没有搞清，数据之争，只是时间问题。

二是大数据需要避免垄断。很多数据其实是公共资源，它可能在隐私权的形式出现，需要以法律为准绳予以保护；它也可能在是公开的信息，以共享的形式供社会使用者合理的免费或付费的方式进行查询。

三是大数据的使用需要授权。使用数据者，需要得到数据所有者的法律许可，必须声明使用的场合与用途，从而决定许可的形式。

四是大数据的使用者必须负责，包括法律责任，也包括为数据使用所必须支付相应费用的经济责任。

互联网时代，以上四点将是一具普遍性的问题，水务数据也不例外。所以说一说水务数据，是非常具有现实意义的话题。

接着上一讲，我来来谈一谈智慧水务中大数据的特点。

“大、数、据”

智慧水务与大数据的关系，一言以蔽之：数据业务化，业务数据化。基于这些认知。我分别从“大”、“数”、“据”三个层面上分别讨论。

大，是指数据的特点；

数，指数据的内容；

据，是指数据的逻辑关系。

本月我将在水视点网站www.watereyes.com及水务经理人公众号(waterchinese)上独家分享，难够挂一漏万，或有失偏颇，我将不断完善文内容，请大家随时关注，也欢迎同行不吝批评指正。

今天先讲一讲大数据中的“大”

大

大，四层意思：更多、更杂、更快、更好。

1更多

更多的意思是：通俗讲，数据的数量比以往更多，但不仅仅是数量上的多。

随着数据采集手段的改进、渠道的增多，尤其是互联网的工具应用，信息的爆增，我们对数据的收集数量上有一个猛增，因此数据在量上的突破，从而引发了质的突变。因此，“总体＝样本”的设想，成为了可能。我们以前的观念总是对“采样”做一些很深的研究，因为采样的方式往往决定了结果是不是客观，正确的。在实践过程中，‘采样’的行为不可避免地带有主观性，从而使样本失去了代表性，这是致命的弱点。所以“更多”的特点，是大数据的一个最基本的价值体现所在。

而智慧水务数据中的“更多”，与以前的水务管理模式相比，无论是在内部运营，对外服务过程中，数据上也确实有了相当的进步，但目前存在的瓶颈是：一是在内部运营的数据中，感知层的数据采集数量过少。由于资金与技术上的障碍，导致硬件投入不足，采集量与“大数据”的概念并不匹配。当量上没有一定突破的时候，便导致样本的不足，对智慧水务的“智能决策”上，就存在一个天然的短板。比如，管网DMA管理中，在线流量压力监测的点不够，失去了精准判断漏点的能力。

　　有了“多”的概念之后，机器的学习功能，才可以下下显现。机器的学习功能必须建立在大数据的基础上，使它具备不同于人类的认知方式。比如说，机器如何认识一只猫，如果数量过小，它可能会把猫认成虎或猫头鹰，但当机器记忆了一万张、一亿张各种猫的图片的时候，它的认知准确度和速度都会远远超过人类。推而广之，如果我们收集了关于供水区域范围内的一万个停水、漏水的状态时，机器的学习功能，基本上可以有一个可靠判断或预警的功能了。至于机器如何识别，它的研究就交给专门的研究机构吧。你只需要知道，机器的思维方式、判断方式不是你想象中的思维方式。电脑的学习功能，对水力模型的应用方式或许会有质的突破。

只是目前的问题是，水务数据不远没有达到这个量，因为感知层的硬件投入（或说经济投入）不足以支撑这个“多”的要求。或者说，目前状况下，感知层的硬件投入产出比过大，从经济投资角度来讲是不经济的。于是，智慧水务系统的感知层过少，是一个痛点！缺少了丰富的数字神经系统，智慧水务的数据效用，自然也受到极大的制约。

2更杂

更杂的意思：作为信息载体，数据将会变得更加繁锁、复杂。所以，大数据中有一个非常明显的特点，就是允许不精确。混杂性，是大数据固有的特点。由于它的“多”，导致数据结构无法细致分类，形成了非结构化的数据，所以新的数据库设计也从而形成。在实务中，我们从大数据中，快速获得一个大概的轮廓（发展趋势），比严格的精确性更具有现实中的指导意义。比如：数据之间的因果关系并不明显，但相关性就成为非常明显的现象。所以，在大数据思维下，一个体系对数据分析与加工的过程中，更多考察的是大势的相关性，而不是精确的因果关系。在“更多”的基础上，体现出大量数据的优势，使考察许多事件的相关性成为可能。

而模型的建立，是关键要素。数据的维度也让分析方法变得更加丰富多彩。物理世界与数学世界将会更加深入的融合，物理世界就是感知层，数学世界就是数学模型针对感知导的数据进行逻辑运算。

显然，大数据关注的首先是相关性，而不是因果关系。相关性比因果关系，在现实中具有强烈的指导意义。主要原因在于：一是因果关系比较精确，而模糊性的定性结论往往在实践中具有更多的应用场景；二是相关性是大数据中优势的一个明显突破。在量上的采集使相关性的揭示与验证成为一种可能。

用水量也电视剧的关系。就是一个非常典型的安全。就是我常讲的一个非常典型的案例。大家可以在我写的《智慧如何引领水务》一文中查看。

3更快

更快可以理解为：实时、即时的传递。数据作为信息流，作为业务流，在传输的时间上也不要求。包括感知层上的一些传感器的性能要求。比如数据延时的问题，传输过程中的误差问题。对数据的应用不同，对传输速度，传输频率，传输精度、正确度就会有不同数量级的要求。

在智慧水务实践中，水质、水量、水压的信息采集，机电设备的温度、噪音、电耗等运营指标的采集，水力模型、GIS系统、内部流程管理、数据分析决策系统的数据流处理，等等不一而足。又比如：污水处理厂厂区内工艺调整，往往根据外围集污管网中关于水质、水量的情况来进行及时调整，确保出水达标排放，这就与数据的传递速度非常相关。而水务行业中，在这个“快”字上，仍然是一个瓶颈，外围水质的突变对生化系统的冲击，在技术手段上仍然存在极大的障碍。

4更好

更好的意思：数据发挥的效用会更好，并形成一个完整的价值链，改变个体，即改变总体。收集的速度会更快，分析的逻辑关系在一个合理的模型中，将功能发挥得心应手。分析工具+专业背景，将是大数据加工分析的一个根本组合。相关关系的核心是量化两个数据之间的数理关系，这就需要一个好的数学模型；行业需要有自身的，内在的逻辑关系体现在数学模型中，所以又需要一个专业背景。两都不可偏颇。

就象要判断一个人，还可以看看他的朋友一样，要判断一个数据的价值，就得找到与这个数据相关的关联物，只有它可以更好地帮助我们捕捉现在和预测未来。比如说超市中，尿布与啤酒放在一起销售可以大增，比如说沃尔玛通过大数据分析，发现飓风来时，草莓味的蛋糕销量就会大幅上升。飓风、蛋糕、尿布、啤酒，就是我们需要关注的关联物。这是让数据“更好”的一些技术与技巧，此处不细述。

又比如，水务数据是人们生活习惯的一个体现，同时也是一个地方区域的经济发展的晴雨表，而即时数据，与人口分布、交通状况、天气状况、生活水平都存在着相关性。智慧水务中体现的数据，可以与“智慧城市”、“海绵城市”、“政务云”等项目互相融合，以数据为橻带，使它位成为“数学模型”不可分割的一部分，从而体现出1+1〉2的集聚效益。所以，就象一滴水放入大海，可以保持它更强的生命力一样，智慧水务的数据需要融入到“智慧城市”的大数据中去，才可以发挥它“更好”的价值。

举个简单例子，最近浙江政府推出的“最多跑一次”的业务办理，得到基层百姓的占赞。表面上看去是一个办理流程加快的便民服务，或是“政治任务”，实质上也是对政务办理流程数据业务流的一次挑战与完善，水务便民措施，也是对智慧水务数据业务的一个检验与挑战。“最多跑一次”，不是说百姓与水务部门沟通一次就够了，而是指通过技术手段、加快了业务数据的流转速度，从而达到了“便民”的目的。这就是水务数据中从“更快”向“更好”的华丽转身。