当前位置:首页 >>水极客 >>查看详情

数说智慧水务:大数据中的“大”、“数”、“据”(一)

2023-11-29 15:16:51 作者 : 围观 :68次

以数据的名义,说一说智慧水务

菜鸟与顺丰之争,似乎让大家忽然明白,数据真的是资产,而资产就是可以卖钱的,可以在资产负债表在予以体现的。前几天,我在博客上发了一篇“《菜鸟有点菜,顺丰不太顺:向谷歌学习格局》(http://gaoyl2003.blogchina.com/482502200.html)”的文章。中间提到了几个观点:

一是大数据归谁所有。菜鸟平台、顺丰快递、水费者似乎都是这些数据的创造者,他们都应该是数据的拥有者。只是谁都没有承认谁是主角,谁是配角,谁在台前,谁在幕后。这个问题没有搞清,数据之争,只是时间问题。

二是大数据需要避免垄断。很多数据其实是公共资源,它可能在隐私权的形式出现,需要以法律为准绳予以保护;它也可能在是公开的信息,以共享的形式供社会使用者合理的免费或付费的方式进行查询。

三是大数据的使用需要授权。使用数据者,需要得到数据所有者的法律许可,必须声明使用的场合与用途,从而决定许可的形式。

四是大数据的使用者必须负责,包括法律责任,也包括为数据使用所必须支付相应费用的经济责任。

互联网时代,以上四点将是一具普遍性的问题,水务数据也不例外。所以说一说水务数据,是非常具有现实意义的话题。

接着上一讲,我来来谈一谈智慧水务中大数据的特点。

“大、数、据”

智慧水务与大数据的关系,一言以蔽之:数据业务化,业务数据化。基于这些认知。我分别从“大”、“数”、“据”三个层面上分别讨论。

大,是指数据的特点;

数,指数据的内容;

据,是指数据的逻辑关系。

本月我将在水视点网站www.watereyes.com及水务经理人公众号(waterchinese)上独家分享,难够挂一漏万,或有失偏颇,我将不断完善文内容,请大家随时关注,也欢迎同行不吝批评指正。

今天先讲一讲大数据中的“大”


大,四层意思:更多、更杂、更快、更好。

1更多

更多的意思是:通俗讲,数据的数量比以往更多,但不仅仅是数量上的多。

随着数据采集手段的改进、渠道的增多,尤其是互联网的工具应用,信息的爆增,我们对数据的收集数量上有一个猛增,因此数据在量上的突破,从而引发了质的突变。因此,“总体=样本”的设想,成为了可能。我们以前的观念总是对“采样”做一些很深的研究,因为采样的方式往往决定了结果是不是客观,正确的。在实践过程中,‘采样’的行为不可避免地带有主观性,从而使样本失去了代表性,这是致命的弱点。所以“更多”的特点,是大数据的一个最基本的价值体现所在。

而智慧水务数据中的“更多”,与以前的水务管理模式相比,无论是在内部运营,对外服务过程中,数据上也确实有了相当的进步,但目前存在的瓶颈是:一是在内部运营的数据中,感知层的数据采集数量过少。由于资金与技术上的障碍,导致硬件投入不足,采集量与“大数据”的概念并不匹配。当量上没有一定突破的时候,便导致样本的不足,对智慧水务的“智能决策”上,就存在一个天然的短板。比如,管网DMA管理中,在线流量压力监测的点不够,失去了精准判断漏点的能力。

  有了“多”的概念之后,机器的学习功能,才可以下下显现。机器的学习功能必须建立在大数据的基础上,使它具备不同于人类的认知方式。比如说,机器如何认识一只猫,如果数量过小,它可能会把猫认成虎或猫头鹰,但当机器记忆了一万张、一亿张各种猫的图片的时候,它的认知准确度和速度都会远远超过人类。推而广之,如果我们收集了关于供水区域范围内的一万个停水、漏水的状态时,机器的学习功能,基本上可以有一个可靠判断或预警的功能了。至于机器如何识别,它的研究就交给专门的研究机构吧。你只需要知道,机器的思维方式、判断方式不是你想象中的思维方式。电脑的学习功能,对水力模型的应用方式或许会有质的突破。

只是目前的问题是,水务数据不远没有达到这个量,因为感知层的硬件投入(或说经济投入)不足以支撑这个“多”的要求。或者说,目前状况下,感知层的硬件投入产出比过大,从经济投资角度来讲是不经济的。于是,智慧水务系统的感知层过少,是一个痛点!缺少了丰富的数字神经系统,智慧水务的数据效用,自然也受到极大的制约。

2更杂

更杂的意思:作为信息载体,数据将会变得更加繁锁、复杂。所以,大数据中有一个非常明显的特点,就是允许不精确。混杂性,是大数据固有的特点。由于它的“多”,导致数据结构无法细致分类,形成了非结构化的数据,所以新的数据库设计也从而形成。在实务中,我们从大数据中,快速获得一个大概的轮廓(发展趋势),比严格的精确性更具有现实中的指导意义。比如:数据之间的因果关系并不明显,但相关性就成为非常明显的现象。所以,在大数据思维下,一个体系对数据分析与加工的过程中,更多考察的是大势的相关性,而不是精确的因果关系。在“更多”的基础上,体现出大量数据的优势,使考察许多事件的相关性成为可能。

而模型的建立,是关键要素。数据的维度也让分析方法变得更加丰富多彩。物理世界与数学世界将会更加深入的融合,物理世界就是感知层,数学世界就是数学模型针对感知导的数据进行逻辑运算。

显然,大数据关注的首先是相关性,而不是因果关系。相关性比因果关系,在现实中具有强烈的指导意义。主要原因在于:一是因果关系比较精确,而模糊性的定性结论往往在实践中具有更多的应用场景;二是相关性是大数据中优势的一个明显突破。在量上的采集使相关性的揭示与验证成为一种可能。

用水量也电视剧的关系。就是一个非常典型的安全。就是我常讲的一个非常典型的案例。大家可以在我写的《智慧如何引领水务》一文中查看。

3更快

更快可以理解为:实时、即时的传递。数据作为信息流,作为业务流,在传输的时间上也不要求。包括感知层上的一些传感器的性能要求。比如数据延时的问题,传输过程中的误差问题。对数据的应用不同,对传输速度,传输频率,传输精度、正确度就会有不同数量级的要求。

在智慧水务实践中,水质、水量、水压的信息采集,机电设备的温度、噪音、电耗等运营指标的采集,水力模型、GIS系统、内部流程管理、数据分析决策系统的数据流处理,等等不一而足。又比如:污水处理厂厂区内工艺调整,往往根据外围集污管网中关于水质、水量的情况来进行及时调整,确保出水达标排放,这就与数据的传递速度非常相关。而水务行业中,在这个“快”字上,仍然是一个瓶颈,外围水质的突变对生化系统的冲击,在技术手段上仍然存在极大的障碍。


4更好

更好的意思:数据发挥的效用会更好,并形成一个完整的价值链,改变个体,即改变总体。收集的速度会更快,分析的逻辑关系在一个合理的模型中,将功能发挥得心应手。分析工具+专业背景,将是大数据加工分析的一个根本组合。相关关系的核心是量化两个数据之间的数理关系,这就需要一个好的数学模型;行业需要有自身的,内在的逻辑关系体现在数学模型中,所以又需要一个专业背景。两都不可偏颇。

就象要判断一个人,还可以看看他的朋友一样,要判断一个数据的价值,就得找到与这个数据相关的关联物,只有它可以更好地帮助我们捕捉现在和预测未来。比如说超市中,尿布与啤酒放在一起销售可以大增,比如说沃尔玛通过大数据分析,发现飓风来时,草莓味的蛋糕销量就会大幅上升。飓风、蛋糕、尿布、啤酒,就是我们需要关注的关联物。这是让数据“更好”的一些技术与技巧,此处不细述。


又比如, 水务数据是人们生活习惯的一个体现,同时也是一个地方区域的经济发展的晴雨表,而即时数据,与人口分布、交通状况、天气状况、生活水平都存在着相关性。智慧水务中体现的数据,可以与“智慧城市”、“海绵城市”、“政务云”等项目互相融合,以数据为橻带,使它位成为“数学模型”不可分割的一部分,从而体现出1+1〉2的集聚效益。所以,就象一滴水放入大海,可以保持它更强的生命力一样,智慧水务的数据需要融入到“智慧城市”的大数据中去,才可以发挥它“更好”的价值。


       举个简单例子,最近浙江政府推出的“最多跑一次”的业务办理,得到基层百姓的占赞。表面上看去是一个办理流程加快的便民服务,或是“政治任务”,实质上也是对政务办理流程数据业务流的一次挑战与完善,水务便民措施,也是对智慧水务数据业务的一个检验与挑战。“最多跑一次”,不是说百姓与水务部门沟通一次就够了,而是指通过技术手段、加快了业务数据的流转速度,从而达到了“便民”的目的。这就是水务数据中从“更快”向“更好”的华丽转身。



标签:
标签列表