语言选择: 中文English
会员用户名:    密码:     登录    注册     
郑重声明 关于2017年上半年登记《全国计算机技术与软件专业技术资格(水平)考试》的通知 第一届深港大数据论坛活动议程
会员天地
电子期刊
您现在的位置:业界交流 → 业界信息
用大数据,做小事情
http://www.sziia.org 2014年8月20日

一、不要掉入大数据陷阱

在大数据热一浪高一浪之时,很需要给大数据热泼一点凉水,防止政府、企业盲目跟风跌入技术导向的陷阱。

1.1信息化宣传总是言过其实

信息化宣传言过其实已经屡见不鲜,我们宣传数据库、信息共享、物联网、云计算,每次都会描绘一个无限乐观的前景,重大成效炙手可得,然而现实往往会浇上一瓢冷水,人们终于发现信息化效益都不是那么容易达到的,技术不是最关键的因素,清醒的思考才是更重要的。
言过其实的宣传是营销的职业病,IT企业希望造成盲目购买技术的气氛,媒体是产业广告驱动的,记者需要耸人听闻,专家需要展示自己的前瞻性,官员们需要说明自己是内行,而泼冷水的文字被媒体极力抑制,这种宣传信息的不对称必然导致“新概念过热”,形成新概念陷阱。

1.2大数据应用取得成果不容易

每一种新技术的应用都是水到渠成的结果,环境没有准备好任何技术要取得成效都是困难的,大数据应用对环境的要求更苛刻,取得成效会更难。
大数据应用的困难之一是数据资源稀缺,虽然传感器越来越多,互联网、移动通信、银行、物流都是大数据的来源,但是能够方便利用这些资源的机构是极少的,用户想解决的问题很多,能供用户使用的数据如凤毛麟角,大多数部门找不到可用的大数据资源,更谈不上利用大数据的眼光与技术。
影响大数据应用更关键问题是需求环境不成熟,用户面对的问题是有优先级的,要先做最重要、最急切的问题,而优先最高的问题恰恰不是大数据能够解决的,大数据擅长细节上的改进,只会锦上添花,不会雪中送炭,对那些管理问题成堆的机构帮不上忙,多数企业与政府部门现在还没有锦上添花的条件。

1.3大数据对全社会数据意识的影响

大数据热强化了社会的数据意识,这对于中国是非常重要的。长期以来中国社会文化一直缺乏精确的数据意识,正如胡适先生所说的是“差不多”文化,这种文化阻碍了科技在中国的发展,没有精确就没有现代科技,因此提升全社会的数据意识是大数据热的巨大贡献。
大数据的宣传需要防止另一种片面性,以为数据越多越精确,大数据是一种从混乱数据中挖掘信息的技术,并不等于精准的业务管理,对现有的业务数据的有效利用仍然是现阶段信息化建设的核心任务。
大数据热会逐步退烧,大数据应用在国内还是一个小众市场,能够利用大数据取得效益的机构并不多,大多数机构首先利用好现有数据资源,提升精确管理的数据意识,完善小数据的应用更是当务之急。

二、大数据意味着大噪声

过度的宣传增加了大数据的迷惑性,以为大数据无所不能,数据越多信息越多,实际上噪声比信息的增长快得多,信息的提取难度也越大,我们不能神化大数据技术,从大数据中挖掘信息仍有极大风险,谁知你发现的是信息还是噪声呢?世没有能自动筛选信息的技术。

2.1 信息的增长赶不上噪声的增长

大数据意味着无限规模的数据量,但是数据量的无限膨胀并不意味着所包含信息的有效增长,大数据所包含的信息被无限摊薄,要从极其庞大的数据量中挖掘出有用的信息内容需要与噪声进行顽强的斗争。
大数据与统计调查不同,统计是为获取某种信息设计的,而大数据不是,大数据是业务数据处理的副产品。移动通信数据是要连接基站,搜索引擎数据是帮助用户搜索,亚马逊数据是用户的查询与交易记录,大数据应用是主业务数据的再利用,如同废品回收再利用一样,噪声增长快于信息增长很自然。
互联网上信息精品至多只能线性增长,但粗制滥造品却可以指数增长,必然导致网上精品越来越稀薄,互联网沙漠化。大数据也有同样的问题,数据量暴涨对统计分析可信度的增加的影响越来越弱。
大数据会带来许多似是而非的“规律”,人们很难判别孰真孰假,这将导致虚假信息的泛滥,利用大数据噪声进行欺骗的“专家”会越来越多,理论上不存在能够区别噪声和信息的技术,只有靠使用者的经验与智慧判断真假。

2.2 数据越多思维越片面

数据资料的增长并不意味着有用信息的增长,更不意味着智慧的增长与决策能力的提高。过度膨胀的资料查询阻碍了人们对问题的独立思考,而独立思考是提高智慧的主要途径,过量的资料在损害人们的决策能力。在复杂问题的分析判断在,大数据的过度渲染会影响人们对多方面因素的综合判断。
政府与企业高层领导主要面对的是综合性难题,影响这些问题的很多因素不是数据所能描述的,便于数字描述的因素往往是细节,重大问题决策需要整体观,需要对不能用数字表述的重要因素有一种悟性,高层领导沉溺于大数据处理势必会损害这种悟性、损害整体的平衡感,膨胀的数据会夸大某些因素的作用,反而使整体判断失准,因此大数据不适合直接用于重大问题决策。
大数据能够发现一些常规认识所看不到的规律,在一些环境下能够提高政府的管理能力,但是这种效益通常局限于特定的环境中,问题边界清楚,而不是复杂的综合环境。大数据适合改进小事情,重大决策不能仅靠大数据产生。

2.3 防止利用大数据的欺骗行为

大数据规律的发现始于分析者的感觉与猜测,它是大数据研究者的一种创新和思想成果,研究者对数据的悟性是关键,大数据中包含的规律是无法靠计算机自动发现的,规律发现的主观性不可避免,大数据的虚假规律也不可避免。
超大的数据规模很容易被人随心所欲地进行装扮,人们可以从大数据的处理筛选中形成真真假假的许多“规律”,大数据的处理者往往会按照自己的需要来选择数据,使得处理结果具有很大的欺骗性。比如在股票的预测中,有些人会编造出一系列的股票预测法,并选择有利的数据来支持其“预测”模型,然后兜售自己的所谓“发明”,识别这种欺骗需要有深厚的业务知识与理论功底。

2.4 大数据预测解决不了不确定性问题

人们希望能用大数据预测未来,但并非所有的现象都是可预测的,一些随机现象可以预测,但是不确定性问题是不可预测的。我们不可能用过去没有地震预测未来也不会有地震,社会经济中的许多现象是不可预测的,大数据预测也解决不了不确定性问题。
随机现象与不确定性问题是两个概念,随机现象是在一定范围之内的测不准现象,而不确定性来自结构本身的不稳定,是结构对细微变化的剧烈反应(正反馈),其结果超出了常规概念所能估计的范围。大数据思维不能剖析结构问题,也不能剖析因果关系,只是以过去数据推测未来,因此不能预测不确定性。

2.5 工具不能代替智慧思维

工具是没有智慧的,不论你怎样换电脑都不会帮你把文章写得更好,大数据也是一种工具,应用成效不取决于工具,只取决于工具使用者的效益目标是否智慧与专注。
信息化的效益问题不是一个个孤立的事件,效益是一个系统问题,各个环节需要配套,基础没有打好而想靠技术掩盖往往是不行的。智慧工程没有捷径。大数据只能解决价值链上某个环节的问题,重要的是价值链设计的合理性。事先想清楚信息化效益的路径,想清楚影响效益的关键环节,大数据工具要摆对位置才能发挥作用,问题导向才能激发智慧。

三、急忙抢占大数据制高点无意义

大数据经常被一些城市规划为产业腾飞的项目,急忙投资技术攻关抢占大数据技术制高点。多年经验表明:抢占制高点战略很不成功。技术制高点产生于特定的生态环境,没有环境支持开发不出有生命力的技术。改善应用环境、创造应用效益是更好的策略。

3.1 抢占信息技术制高点的误区

专家制定的科技发展策略中最容易看到“抢占科技制高点”的口号,但是制高点战略执行很不成功,从PC芯片、操作系统、云计算、移动通信芯片(只有华为有自己的芯片),关键技术都在美国人手中,对科技制高点的投资大部分打了水漂,这说明抢占制高点战略存在很大问题,我们不能在这种成功率极低的策略上乱投资。
制高点战略失误在急于求成。我们看到的制高点只是冰山露出海面的十分之一,没有看到隐藏于海面之下的十分之九,没有水下部分的强力支持,冰山顶部是露不出来的,而制高点战略忽略了对基础部分的投资,失去应用支持的制高点技术将无法生存。

3.2 技术制高点依赖生态环境支撑

技术制高点产生于产业集群,这是一个生态问题,需要应用基础,需要足够的市场规模,需要配套技术与合作环境,这样应用效益才可能产生,技术发展才能良性循环,是产业集群在支撑技术发展的制高点。
高新技术产业集群是市场需求、技术研发、工业生产的聚集地,离开这种信息密集环境,研发将失去技术方向、失去需求导向、得不到市场认可,投资也不可能持续。产业集群是市场自组织发展形成的,不是领导意志所能控制的。
政府大数据策略宜鼓励应用投资,解决应用实际问题,创造应用效益。应用成功是建立大数据生态环境的第一步。跟随应用需求开发实用技术才是合理的策略。实现应用领先才是登上制高点的第一步台阶。

3.3 多数地区并不适合发展大数据产业

让使用者获益是大数据发展的基本原则。工具就是工具,工具不应成为城市发展的包袱。发展大数据只能顺势而为,产生应用效益是第一步,自己做不出效益的事绝对没有前景。
产业政策不能人云亦云,不能为大数据的高调冲昏头脑也要发展大数据,要看到大数据产业是竞争性的,最终必然会向最有利的个别城市集中,大数据应用可以遍地开花,但大数据产业只能集中,政府强行扶植也没有用。
企业利用大数据技术同样应当是效益导向,先把一件具体的事情做好,大数据并不适合做大事情,大数据应用主要是做好小事情,政府、企业把大数据应用聚集在解决小问题上反而能取得大效益。

四、大数据应用的经济学视角

大数据应用是否划算是一个经济学问题,大数据是不是资源要视具体环境而定,只有用户的使用价值大于数据处理的机会成本之时,大数据利用才是划算的,如果用户有更有价值的事要做,那么大数据只是垃圾不是资源。

4.1 大数据应用并非都是划算的

大数据的应用是一个经济学问题,究竟该不该利用大数据技术必须要从成本效益的视角分析,如果不划算就不应当上大数据。企业的大数据经济核算至少要考虑以下三个问题:
(1)你有大数据资源吗?如果有自然可以利用,那些拥有大数据的企业如互联网巨头、电信运营商、金融服务业等,毫无疑问是会发展大数据应用的;如果自己没有产生大数据的业务,那么数据源成本将是大问题。
(2)企业管理完善吗?大数据解决的是细微处的改进,只有非常优秀的企业才有精力去改进细节,大数据才能锦上添花,如果企业管理不怎么样,还是集中精力解决更重要的问题,轮不到大数据应用。
(3)业务规模够大吗?大数据应用成本是很高的,信息化应用有规模效应,如果业务规模不够大,那么成本回收将十分困难,规模小的企业不必玩大数据游戏,不要因大数据应用把企业搞黄了。
大数据有自己适应的领域,没有看清楚明确的效益机会最好不要贸然进入。

4.2 大数据资源是废品利用

大数据资源与常规统计数据资源根本的不同在于:统计数据是依据获取信息的目的而设计的,而大数据是依据业务工作需要而设计的,尽管传感器、互联网的成本很低,但是要按获取信息的目的来设计大数据收集系统仍然是昂贵不可接受的。而业务数据则不同,业务流程是有收益的,其数据成本是在业务成本中摊销的,因此业务数据的利用没有数据收集成本。例如移动通信不断接收手机与基站握手的信号,该信号的目的是实现手机通信,利用该信号发掘用户迁移的规律则是业务数据的再利用,数据是没有收集成本的。
业务大数据的再利用其好处是节省了数据收集的成本,使大数据应用在经济上具有了可行性,缺点是使得大数据应用需要依附在现成的业务数据之上,这使得有需求的用户不容易找到适合的数据源,必须将就现有的业务数据,这需要使用者有更好的灵活应用数据的能力。

4.3 用户效益来自价值链

每个机构都有其发展目标,效益是一个系统行为,需要多环节配套,大数据应用只能解决一个具体环节问题,离开了机构整体价值链孤立的大数据应用没有多大效用。从成本与效益的角度看,一切与整体目标不相关的事情都不值得去做,大数据只是产生整体价值的一个环节,效益是全系统配套产生的。
大数据应用计划者要清楚本环节在整体效益链中的地位,不能让次要的事情冲击了主要的事情。大数据应用带来的改进如果不是机构最急需的,而机构有更重要、更关键的事情要做,那就应当先做更重要的事情,让大数据应用耽误了更重要的事情是不划算的。

五、大数据的优势是做小事情

大数据热的宣传者总是希望利用大数据解决大问题,但很遗憾,大数据应用的优势在解决小问题,大数据思维的方向是分析,旨在发现相关关系,而大问题最需要的能力是综合,大数据思维恰恰缺少综合能力。

5.1 大数据成功案例集中于做小事情

大数据应用成功案例大都是具体的事情,典型的例子是沃尔玛的啤酒尿布范例,谷歌用搜索热点预报感冒流行趋势,谷歌另一个例子是提高语言翻译的准确率,亚马逊的例子是依据用户的数据向其推荐图书与商品。
这些被反复引用的大数据案例都集中于非常具体的事情上,集中于对具体业务效率进行改进。看不到大数据这宏观决策上的贡献,甚至看不到大数据在复杂的需要综合协调项目上的作用,大数据是从细节提高业务效率的武器。
大数据缺乏综合能力原因在于其信息挖掘方法只能凸现出个别因素的相关关系,没有因果关系的分析能力,没有综合复杂问因素的能力,谷歌对流感预的准确度后来并没有明显的提高也正是因为缺少多因素的综合能力。
大数据的优势是在做小事情上,影响小事情的因素往往比较简单,有些问题可直接依据相关关系进行改进,不需要多方面知识综合分析。

5.2 精确思维与片面性

分析与综合是人们认识事物的武器,分析使局部认识精确,综合助人理解整体。在机械生产中描述一个零件需要三视图,每种视图避开一维坐标而使余下的二维坐标精确化,精确的视图必须去掉一维坐标,也就是说精确必须以片面性为代价。零件的整体形象是看了三视图后想象出来的,整体概念形成是以多个视图观察为代价的。
这种分析与综合的关系也适用于大数据思维,大数据是一种精确分析的方法,但是大数据对规律的挖掘同样要以片面性为代价,必须忽略很多维因素才能获得简单明确的结论,也即:大数据规律只是一张视图,片面性是必然的,要能认识事物整体一张视图是不够的,必须多视图综合分析。
在认识的表述中,精确性与整体性是不可得兼的,精确的表述离不开片面性,没有片面就没有准确。而全面性是离不开模糊的,没有对细节的模糊想象不出来整体。大数据应用是分析工具,追求诸因素的相关关系,为表述这种关系必须忽略一些因素,借助于片面性实现表述的精准化(如同牛顿定律强调无摩擦环境)。大数据分析需要片面性,这是大数据思维不适合处理复杂问题的原因。

5.3 做好小事情就是大贡献

大数据的优点在于能够发现一些更精确的规律,它适合于具体的专业化应用领域,当整体性工作不断细分,进入到细微领域之时,环境不确定性大为减少,影响工作质量的因素也减少了,大数据揭示的关系更能够发挥作用改进工作。在相对局部化的业务(小事情)中,大数据分析更能够表现出优势。因此政府的大数据战略应当强调“大数据应用从小事做起”。
目前社会最缺乏的是能够沉下心来做好小事情的精神,智慧城市的大智慧是由小智慧不断积累而成的,不存在“抱个大金娃娃”的可能性,应当鼓励在小事情上的大数据应用,让小事情处理科学化、精确化。不断积累做小事情的最佳方法是对智慧城市建设的大贡献。

六、整合业务数据比大数据更重要

办事顺序是重要资源,次要工作耽误了主要工作最得不偿失。政府将大数据应用列为重点工作时,应反思大数据是否真那么重要。对多数地方政府而言,整合好各项业务数据,完善业务数据共享才是更重要、更有效益的任务。

6.1 电子政务数据共享新需求

信息共享一直是电子政务建设的重点,但边际效用却不断下降,原因之一是人们把信息共享的效益过多地寄托在改进宏观决策上,随着社会信息共享环境的改善(互联网搜索、电子邮件、移动通信、交通改善都有贡献)及政府信息系统的建设,使得为政府领导层提供信息的效用趋于饱和,电子政务信息共享的效益点正在转移,业务操作优化将是主要效益来源。新时期信息共享将以提高公共服务效率为中心,为业务操作人员服务,为方便公众办事服务。
经过十余年的电子政务建设,政府各业务部门已经实现了计算机化,各部门已经积累了大量业务数据,这些业务数据是政府服务(数据处理过程)的记录,它们是精确的数据,但是这些数据并没有整合,更没有协同使用,政府没有综合利用这些资源来改进对公众的服务工作,公众还是需要携带大量原件在不同部门间跑来跑去。今天,实现业务部门数据共享是提高服务效率的关键。
实现政府工作精细化管理、提高公众服务的效率与质量、节约公众时间都需要对部门业务数据进行整合与共享,业务数据是公务员办事的依据与工作记录,它是精确数据,数据共享主要为基层操作服务,为提高操作效率,数据共享需要建立自动处理规范流程,业务数据共享是实现政府精细化管理的必要措施。

6.2 从实际出发,解决政府 “大数据”应用

学界对大数据的定义是一回事,用界对大数据的理解是另一回事。
IT专家对大数据的定义是:大数据是现有数据处理技术难以处理的超大规模数据。这种定义对于实际应用而言几乎没有意义,除了IT巨无霸企业谁也没有这种规模的数据,应用者只是按照自己的意愿想象大数据。
企业界通常是将自己可利用到的海量数据视为大数据,这种理解对于企业改进工作是有利的,应用不应从概念出发而应从需求出发、从效益出发,大数据定义并不重要,能够利用新数据意识改进工作才是硬道理。
政府部门对大数据的理解与专家定义差距更大,很多官员认为政府各部门数据很多,将部门数据都整合起来会有几十倍的增长,堪称大数据了,一些干部心目中的“大数据”就是整合后的政府数据应用。
对大数据概念理解的不一致反映了大数据概念与现实需求的脱节,特别是与政府需求的脱节,实际上政府的所谓“大数据”需求是常规数据处理技术能够胜任的,软件服务商要适应政府业务的真实需求,常规技术能够解决的问题不必套用大数据技术避免问题复杂化。

七、没有独立思考便没有智慧

研究大数据优劣势有助于人们在大数据狂热之时保持定力不随风倒。大数据只是工具,工具的价值因人而异,该不该应用大数据需要具体分析,盲目跟风将会劳民伤财,单位要有自己的头脑才有效益可言,独立思考不仅需要智慧更需要勇气。

7.1 信息化建设不能跟风

国内信息化建设的跟风是一种恶习,跟风是不动脑筋的行为,它是与信息化的宗旨背道而驰的,信息化是在工作中凝聚智慧的过程,成功的信息化系统是凝聚了多方面智慧的系统,而跟风信息化无法凝聚任何智慧。
独立思考是信息化建设的灵魂,然而能够独立思考的电子政务系统太少了,很多系统都是跟风套用的系统。电子政务系统缺乏独立思考的原因之一是:独立思考的方案不仅要花费更多精力而且要承担更大不批准风险。
在政府信息化方案的审批中,跟风的方案很容易通过,独立思考的方案反而很难通过,跟风成为一种有利可图的行为,而这种跟风的恶习阻碍了信息化的创新,降低了信息化的效率。
大数据热也是一阵风,各地政府要根据自己的特殊环境做有本地特色的决策,不必跟风发展大数据,跟风的信息化将会劳民伤财。

7.2 成功者清楚什么是自己真正需要的

成功者总是清楚什么是自己真需要的,而不成功者分不清真需要和假需要。成功者能驾驭工具,会毫不犹豫舍弃得不偿失的工具;而不成功者会迷信工具,饱受工具拖累忘记自己的目标而不能自拔。
在成功者眼中大数据只是一种工具,有用则用,无用则弃,工具不会成为包袱。而不成功者则会把希望寄托在工具的使用上,希望工具能帮助自己找到成功之路。实际上工具没有智慧,只有人能赋予工具以应用智慧。
成功的信息化战略必须驾驭信息化技术,应当依据自己的目标需求剪裁技术而不是跟着技术热潮跑。即使是大数据技术也是一样,政府没必要背上大数据的包袱,政府要做好公共服务,不必去做新技术的探索者。

7.3 没有勇气便没有战略

战略是需要勇气的,提出观点需要勇气,坚持观点更需要勇气,在信息化建设中,不跟风同样需要勇气,没有勇气便没有战略。
在信息化建中,每两年就会出现一次新技术热,物联网、云计算、大数据等等,学习新思想是必要的,但从实际情况出发的独立思考更重要,独立思考是信息化的灵魂,有灵魂的信息化才能成功。
                               (完) 2014/8/6