6月1号,《网络安全法》以及最新刑事司法解释正式施行,信息安全尤其是个人隐私保护的问题产生了质变;而受冲击*的,就是方兴未艾的"大数据"领域。
从前期的预热,到法规的发布,再到一系列案件的发酵和执行,已经让不少这个领域的玩家感受到了"适用主体广、入刑门槛低、适用刑罚严"等特点。规则改变之后,大数据的发展将转入新阶段。
大数据从无到有
说到大数据在中国的发展,不得不提到涂子沛的那本《大数据》。从技术角度看,这本书似乎不那么专业,但是文字通俗易懂,案例又打动人心,再加上得到国务院领导的隆重推荐,所以称这本书为中国大数据产业的启蒙教材一点儿都不为过。
大洋彼岸政府和企业对大数据的使用以及产生的效果,让中国的决策者们心动。互联网时代数据在以指数级增长,如果光靠政府部门来推动,无论是投资还是效率,都难以在短期内达成目标,所以这次政府部门非常聪明地站在一旁,鼓励民营资本和企业积极参与,甚至采取主动开放数据源的方式,吸引各行各业投身到大数据产业的发展中来。
此前,金融、电信等IT相对先进的企业曾经搞过数据仓库和数据分析,在一定程度上积累了数据、能力和人才队伍;但这些系统都是出于企业自身经营考虑,多是基于内部管理和营销定制开发的IT能力,并不对外开放。
互联网+大数据,在大众创业万众创新的号召之下蓬勃发展,迅速成为资本市场的重要题材;而在政府的支持和领导的青睐之下,很多传统行业和企业也围绕这一概念大张旗鼓地大建IT系统,眼见着一个又一个的领域的数据被汇总收集起来,似乎美好的大数据时代近在眼前。
问题逐渐显现
随着大数据的发展,相应的问题也凸显。
首先是垃圾数据问题。
曾几何时,谁拥有数据,谁就是*。通过信息不对称来展现自己的权力,这是很多人的惯常的方式:这个信息你不知道而我知道,所以我牛。
没有数据时靠瞎猜瞎分析,如今有了太多的数据,又有些"乱花渐欲迷人眼"。在海量数据面前,传统的统计分析方式会被数据干扰,信息越来越多,但有价值信息的比例却越来越低。
在海量垃圾数据的干扰下,获取真实、准确、完整的数据反而越来越难,更有甚者,表面是"拿数据说话",其实选取一批与真实情况并不相符的数据,还煞有介事地分析一通。
垃圾数据还带来成本问题。
虽然IT设备的单价在迅速下降,但远远比不上数据量的增长,收集、存储、处理数据的成本越来越高。
人们花费很大的代价和成本去处理海量数据,与此同时IT系统又在不断生产创造着更多的数据,不仅IT系统的建设成本高,包括数据的识别、使用、处理等所消耗的人力成本也越来越高。若不是依仗着资本市场和政府导向,哪里会有这么大的投入。
投入非常大,但是产出呢?
围绕大数据有很多美丽的故事,依托数据可以对个人、对群体、对行业进行精准描述,透过海量数据总结呈现出客观规律,凭借强大的IT能力形成可视化的数据分析结果,从而改变整个世界。
但是宏观性的分析结论往往都是辅助决策,用来间接创造价值,并不一定会产生直接商业价值,通俗地说,这些大数据分析报告能卖几个钱?而且对于中小规模的创业公司来说,也很难进行全面宏观的分析——他们更关注通过大数据变现,挣快钱。
而在大数据快速发展过程中,出现的*问题,就是信息安全问题。
IT系统的规划和建设不能仅考虑功能性需求,往往缺乏经验的设计者会忽略系统在安全、稳定、可维护等方面的非功能性需求,很多大干快上的大数据系统在安全方面防护能力不足,在系统设计、技术手段和运营管理等方面存在各种漏洞。
有的系统过于强调开放性和便利性,忽视对数据关键信息的保护。比如代理商可以直接访问系统核心数据库,调用客户资料,查阅订单信息等。
有的系统设计时并未充分考虑到安全威胁。以前你的数据少、价值低,黑客没有攻击你的兴趣;而今数据价值高了,相当于你的仓库里存放的物品从土豆换成了金条,还不赶快升级你的防盗体系?
有的系统建得不错,但是对于系统的使用和管理没跟上,就像是把前门锁了一层又一层,但是围墙又低又矮还没人巡逻。
总而言之,大数据的发展应该是体系化、渐进式的,但在各方资源的支持和号召下,演化成为大跃进式的发展,久而久之,问题越来越多、愈演愈烈,给大数据产业进一步发展制造了各种障碍。
坏人更善于利用数据
以前,数据分散在各个地方,缺乏统一规划,而且格式质量良莠不齐。如今,数据都整理好了,一旦攻破壁垒就可以将数据连锅端走。这是大数据产业发展之初很多人未曾预见到的。
由于系统在信息安全方面存在风险和漏洞,一些不法分子利用大数据平台收集到信息,实施诈骗、骚扰等,给大数据的发展带来非常不和谐的声音。
对客户隐私数据的获取,有些居然还是生意,美其名曰:数据变现,精准营销。
当我还在中国移动的时候,一段时间里每周都会接到几个"朋友"的电话,问我如何与中国移动开展大数据合作。
中国移动的系统里,存放着全国数亿客户的客户资料、通话记录、位置信息、终端型号、上网信息,系统分析形成的客户画像包括用户的身份信息、消费习惯、活动规律、兴趣爱好等。这些信息是客户隐私,也是企业最宝贵的资产,是不能泄露给第三方的。
我对这些朋友的回复是:进行大数据合作必须保护客户隐私,或者对数据进行脱敏处理,或者只开放部分汇总数据。听到这样的要求,对方往往就撤了,走之前还告诉我:"精确到个人客户的数据才值钱,汇总的数据不值钱。"
难道对客户隐私数据的使用是中国大数据产业发展的核心动力源么?很不幸,是的。
大数据产业投资大,产出少,见效慢,看起来并不是一个值得大规模投入的领域,那为什么会有众多精英投身其中还乐此不疲?
因为数据本身就有可能在短期内变现。
通过数据对个体进行精确地描述,在技术上是可行的,因为如今一个人的衣食住行都已经数字化,被存放在各个系统的数据库里,将这些数据拼接在一起,就会勾勒出这个人生活中的各种细节,甚至他自己都没有意识到的特性。
但是要做这样一个画像和分析,成本非常高,需要海量数据和大规模投入,如果不是不计成本的单位,或者针对价值非常高的对象,这样去做是不合算的。所以作为芸芸众生中的一员,我们是安全的:没有被监控分析的价值,不做亏心事,自然也不担心被盯上。
然而在诈骗犯罪分子眼中,每一个人都是潜在的攻击对象。当一个陌生人说出你的姓名,准确描述你最近的行为(比如下了什么订单、坐了哪班飞机、追的是什么剧)的时候,你还会有多大戒心?如果他针对性地根据你的个人信息设局,又有多少人能做出准确判断?而如果你对所有的人和事都保持戒备心理,拒绝接听任何陌生电话,那生活又将是什么状态?
即使不是犯罪分子,就是骚扰电话也够受了——说是精准营销,但是当你的信息被房屋中介、贷款公司、卖发票的、卖保险的,诸如此类营销渠道获取,你的生活又会是什么状态?
更不要说,更加专业化、更具破坏力的犯罪分子,通过获取各种数据和信息,进行各种犯罪活动。由于目标更明确,甚至可以不计成本,因此他们获取数据的成功率更高,大数据很可能成为犯罪分子的帮凶,这并不是危言耸听。
下半场即将开场
2015年,《刑法修正案(九)》对刑法第253条作出修订完善,定义了"侵犯公民个人信息罪",非法提供公民个人信息和非法获取公民个人信息都将入刑。
在今年6月1日起生效的司法解释中,明确"出售"和"非法发布"都是非法提供行为,而对于非法获取,不仅包括"窃取",只要无法提供获取的正当性,或者违反国家有关规定,都可以视为犯罪。
再研究下新法规的量刑标准,就更惊心动魄了:高度敏感信息50条、敏感信息500条、其他个人信息5000条,违法所得5000元,就达到了"情节严重"的标准,适用*档量刑,如此严厉的处罚条款彰显了对个人信息保护的坚决态度。
实际上自今年初就有迹象,各个部门都在强调对个人信息的保护工作。
今年初,央行相关领导回应八家个人征信试点机构未获得正式牌照问题,称大众对于信息安全有着很高要求,企业的实际情况与监管要求仍存在差距,其中谈及不该用征信信息将人分为三六九等,大数据和征信不能划等号等观点,给大数据从业者上了一课。
5月,网络上传出数据堂等大数据公司被调查,原因就是提供涉及客户隐私的数据,引起业界强烈反响。
刚进到6月,官方就宣布破获侵犯公民个人信息案,苹果公司内部员工非法获取销售信息,抓获嫌疑人22人。
这种情势下,如果还盯着客户的个人信息,那就是往刀口上冲了。6月1日新法规的执行,即将成为大数据产业的分水岭,对此不少专业人士拍手称快:赶走那些借着大数据的名义骗钱、倒卖个人隐私信息的害群之马,大数据产业终于朝着正确的方向发展了。
数据基础打好了,规则完善了,接下来就要在不侵害个人隐私的前提下把应用搞起来,利用数据推动科技进步和社会发展。这就是大数据发展的下半场。