新浪科技讯 4月9日下午消息,第三届中国电子信息博览会新一代信息技术产业发展高峰论坛与今日下午召开,峰会上中国工程院的李德毅院士进行了大数据人工智能的前景相关的主题演讲。
李德毅院士称大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
李德毅院士认为大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。
以下为演讲实录:
李德毅:尊敬的怀部长,各位来宾,女士们,先生们,我汇报的主题是大数据认知,云计算、大数据、认知,大家知道认知是现在全球都感兴趣的话题。所谓认知,就是怎么样获取知识和技能的能力,所以我的第一个小标题是讲一下认知。
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
我想说一个观点,大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。
数据量巨大,价值密度低,实时在线,多源异构,怎么办?举个例子吧!聚类,物以类聚,人以群分,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为学科的学科,要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现。
2008年XX专刊登了一篇文章,人们对小标题关注不够,这个小标题讲的PB时代的科学怎么做。大数据分析和挖掘的首要任务是聚类,这种聚类是跨学科、跨领域、跨媒体的。
聚类的挑战性很多,有人是并行计算等等,我不细讲了。我想说的是大数据聚类表现形态。
我想用几个例子来讲一讲,人类走过了几千年的实验科学、几百年的理论科学,保险是一个很传统的行业,基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类,最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的。我从机场到深圳来,你坐飞机从北京到深圳,保险公司给你付了,我一了解,这个保险是20块钱,这个保险公司买了你三个大数据,身份证,还有你的手机号,各位企业、各位领导,各位老百姓,你们想一想。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体,每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在岸,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝,例如出租车司机跑的比老百姓多得多,总之能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。这就是大数据聚类成为保险公司的核心竞争力,我扩张一下,就是大数据聚类成为很多行业的核心竞争力。
非大数据时代,做一个人脸的识别,我们可以提取它十个特征,第二类先结构化存起来,你想一想,如果十个特征都一样的话,两个人是不是同一个人呢?当然,这也是不可能的,但是我们再想一想,人类智能来看,它忽略了什么呢?我认为它忽略了太多,这种人脸识别仅仅是几何结构的聚类,落入集合学框架,忽略了聚类的不确定性,忽略了聚类的多样性等等。
再举个例子,大数据写诗,人们熟读众多诗词,记住了针对各种意境的大量字串。例如说李白一生写诗1010首,把他所有诗句进行机械切割。李白给毛主席诞辰100周年写一首诗,就是这样。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科,或者传统的行业,它的公理、原理和定理组成的语境,遇到互联网+的挑战之后,这样一来,传统的学科行业,或者是交叉学科,成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据转。
创新,表示在创造一个新的语境,新的坐标系,在这个坐标系下研究大数据,在互联网情况下,如何创造你新的坐标系,新的语境,否则难以有新的发现。
实践中的研究,由下而上要深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,更多要关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,要充分认识大数据中的不确定性和价值的隐蔽性。
机器人如何认知是我讲的第二个问题,这七个字,可以有两种划分,一种是机器人如何认知,你要把这个弄清楚,我觉得实际上是在弄这个,机器人在想,人如何认知,智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学、乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表,机器人时代真的来了,我们希望我们以后的黄牛退休、铁牛耕地,这个铁牛就是机器人,农民进城,机器人耕地,医疗与健康机器人,服务机器人更是上上下下,当然还有太空机器人等。
我先讲一下服务机器人,高考机器人,就是由知识的碎片化,大数据来认知,就说明我们的教育不能光是填知识,我们现在做一个报告,我们可以用机器人来撰稿,机器人导航,机器人手术等。