报告人:陈世敏 研究员(中国科学院计算技术研究所)
时间:2017年11月10日(星期五)下午14:00-15:30
地点:复旦大学张江校区软件楼102第二会议室
联系人:王晓阳,xywangcs@fudan.edu.cn
摘要:
以JSON、Protocol Buffers等为代表的树状结构数据,能够简洁地表达嵌套、多值和缺值,可用于表述高级程序设计语言中class, struct等丰富的结构,已经逐步替代了XML成为事实上的标准,并广泛应用于社交网络数据服务、Web服务、数据交换格式、分布式系统协议、物联网等,成为一种重要的大数据类型。我们研发了一个通用的树状结构数据库系统Steed,支持树状数据的行式和列式存储,和类似SQL的查询分析功能。我们对实际中存在的树状结构数据进行了分析,发现虽然树状类型本身可以表达丰富复杂的结构,但是实际中出现的结构大部分是简单的,从树根到树叶的路径中,有90%以上的路径是简单路径。利用这一发现,针对简单路径,优化了外存存储、内存数据结构、列组装算法。与现有系统PostgreSQL/JSON, MongoDB, Hive+Parquet相对比,Steed对于数据分析操作普遍有10—1000倍的性能提升。本报告基于SIGMOD'17和VLDB'17工作。
报告人简介:
陈世敏,中科院计算所研究员,分别于1997年和1999年获得清华大学计算机系学士和硕士学位,于2005年在美国Carnegie Mellon University获得计算机科学博士学位。博士毕业后,先后在美国Intel Labs、CMU和HP Labs任Researcher、Senior Researcher和Research Manager,于2013年加入中科院计算所,并入选中科院“百人计划”。 陈世敏的研究兴趣主要集中在数据管理系统、大数据系统和计算机体系结构。曾获得ICDE’04 Best Paper,SIGMOD’01 Runner-up Best Paper,体系结构2008年度顶级论文Top Picks’08。SIGMOD’09是数据库领域最早研究闪存的论文之一,CIDR’11是数据库领域第一篇研究新兴非易失存储的论文。担任ICDE’18 PC area chair, VLDB’17 PC Associate Editor, ICDCS’16和CIKM’14的PC area chair,多次担任SIGMOD,VLDB,ICDE,CIDR , ASPLOS, EUROSYS等的PC。