主讲人简介:

David Xueli Zou(邹学利),男, 美国威廉玛丽学院运筹学硕士,美国弗吉尼亚理工大学统计学硕士,美国弗吉尼亚理工大学工业与系统工程博士,成都大学信息科学与工程学院(大数据研究院)特聘教授。美国项目管理学院PMP认证, 美国科学研究荣誉学会高级会员(Full Member),美国工程荣誉学会会员(Member),美国工业工程荣誉学会会员(Member),美国统计荣誉学会会员(Member),四川省千人计划专家。


主讲内容简介:

Spark SQL 是Spark生态系统中的一个新的模块, 它将关系处理与函数编程 API 集成在Spark中。 Spark SQL为程序员提供了利用关系处理长处, 如声明性查询和优化存储, 并允许 SQL用户在Spark中调用复杂的分析库, 例如, 机器学习。 为了使Spark SQL 易于添加组合规则, 控制代码生成, 和制定扩展点,  Spark生态系统引入了一个基于 Scala 编程语言功能开源的高度可扩展的优化器 Catalyst。 值得一提的是, Catalyst还允许构建各种功能, 包括 JSON 的模式推断、机器学习类型选择, 以及在数据收集和分析中对Spark SQL 的核心算子Join的妥善应用。


讲座将会详细分析Spark SQL 的优化器系统Catalyst的新特点和功能, 应用实例提出一系列适合于Spark SQL优化器系统Catalyst支持的核心优化算子Join 的优化应用方法,提供实用于 Catalyst 的功能流程图和Join的应用场景逻辑框图。


时间:2018年5月8日14:30


地点:10教217 


主办单位:信息科学与工程学院