登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
5-4 Apache Spark 在自助分析系统的应用实践与优化
信息技术
2022-11-02
DataFunSummit2022:现代数据栈技术峰会
车***
AI智能总结
查看更多
APACHE SPARK 在观远自助分析系统的应用实践
观远自助分析产品简介
交互式查询
:多种图表,灵活拖拽,秒级响应
数据处理
(Smart ETL):零门槛,多数据源融合,复杂任务处理
观远自助分析系统的挑战
灵活的部署方式与系统架构
:SaaS、私有化、云平台、容器化、组件化
稳定高效的计算服务
:大规模集群,复杂的离线任务,活跃的社区,秒级响应,高并发
灵活的资源调度与隔离
:统一任务分配层,查询引擎与离线引擎分离
优秀的查询体验
:复杂查询,高并发,多种架构
强大的数据处理能力
:稳定性,系统吞吐量
相关解决方案
灵活的部署方式
:基于Docker、Kubernetes容器化部署方案,无缝接入CDH等大数据平台,存算分离,支持NAS、S3、HDFS、Azure ADLS等多种存储
灵活的资源调度与隔离
:使用JSON格式定义分配规则,通过Job Control Tower、Yarn / Spark Standalone管理
稳定高效的计算服务
:提高常驻Spark Application稳定性,多Application、异常任务监控、Engine探活及重启机制
优秀的查询体验
:任务分离,引擎的水平扩展,基于Spark Metric动态判断任务执行资源消耗
强大的数据处理能力
:管控机制:节点数、运行时长限制,生成Spark SQL友好的查询语句,拆分缓存,减少alias,减少withColumn调用
总结与未来展望
支持私有化部署
:支持华为云、阿里云、腾讯云、微软云等国内主流云平台,支持CDH等基于Hadoop的大数据平台
支持大规模集群
:从单机(8c64g)到最多近2万核的超大集群
单系统近3万月活用户
,查询性能9分位保持在3s内
单日30万+Spark任务处理
回馈开源社区
:贡献Spark、Delta Lake等项目
未来展望
:更加云原生,融合多种引擎(Databricks、ClickHouse等)
提问环节
非常感谢您的观看
你可能感兴趣
3-2 分布式KV存储系统Apache Pegasus的应用与实践
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19
4-6 Apache Iceberg 在小红书的探索与实践
文化传媒
DataFunSummit2022:大数据存储架构峰会
2022-07-19
1-2 个性化强化学习技术在京东新品流量分发系统中的实践与应用
文化传媒
DataFunSummit2022:决策智能在线峰会
2022-11-02
【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析,在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管,AIGC相关技术应用已产生收入
未知机构
2024-03-25
3-3 联想基于Apache DolphinScheduler构建统一调度中心的应用实践
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02