大数据全攻略:10年老兵带你看尽MaxCompute大数据运算挑战与实践

crazyhulu 2017-07-24

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

产品地址:https://www.aliyun.com/product/odps

概况介绍:

以下为本套攻略的内容目录,查看每篇文章详细内容请查看:http://click.aliyun.com/m/26509/  

  • 性能追求之路——MaxCompute2.0(原ODPS)的前世今生

  • 10年老兵带你看尽MaxCompute大数据运算挑战与实践

  • 什么是阿里云数加大数据计算服务MaxCompute?

  • 一分钟了解阿里云产品:大数据计算服务MaxCompute概述

  • MaxCompute(原ODPS)技术架构及应用实践

  • 不要犹豫 了解这些即可玩转阿里云MaxCompute

  • MaxCompute产品详情页

2.0专题:

  • 如何申请试用MaxCompute 2.0

  • MaxCompute 2.0 生态开放之路及最新发展

  • MaxCompute 2.0—从ODPS到MaxCompute

  • MaxCompute2.0性能评测:更强大、更高效之上的更快速

  • MaxCompute上如何处理非结构化数据

  • MaxCompute访问TableStore(OTS) 数据

  • MaxComputeSql性能调优

  • 生态与兼容:MaxCompute大数据生态集成和开发工具

  • MaxCompute理解数据、运算和用户的大脑:基于代价的优化器

  • Vectorized Execution Engine in MaxCompute 2.0简介

  • MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

评测:

  • 2017大数据标准化论坛发布了第一批大数据系统测试结果,阿里云数加获得了大数据系统测试证书。

  • 可靠、安全、易用,阿里云数加大数据平台首批通过国家大数据标准检测

  • 7倍!阿里云的MaxCompute居然比自建Hadoop便宜这么多

  • MaxCompute把100TB数据的排序时间缩短到了377秒,打破了此前由微软、雅虎等公司保持的纪录,获得全球4项世界冠军。

  • 持续创新和改进,为用户创造最大价值,阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”

  • MIT评出全球十大突破性技术 阿里巴巴连摘两项

  • Gartner公布2017年全球云计算魔力象限:阿里云进入前四

开发套件专题:

  • DataIDE大数据开发套件官方教程

  • 深入阿里云大数据IDE–MaxCompute Studio

  • 使用 MaxCompute Studio 开发大数据应用

  • MaxCompute Studio提升UDF和MapReduce开发体验

  • 阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

  • 大数据开发套件-数据集成-云mongo跨区域如何同步到Maxcompute

  • 【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

  • 阿里云大数据开发套件 新手不得不面对的问题(持续更新)

  • 【大数据开发套件调度配置实践】——不同周期任务依赖配置

  • 数据库工程师快速上手MaxCompute进行ETL

  • 基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

  • 【大数据新手上路】“零基础”系列课程--MySQL 数据整库迁移到 MaxCompute

  • ODPS Studio 2.6.2 版本发布了

机器学习专题:

  • 机器学习——让人工智能触手可及

  • 大规模深度学习优化技术在PAI平台中的应用及实践

  • 阿里云工程师用机器学习破解雾霾成因

  • 大规模数据的分布式机器学习平台

  • ODPS—MPI机器学习编程框架

图计算:

  • 基于MaxCompute的图计算实践分享-图加载过程

  • 基于MaxCompute的图计算实践分享-解析图加载过程

  • 基于MaxCompute的图计算实践分享-Aggregator机制介绍

  • 基于MaxCompute的图计算实践分享-可配置参数列表(持续更新)

  • 基于MaxCompute的图计算实践分享-常见问题解决及优化指南

MapReduce:

  • MaxCompute MapReduce细节解读

客户案例:

  • 借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品需求符合度更高。

  • 大数据打造你的变美频道——数加平台上小红唇的大数据实践

  • 阿里云与国家天文台成立天文大数据联合研究中心

  • 阿里云参与两大国家工程实验室获批,人工智能继续深入工业制造

  • 借助阿里云数加,小小的美甲行业被美甲帮玩出了天价

  • 美甲帮:玩转指甲上的大数据平台

  • 大数据打造你的变美频道——数加平台上小红唇的大数据实践

  • 与阿里云整个生态体系共同成长,更快更好的为房地产行业客户提供高价值的服务

  • 苏州协鑫与阿里云合作阶段性完成,良品率已提升1%

  • 禾连健康CDO沈金:谈云时代的大数据平台架构

  • 小硅片与大数据的结合 ——协鑫光伏的新制造之路

  • 墨迹天气-轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求

  • 阿里云数加让企业更专注于业务,助力东润环能高效利用大数据资源

  • 纯云大数据系统的构建与价值

  • 阿里云数加助力东润环能开启新能源大数据时代

  • 赋能平台、提效工具、场景化应用,地产大数据玩转有诀窍

  • 产品3周迭代一次,启信宝驾驭8000万企业征信的平台架构

  • 日交易笔百万级,Ping++的大数据平台架构

  • 专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践

  • 佰腾科技的专利大数据的云上裂变之路

  • 技术创业难?看汇合营销如何玩转大数据与机器学习

  • 数据让生意更简单,网聚宝创业团队利用数加快速打造核心业务竞争力,在激烈的市场竞争中弯道超车。

  • 网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。

  • 年服务人次3300万+,网鱼网咖的大数据挑战及架构

  • 友盟这家数据公司为什么能成为数百万企业的选择?

  • 数加平台协助汇合营销快速行动,捕获转瞬即逝的商机。

  • 全民直播牵手阿里云,技术升级触发直播新体验

  • 3天撸完一个团队半年的项目,单客户数据动辄几百万的行业也玩云?

  • 杭州治堵有“智慧” 阿里云数加激活城市大脑

  • 堵车预测神器诞生,浙江已用来治疗高速顽疾

  • 小团队拥有大能量 三十个年轻人的创业故事

  • 完成数据的打通-豌豆荚被阿里巴巴收购后的168天

  • MaxCompute助力北斗大数据,千寻位置3秒实现厘米级定位

  • 30秒在线卖出3000套房,对于云系统来说只是小意思!

  • 阿里怎么发工资?自研薪酬管理系统首次曝光

  • 《能源地图》:阿里云数加MaxCompute轻松处理8000亿条气象数据

  • 阿里妈妈MaxCompute架构演进 - AON(MPI)集群

  • 数据生意背后的云计算

  • 登月1号:支付宝演绎空中升级绝技

  • 御膳房:构建大数据的美食厨房

新手入门:

  • 阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中)

  • 【大数据学习】数据化运营并不难?关键是这些技术你get了么?!

  • MaxCompute 学习计划(一)

  • MaxCompute 学习计划(二)

  • MaxCompute 学习计划(三)

  • MaxCompute(原ODPS)开发入门指南——数据上云篇

  • MaxCompute(原ODPS)开发入门指南——计量计费篇

  • MaxCompute(原ODPS)开发入门指南——数据开发工具篇

技术峰会:

  • 双管齐下,MaxCompute数据上云与生态

  • 【直击深圳云栖大会大数据专场】陈鹏宇分享主题—数加:迈向数据智能之路

  • 技术与架构,解析如何将大数据最快落地到实践

  • MaxCompute Next

MaxCompute 2.0 性能优化揭秘:

  • 演讲视频:http://yq.aliyun.com/webinar/play/188

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1449 

  • 演讲整理文章:https://yq.aliyun.com/articles/72240

MaxCompute大数据语言的新发展

  • 演讲视频:http://yq.aliyun.com/webinar/play/189

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1448 

  • 演讲整理文章:https://yq.aliyun.com/articles/72284

大规模流式增量计算及其在阿里巴巴的应用

  • 演讲视频:http://yq.aliyun.com/webinar/play/190

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1444 

  • 演讲整理文章:https://yq.aliyun.com/articles/72242

PAI分布式机器学习平台计算模型演进之路

  • 演讲视频:http://yq.aliyun.com/webinar/play/191

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1445 

  • 演讲整理文章:https://yq.aliyun.com/articles/72362

MaxCompute数据上云与生态

  • 演讲视频:http://yq.aliyun.com/webinar/play/192

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1446 

  • 演讲整理文章:https://yq.aliyun.com/articles/72367

高可用大数据计算平台如何持续发布和演进

  • 演讲视频:http://yq.aliyun.com/webinar/play/193

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1447 

  • 演讲整理文章:https://yq.aliyun.com/articles/72282

专利大数据的云上裂变之路

  • 演讲视频:http://yq.aliyun.com/webinar/play/194

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1440 

  • 演讲整理文章:https://yq.aliyun.com/articles/72369

地产大数据趋势与应用实践

  • 演讲视频:http://yq.aliyun.com/webinar/play/195

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1441 

  • 演讲整理文章:https://yq.aliyun.com/articles/72386

用大数据打造你的变美频道

  • 演讲视频:http://yq.aliyun.com/webinar/play/196

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1443 

  • 演讲整理文章:https://yq.aliyun.com/articles/72250

云上大数据,零售新思维

  • 演讲视频:http://yq.aliyun.com/webinar/play/197

  • PDF下载:https://yq.aliyun.com/attachment/download/?id=1442 

  • 演讲整理文章:https://yq.aliyun.com/articles/72249

Workshop:

  • 《云数据·大计算:海量日志数据分析与应用》Workshop-入口

  • 数据采集:日志数据上传

  • 数据加工:用户画像

  • 数据分析展现:可视化报表及嵌入应用

  • 社交数据分析:好友推荐

MaxCompute1元试用体验馆:

  • Flume采集网站日志到MaxCompute

  • Hadoop数据表迁移到MaxCompute

  • 快速搭建一个BI销售数据分析系统

  • 机器学习实现海量新闻自动分类

  • 机器学习为您揭秘雾霾怎么形成

数据上云专题:

  • 数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式

  • “零基础”系列课程--日志服务(Log Service)采集 ECS 日志数据到 MaxCompute

  • 日志服务(原SLS)新功能发布(12)--日志投递MaxCompute(原ODPS)支持自动建表授权

  • Flume数据导入MaxCompute(原ODPS)方法

  • MaxCompute(原ODPS)功能介绍之数据导入

  • 用Fluent实现MySQL到MaxCompute(原ODPS)数据集成

数据安全专题:

  • 你的大数据安全么?“Hadoop集群遭遇勒索软件攻击 ”

  • 【阿里云大数据产品MaxCompute】DT时代企业数据资产的护卫舰

  • 可靠、安全、易用,阿里云数加大数据平台首批通过国家大数据标准检测

  • 阿里云成为全国首家云等保试点示范平台 金融云通过国家等保四级备案测评

  • MaxCompute数据安全机制

  • 还在用Hadoop么?Hadoop服务器造成5PB数据泄露,中国、美国受波及最大!

运维/容灾专题:

  • MaxCompute(ODPS)大数据容灾方案与实现(及项目落地实例)专有云

  • 阿里云大数据计算平台的自动化、精细化运维之路

数仓专题:

  • 干货:解码OneData,阿里的数仓之路。

  • 企业大数据平台下数仓建设思路

  • 大数据来了,数据库爆仓了,宝宝们怎么办?

  • 淘宝大数据之路

  • MaxCompute大数据实践,电商数据仓库选择雪花还是星型模型?

  • MaxCompute大数据实践,电商数据仓库的星型模型和传统星型的区别

公开数据集:

  • 阿里云数加(大数据)公开数据集(公测ing)

最佳实践:

  • 手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

  • 阿里云大数据利器Maxcompute学习之-假如你使用过hive

  • 一场变美盛宴后面的大数据故事

  • 理财农场大数据初探之路

  • 报警分析云上集成解决方案

  • 专访360医药大数据负责人侯晓锋:谈未来智能医疗的挑战及实践

  • 【物流大数据实践】基于阿里云Maxcompute实现物流跟踪

  • 袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测

  • 基于数加分析政府工作报告

  • 阿里云大数据利器Maxcompute学习之--分区表的使用

  • “零基础”系列课程--Flume收集网站日志数据到MaxCompute

  • “零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

  • MaxCompute_2_MaxCompute数据迁移文档 

  • 基于大数据开发套件定时调度带资源文件的MapReduce作业

  • 如何用大数据开发套件周期调度机器学习算法

  • [ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

  • 推荐引擎的离线算法和在线算法初探

  • OpenSearch:轻松构建大数据搜索服务

  • 云上游戏数据分析实践

  • 5分钟学会使用DataHub接入实时数据到MaxCompute(原ODPS)

  • Docker时代——如何实现日志数据一键上云

  • MaxCompute(原ODPS)使用总结-初级篇

  • MaxCompute实战之数据存储

  • 基于 MaxCompute 的极速的基因测序分析

  • MaxCompute同步到AnalyticDB 任务报警简易处理

  • MaxCompute 存储优化技巧

  • MaxCompute OpenMR的7个性能优化策略

  • MaxCompute5个窗口函数限制

  • MaxCompute基础与MaxCompute SQL优化

  • MaxCompute(原ODPS)任务优化之列裁剪

  • MaxCompute应用限制整理

  • 产品动手实践视频课-基于MaxCompute SQL

  • 产品动手实践视频课-基于MaxCompute SQL实现商品推荐

  • MaxCompute SQL 01-说在前面的话

  • MaxCompute SQL 02-什么是个性化推荐系统

  • MaxCompute SQL 03-个性化推荐系统是怎么实现的?

  • MaxCompute SQL 04-推荐系统的评价和应用

  • MaxCompute SQL 05-天猫应用场景介绍

  • MaxCompute SQL 06-问题分析和思路整理

  • MaxCompute SQL 07-简单实现:根据销量推荐

  • MaxCompute SQL 08-简单实现:和随机推荐的对比

  • MaxCompute SQL 09-个性化推荐:算法设计和特征分析

  • MaxCompute SQL 10-个性化推荐:选择特征和采样

  • MaxCompute SQL 11-个性化推荐:训练模型

  • MaxCompute SQL 12-个性化推荐:参数优化和模型评估

  • MaxCompute SQL 13-个性化推荐:模型应用与总结

  • MaxCompute SQL 14-总结:不足与改进

  • MaxCompute分区表和非分区表使用对比

  • Oracle - MaxCompute(原ODPS)数据类型转换

  • 大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据

  • 阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN

  • MaxCompute SQL中的更新和删除如何实现

  • 用Java代码调用MaxCompute

  • 通过Fluentd实时上传数据到DataHub实践

  • 基于阿里云MaxCompute实现复杂事件检测

  • 阿里云大数据利器Maxcompute-使用mapjoin优化查询

  • MaxCompute SQL Row_Sequence 实现列自增长

  • MaxCompute SQL-列转行和行转列

  • MaxCompute多团队协同数据开发项目管理最佳实践

  • 门道多:一次MaxCompute PS任务的问题排查之旅

  • 利用MaxCompute建立数据仓库的超强实战手册

  • E-MapReduce中Spark 2.x读写MaxCompute数据

  • MaxCompute如何实现跨项目授权

  • 使用JDBC编程访问MaxCompute(原ODPS)

  • 增量同步MaxCompute(原ODPS)数据解决方法

  • MaxCompute(原ODPS) JOB 长尾问题调优

  • MaxCompute(原ODPS) JOB logview 查看方法

  • DataX使用指南——MaxCompute(原ODPS) to ODPS

  • MaxCompute(原ODPS) 权限管理命令集合

  • MaxCompute(原ODPS)内置函数整理

  • OSS文件上传及OSS与MaxCompute(原ODPS)之间数据连通

  • MaxCompute(原ODPS)跨集群迁移与数据同步经验分享

  • 五阿哥(wuage.com),携钢铁行业步入一场云的变革

  • 基于自定义日志打印的UDAF调试

  • [免费]手把手,阿里算法专家教你21天搭建推荐系统

  • 《企业大数据系统构建实战:技术、架构、实施与应用》

  • 大数据分析平台产品对比之MaxCompute(原ODPS)篇

  • Oracle - ODPS数据类型转换

  • 使用ODPS进行拼车分析

  • MaxCompute在网络舆情监控系统中的应用

  • 使用MaxCompute快速实现企业数据化运营

  • 应用MaxCompute实现变压器局部放电相位分析

  • 实践 —— 亲测从 RDS MySQL 通过数据集成导入 MaxCompute

常见问题:

  • MaxCompute百问集锦(持续更新)

  • 大数据开发—常见问题(1)

  • 大数据开发—常见问题(2)

  • 大数据开发—常见问题(3)

  • 大数据开发—常见问题(4)

  • MaxCompute数据下载/导出的SQL运行结果的方法总结

  • 大数据开发套件中数据同步-日志报错回滚信息的一些问题总结

  • 解决代码在本地IDE环境里调试成功了后,到线上调试出现结果不符合预期的情况

  • 【大数据技巧】Flume采集网站日志到MaxCompute常见问题汇总

  • 做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略疑惑

  • 如何用SQL对MaxCompute数据进行修改和删除

  • MaxCompute中实现IP地址归属地转换

  • MaxCompute(原ODPS) MapReduce常见问题解答

  • MaxCompute计算长尾问题

  • 定位排查工作流的计算结果数据量不符合预期的方法

  • 用脚本模式配置数据同步--用自定义的ECS来调度来解网络不可达的问题

  • 大数据开发套件—调度运维常见问题

  • 大数据开发套件—数据集成常见问题

  • MaxCompute—MaxCompute SQL 常见问题

生态兼容:

  • MaxCompute JDBC 2.2 发布说明

  • 手把手教你完成MaxCompute JDBC自定义日志配置

  • MaxCompute JDBC 2.0 beta中的一些变更说明

  • 使用 odps-jdbc 接入 MaxCompute(原ODPS),不再从零开始

  • 原来MaxCompute还能这么玩系列(3)—— 借力QlikView玩转数据分析

  • 原来MaxCompute还能这么玩系列(2)—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

  • 原来MaxCompute还能这么玩系列(1)—— 通过Apache Zeppelin 快速实现数据可视化

  • 当 Elasticsearch 遇上 MaxCompute 

  • Flume Java on MaxCompute介绍

  • Logstash + DataHub + MaxCompute/StreamCompute 进行实时数据分析

  • 如何在MaxCompute上运行HadoopMR作业

  • 基于OGG Datahub插件将Oracle数据同步上云

  • R语言和大数据

  • RODPS介绍

PyODPS

  • 什么是PyODPS DataFrame

  • PyOdps 0.4版本发布,从一个故事说起

  • PyODPS DataFrame:统一的数据查询语言

  • PyOdps在交互式环境下的使用,让探索ODPS数据更容易些

  • PyOdps DataFrame来临,数据分析从未如此简单!

  • Python+大数据计算平台,PyODPS架构手把手教你搭建

  • MaxCompute上你从未体验过的数据分析和机器学习过程

  • 零成本体验 ODPS 大数据分析

沙龙活动:

  • 关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

  • 快上车!老司机带你走进“大数据及阿里云数据分析平台”

  • 万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛

产品功能:

  • MaxCompute(原ODPS) 脑图 - 常用知识总结

  • 数据通道:

  • DataX:

  • 阿里云开源离线同步工具DataX3.0介绍

  • MySQL超时参数以及相关DataX数据同步案例分享

  • Tunnel:Tunnel SDK数据上传利器——BufferedWriter使用指南

客户端工具:

  • Studio:使用 MaxCompute Studio 开发大数据应用

  • Console:Console 实用小命令

  • Eclispse插件:Mac 下如何安装odps eclipse插件

  • 【MaxCompute学习】隐式转化的问题

  • 使用 MaxCompute(原ODPS) java sdk 运行安全相关命令

  • ODPS功能介绍之CLT

  • ODPS 功能介绍之SQL

技术原理介绍:

  • 【ATF】林伟:大数据计算平台的研究与实践

  • MaxCompute flighting —— Task灰度发布

  • 数加MaxCompute计算资源分布以及LogView分析优化

  • MaxCompute Optimizer之表达式约化

  • MaxCompute 中的Code Generation技术简介

  • MaxCompute(原ODPS) 事件(Event)机制

  • Fuxi ServiceModeJob 多租户(Quota Group) 功能介绍

作业调度:

  • 解析阿里云分布式调度系统伏羲

  • 阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理

  • 阿里云伏羲(fuxi)调度器FuxiMaster功能简介(二) 调度模型

  • 阿里云伏羲(fuxi)调度器FuxiMaster功能简介(三) 针对在线服务的资源强稳定

  • 阿里云伏羲(fuxi)调度器FuxiMaster功能简介(四) NodeLabel调度

  • 盘古:阿里云飞天分布式存储系统设计深度解析

  • MaxCompute( 原ODPS)下的表分区解释

大数据基础知识:

  • 分布式大数据系统巧实现,全局数据调度管理不再难

  • 大规模数据的分布式机器学习平台

  • 分布式存储系统

  • 分布式离线关系型计算最全总结

  • 分布式编程模型的设计与演化

  • 分布式调用跟踪与监控实战

  • 内存计算

产品/技术资讯:

  • 阿里云2020年预期净利100亿,碾压99%A股公司 | 新龙榜

  • 从IaaS到AI,马云为何让阿里云去扛人工智能大旗?

  • 数据新能源驱动智慧新世界:数据新能源时代来临

  • “NASA”计划背后,阿里巴巴大数据系统架构概述

  • 三个词,让你看懂马云、刘强东力推的“新零售”

  • 盘点全球最热门十家大数据公司中国占据三席

  • [大数据行业应用发展前景分析] 阿里潘永花报告:大数据产业将成为新的煤和石油介绍

  • 基于阿里云数加平台的大数据Serverless实践

  • 川普军完美逆袭,阿里大数据为你解读特朗普成功的真相

  • 大数据简析“林丹出轨事件”背后的微博信息传播

  • 《大数据漫谈 -- DT时代》连载之 NO.1

  • 漫谈阿里大数据

  • 巴黎科技展:“中国技术太厉害了,我们得赶紧学学!”

  • 阿里云携大数据计算平台MaxCompute欧洲开服

  • 数加平台如何通过Serverless 架构实现普惠大数据

  • 重磅 | 2017年中国大数据企业生态图谱(一)大数据企业融资地图

  • 数加:从数据工程师到CDO的七次升职路

  • Hadoop 这样业界顶级的大规模数据处理平台,均发现满足不了类似双十一这样全世界的剁手党蜂拥而至的热情

相关推荐