技术总舵
如果我没有在装逼,那么就是在去装逼的路上!

Tagged: Apache Spark

Flink学习笔记

Flink 基础 Flink特性 流式计算是大数据计算的痛点,第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark Streaming 采用“微批处理”模拟流计算,在窗口设置很…

干货丨时序数据库DolphinDB作业管理概述

作业(Job)是DolphinDB中最基本的执行单位,可以简单理解为一段DolphinDB脚本代码在DolphinDB系统中的一次执行。Job根据阻塞与否可分成同步作业和异步作业。 同步作业 同步作业也称为交互式作业(Interactive J…

Osql:一个大统一的SQL查询引擎

小O是新来OPPO不久的分析师同学,在公司遇到了许多志趣相投的同事,这让他很开心。可是最近有一件事让他很烦恼,因为查数据的时候,他一般使用Hive查询,但很多时候他的查询都运行的很慢,甚至查不出来。 导师听说…

汇总,大数据开源框架技术扫盲

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。…

Spark Executor内存管理

前言 Spark 的内存管理是内存分布式引擎中的一个重要角色,了解内存管理机制和原理,才能更好地做优化。 内容 1、静态内存管理(Spark 1.6.x版本前的策略) 静态内存管理图示——堆内 Unroll 的源码参考:https:/…

Nebula Graph 在微众银行数据治理业务的实践

本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 WeDataSphere 的实践情…

ClickHouse实战留存、路径、漏斗、session

什么是留存,比如在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存…

Linkis JDBC模块设计介绍

目录 一、 背景介绍 二、 使用介绍 (1)引入依赖模块 (2)建立测试类 三、 JDBC模块设计方案 (1)驱动类UJESSQLDriver (2)JDBC连接器UJESSQLConnection (3)执行对象UJESSQLStatement/UJESSQLPreStatement …

sparkcore离线性能调优

1.常规调优 1.1 最优资源配置 Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。…

如何使用5个Python库管理大数据?

如今,Python真是无处不在。尽管许多看门人争辩说,如果他们不使用比Python更难的语言编写代码,那么一个人是否真是软件开发人员,但它仍然无处不在。 Python被用于自动化,管理网站,分析数据和处理大数据。随着…