baolibin/Bigdata

大数据处理相关技术学习之路(持续更新中...)。 Bigdata整理 --> 慢慢滴~ 大数据相关技术包括离线处理,实时处理,OLAP等,如hadoop、spark、flink、hive、hbase、oozie...以及大数据项目,如用户画像、数据仓库等,欢迎感兴趣的小伙伴一起来开发...

ScalaJavaShell
This is stars and forks stats for /baolibin/Bigdata repository. As of 09 May, 2024 this repository has 194 stars and 53 forks.

大数据技术之路 本人从13年开始接触大数据,也算在大数据领域中摸爬滚打了很多年,本项目是我对大数据行业相关技术做些梳理。 1、Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop MapReduce HDFS YARN 2、Spark Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序 Spark Spark-Core Spark-Streaming Spark-Sql Spark-GraphX Spark-MLlib 3、Flink Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。 Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。 Flink Flink DataStream Flink Table API & SQL Flink CEP Flink DataSet Flink ML Flink Gelly 4、大数据生态圈一些其它技术框架 Hive HBase Kafka Doris Kudu Parquet Kylin Superset Druid Talos Pegasus Griffin ElasticSearch Oozie Redis MySQL SpringBoot Vue 5、大数据相关技能前奏 Scala Java SQL Maven Git Linux Shell 大数据算法 大数据相关计算机理论知识 大数据产品技能 大数据应用场景 大数据相关硬件知识 大数据平台相关知识 6、大数据一些相关项目 用户画像 Id-Mapping 离线数仓 实时数仓 特征系统 数据报告 精准运营 实时监控 7、数据相关知识点 1、数据仓库 2、数据中台 3、数据建模 4、数据监控 5、数据治理 6、数据质量 7、数据血缘 8、数据计算 9、数据存储 数据收集 数据压缩 数据加解密 数据产生 数据延迟 数据可视化 数据字典 数据分析 数据集市 8、大数据学习相关资料 8.1、大数据学习网站 Apache官网 DataFunTalk知乎 美团大数据 InfoQ大数据 8.2、大数据学习书籍 Hadoop权威指南 Hadoop技术内幕(3本) Hadoop实战 Hive编程指南 HBase权威指南 Spark快速大数据分析 Spark技术内幕 8.3、大数据论文 The Google File System (HDFS) BigTable (HBase) MapReduce Spark 8.4、学习网址收藏 Apache 官网地址 Hadoop 官网地址 Spark 官网地址 Flink 官网地址 Doris GitHub地址 Doris 官网地址 9、必会知识点 9.1、Spark Core 1)、Spark作业提交流程? 2)、Spark的内存模型? 3)、SparkContext创建流程?源码级别? 4)、简述Spark个版本区别?1.x与2.x? 5)、使用Spark中遇到过哪些问题?如何解决的? 6)、Spark的Shuffle过程? 和MR Shuffle区别? 7)、Spark中的数据倾斜问题有啥好的解决方案? 8)、Spark有哪些聚合类的算子,我们应该怎么避免使用这些算子?ReduceByKey和GroupByKey的区别? 9)、Spark On Yarn作业执行流程?yarn-client和yarn-cluster的区别? 10)、Spark中Job、Task、RDD、DAG、Stage的理解? 11)、Spark中RDD如何通过记录更新的方式容错? 12)、Spark常用调优方法? 13)、Spark中宽依赖和窄依赖如何理解? 14)、Spark中Job和Task如何理解? 15)、Spark中Transformation和action区别是什么?列举出常用的方法? 16)、Spark中persist()和cache()的区别? 17)、Spark中map和mapPartitions的区别? 18)、Spark中Worker和Executor的异同? 19)、Spark中提供的2中共享变量是啥? 20)、菲波那切数列可以用Spark做出来么? 21)、看过哪些Spark源码? 22)、Spark通信机制? 23)、Spark的存储级别有哪些? 24)、Spark序列化模式有哪些? 25)、Spark使用到的安全协议有哪些? 26)、Spark部署模式有哪些? 27)、Spark的cache后能不能接其它算子?是不是action操作? 28)、Spark中reduceByKey是action算子不?reduec呢? 29)、Spark中数据本地性是哪个阶段确定的? 30)、Spark中RDD的弹性提现在哪里? 31)、Spark中容错机制? 32)、Spark中RDD的缺陷? 33)、Spark中有哪些聚合类的算子?应该避免什么类型的算子? 34)、Spark中并行度怎么设置比较合理一些? 35)、Spark中数据的位置由谁来管理? 36)、Spark中数据本地性有哪几种? 37)、Spark如何处理不被序列化的数据? 38)、Spark中collect功能是啥?其底层是如何实现的? 39)、Spark作业在没有获得足够资源就开始启动了,可能会导致什么问题? 40)、Spark中map和flatmap有啥区别? 41)、介绍一下join操作优化经验? 42)、Spark有哪些组件? 43)、Spark的工作机制? 44)、Spark中的宽窄依赖? 45)、Spark如何划分stage? 46)、spark-submit时候如何引用外部的jar包? 47)、Spark中RDD有哪些特性? 48)、Spark的一个工作流程? 49)、Spark on yarn与standalone区别? 50)、Spark优化之内存管理? 51)、Spark优化之广播变量? 52)、Spark优化之数据本地性? 53)、Spark中task有几种类型? 54)、Spark中基本概念? 55)、Spark中的ShuffleManager? 56)、Spark中Shuffle时候数据一定会落磁盘么? 57)、Spark和MR中Shuffle不同?Spark的优势? 58)、Spark如何做checkpoint? 59)、Spark比MR速度快的原因? 60)、Spark distinct去重原理? 61)、Spark cache和checkpoint区别? 62)、Spark Core和Spark SQL区别? 63)、Spark和MapReduce区别? 64)、Spark不同版本区别? 9.2、Spark SQL 1)、Spark SQL和Hive区别?Spark SQL一定比Hive快么? 2)、Spark SQL有使用过么?在哪些项目中使用过? 3)、Spark SQL中UDF使用? 4)、SparkSession、SparkContext和SQLContext区别? 5)、Spark SQL用过哪些算子?遇到哪些问题?如何解决的? 6)、Spark SQL程序调优? 7)、Spark SQL运行原理? 8)、Spark SQL适用的场景,Spark Core不适合的? 9)、Spark SQL2.0和3.0区别? 10)、Spark SQL的DataFrame和RDD有啥区别? 9.3、Spark Streaming 1)、Spark Streaming如何保证数据仅且消费一次? 2)、Spark Streaming中DataFrame和DataSet区别? 3)、Spark Streaming如何做checkPoint检查点? 4)、Spark Streaming如何设置batch大小? 5)、Spark Streaming程序消费过慢如何解决? 6)、统计实时流中某一单词出现的总个数(eg:比如一天某商品被点击的PV)? 7)、Spark Streaming工作流程是怎样的?和Storm以及Flink有什么区别? 8)、Spark Streaming输出小文件问题? 9)、Spark Streaming中foreachRDD如何使用? 10)、Spark Streaming的启动时序图? 11)、Spark Streaming程序调优? 12)、Spark Streaming窗口大小?每个窗口处理的数据量? 13)、Spark Streaming中updateStateByKey和mapWithState的区别与使用? 14)、Spark Streaming面对高峰数据如何处理? 15)、Spark Streaming反压机制? 16)、Spark Streaming如何实现ExactlyOnce? 9.4、Flink Streaming 1)、Flink如何保证数据仅且消费一次? 2)、Flink如何做checkPoint检查点?分布式快照原理是啥? 3)、Flink程序消费过慢如何解决? 4)、统计实时流中某一单词出现的总个数(eg:比如一天某商品被点击的PV)? 5)、Flink中时间有几种? 6)、Flink中窗口有几种? 7)、Flink中state如何理解?状态机制? 8)、Flink中Operator是啥? 9)、Flink中StreamExecutionEnvironment初始化流程? 10)、用过DataStream里面的哪些方法? 11)、Flink程序调优? 12)、Flink如何解决数据乱序问题?Watermark使用过么?EventTime+Watermark可否解决数据乱序问题? 13)、Flink的checkpoint存储有哪些(状态存储)? 14)、Flink如何实现exactly-once? 15)、海量key去重,双十一场景,滑动窗口长度为1小时,滑动距离为10s,亿级别用户,如何计算UV? 16)、Flink的checkpoint和spark streaming比较? 17)、Flink CEP编程中当状态没有达到时候,数据会保存在哪里? 18)、3种时间语义? 19)、Flink面对高峰数据如何处理? 20)、Flink程序运行慢如何优化处理? 21)、Flink程序延迟高如何解决? 22)、Flink如何做容错? 23)、Flink有没有重启策略?说说有哪几种? 24)、Flink分布式快照原理是什么? 25)、Flink的Kafka连接器有什么特别的地方? 26)、Flink的内存管理? 27)、Flink序列化都有哪些?怎么实现的? 28)、Flink的window出现了数据倾斜,如何解决? 29)、Flink在使用聚合函数GroupBy、KeyBy、Distinct等函数出现数据热点如何解决? 30)、Flink如何处理反压?和spark streaming和storm区别有了解么? 31)、Flink的Operator Chains算子链了解么? 32)、Flink什么时候会把Operator Chain在一起行程算子链? 33)、Flink1.7特性?Flink1.9特性 34)、Flink组件栈有哪些? 35)、Flink运行需要依赖哪些组件?必须依赖Hadoop么? 36)、Flink基础编程模型? 37)、Flink集群有哪些角色?各有什么作用? 38)、Flink中Task Slot概念?Slot和parallelism区别? 39)、Flink中常用算子有哪些? 40)、Flink分区策略? 41)、Flink并行度如何设置? 42)、Flink分布式缓存用过没?如何使用? 43)、Flink广播变量,使用时候需要注意什么? 44)、Flink Table&SQL熟悉不?TableEnvironment这个类有什么作用? 45)、Flink SQL实现原理是什么?如何实现SQL的解析? 46)、Flink如何支持流批一体的? 47)、Flink如何支如何做到高效的数据转换? 48)、Flink如何做内存管理? 49)、Flink Job提交流程? 50)、Flink的三层图结构是哪几个图? 51)、Flink中JobManager在集群中扮演的角色? 52)、Flink中JobManager在集群启动中扮演的角色? 53)、Flink中TaskManager在集群中扮演的角色? 54)、Flink中TaskManager在集群启动时候扮演的角色? 55)、Flink计算资源的调度是如何实现的? 56)、简述Flink的数据抽象以及数据交换过程? 57)、FlinkSQL的实现原理? 58)、Flink压测和监控? 59)、有了Spark为啥还要用Flink? 60)、Flink的应用架构有哪些? 61)、Flink Barrier对齐? 62)、Flink slot和cpu core区别? 63)、JobGraph生成? 64)、Flink和SparkStreaming区别? 65)、Flink中什么场景会用到state? 66)、Flink如何快速定位问题? 67)、Flink中watermark 机制? 68)、Flink集群有哪些角色?各自有什么作用? 69)、Flink中多流Join? 70)、Flink中两阶段提交? 71)、Flink中多流checkpoint? 72)、Flink中多流合并反压? 73)、Flink中多流Join,数据延迟? 74)、Flink中checkpoint存的数据是什么? 75)、Flink中checkpoint和savepoint区别? 76)、Flink中join类型? 77)、Flink与SparkStreaming的优缺点?适用的场景? 78)、Flink背压如何实现? 79)、Flink如何取消state?1.7版本如如何取消? 80)、Flink如何实现自定义sink? 81)、Flink分布式缓存? 82)、Flink计数器? 86)、Flink SQL解析方式? 87)、Flink Window的分组? 88)、Flink Window 的生命周期?清除? 89)、Flink Window 的触发器?以及内置自定义触发器? 90)、Flink Window 的窗口函数? 91)、Flink Window 的驱逐器Evictors? 92)、Flink Window 允许时延? 9.5、Flink Batch 1)、Flink中ExecutionEnvironment初始化流程? 2)、用过DataSet里面的哪些方法? 9.6、Hive 1)、简述Hive主要结构? 2)、Hive解析成MapReduce过程? 3)、Hive与传统数据库的区别? 4)、Hive内部表和外部表区别? 5)、Hive中order by、sort by、distribute by和cluster by的区别? 6)、Hive中row_number()、rank()和dense_rank()区别? 7)、Hive中常用的系统函数有哪些? 8)、Hive使用过udf函数么?如何使用的? 9)、Hive如何实现分区? 10)、Hive导入和导出数据的方式? 11)、Hive窗口函数有哪些? 12)、Hive中如何使用UDTF? 13)、Hive表关联查询,如何解决数据倾斜问题? 14)、Hive中数据的null在底层是如何存储的? 15)、Hive有哪些方式保存元数据?各有哪些特点? 16)、Hive中split、coalesce和collect_list函数的用法? 17)、Hive在join时候大表和小表放置顺序? 18)、Hive使用两张表关联,使用MapReduce怎么实现? 19)、Hive中使用什么可以代替in查询? 20)、所有的Hive任务底层都会执行MapReduce么? 21)、Hive函数中UDF、UDAF和UDTF区别? 22)、Hive桶表的理解? 23)、Hive实现UDF函数的流程? 24)、Hive SQL语句是怎么执行的? 25)、Hive用过哪些优化? 26)、Hive如何设置并行数? 27)、Hive如何合并小文件? 28)、Hive动态分区? 29)、Hive的Fetch抓取? 30)、Hive的Group By? 31)、Hive的Count(Distinct) 去重统计? 32)、Hive的笛卡尔积? 33)、Hive的JVM重用? 34)、Hive的行列过滤? 35)、Hive的Map数? 36)、Hive的Reduce数? 37)、Hive的并行执行? 38)、Hive的本地模式? 39)、Hive的列裁剪和分区裁剪? 40)、Hive的谓词下推? 41)、Hive的严格模式? 42)、Hive启用压缩? 9.7、HBase 1)、HBase是什么?特点有哪些? 2)、HBase和Hive的区别? 3)、HBase的rowKey如何设计? 4)、简述HBase架构模块? 5)、描述HBase中一个cell结构? 6)、HBase中compact用途是什么?什么时候触发?分为哪两种?有什么区别?有哪些相关参数? 7)、HBase优化? 8)、HBase如何建立预分区? 9)、HBase中HRegionServer宕机如何处理? 10)、HBase中scan和get的功能以及实现的异同? 11)、HBase读流程? 12)、HBase写流程? 13)、HBase内部机制是什么? 14)、HBase在进行模型设计时重点在什么地方?一张表定义多个Column Family最合适?为什么? 15)、如何提高HBase客户端的读写性能? 16)、直接将时间戳作为行键存储在HBase中,在写入单个Region时候会发生热点问题,为什么? 17)、请描述如何解决HBase中Region太大和Region太小带来的冲突? 18)、简述下布隆过滤器的原理?HBase中如何使用的? 19)、简述下LSM树的原理?HBase中如何使用的? 20)、HBase中二级索引原理?有使用过么? 21)、HBase有put方法,那如何批量进HBase中?用什么方法? 22)、访问HBase有哪些方式? 23)、HBase中最小存储单元是什么? 24)、HBase中的MemStore是用来做什么的? 25)、HBase中scan对象的setCache和setBatch方法的使用? 26)、每天百亿数据存入HBase,如何保证数据的存储正确以及在规定时间里全部录入完毕,不残留数据? 27)、HBase的RowFilter和BloomFilter原理? 28)、HBase的HRegion如何划分的? 29)、HBase的HRegion如何分裂的? 30)、HBase的MemStore和BlockCache区别? 9.8、HDFS 1)、自己写个HDFS需要实现哪些模块? 2)、HDFS读流程? 3)、HDFS写流程? 4)、HDFS的事物日志和镜像文件怎么理解? 5)、HDFS的SecondaryNameNode工作机制? 6)、HDFS的NameNode和SecondaryNameNode区别? 7)、HDFS节点动态上线下线怎么操作? 8)、HDFS的单点问题?如何解决? 9)、HDFS的HA如何实现? 10)、HDFS的Federation如何理解? 11)、HDFS的Block和spark的partition有什么区别? 12)、HDFS的压缩算法? 13)、HDFS的3个DataNode,其中有一个出现问题,会怎么样? 14)、HDFS的小文件过多时候,如何解决小文件问题? 15)、有一个200M文件写入HDFS,是先写入128M复制完之后再写72M,还是全部写完再复制? 16)、HDFS中的RPC协议,底层是如何进行封装的? 17)、HDFS出现文件丢失怎么处理? 18)、描述HDFS的SecondaryNameNode进行checkpoint的过程? 19)、HDFS的数据完整性如何保证? 20)、HDFS什么时候进入安全模式? 21)、HDFS的副本存放机制? 22)、如何理解分布式? 9.9、MapReduce 1)、MapReduce和Spark都是并行计算,有什么区别? 2)、Spark比MapReduce快么?为什么快?快在哪里? 3)、MapReduce的Shuffle过程? 4)、MapReduce架构原理? 5)、MapReduce如何读取小文件? 6)、MapReduce调优? 7)、MapReduce作业执行过程? 8)、MapReduce切片机制? 9)、描述mapReduce中combiner的作用是什么,一般使用情景,哪些情况不需要,及和reduce的区别? 10)、描述Hadoop MapReduce的容错机制? 11)、在一个运行的Hadoop 任务中,什么是InputSplit? 12)、如何判定一个job的map和reduce的数量? 13)、分片与分块的区别? 14)、什么叫数据本地性?Hadoop采用了哪些机制提高任务的数据本地性? 15)、编写MapReduce作业时,如何做到在Reduce阶段,先对key排序,再对value排序? 9.10、YARN 9.11、Java 1)、说说Java中有哪些数据结构? 2)、Java中有几种基本类型,各占多少字节? 3)、Java中String可以被继承不?String、StringBuffer和StringBuilder有什么区别? 4)、Java中ArrayList和LinkedList有什么区别? 5)、Java中类的初始化顺序? 6)、Java中HashMap内部实现原理?如何扩容?线程安全不? 7)、描述动态代理的几种实现方式? 8)、Java的反射中,Class.forName和ClassLoader区别? 9)、Java中nio和bio区别? 10)、写出三种单例模式实现方式? 11)、垃圾回收机制? 12)、Java的内存模型? 13)、数组和链表数据结构描述?各自时间复杂度 14)、Java1.5中引入了泛型,泛型的存在用来解决什么问题? 15)、Java的HashSet内部如何实现的? 16)、Java中List、Set和Map之间的区别? 17)、Java中哪些集合类是线程安全的? 18)、Java中synchronized和volatile区别? 19)、Jvm中一次完整的GC流程? 20)、Java中CurrentHashMap和HashMap的区别? 21)、Java中int和Integer区别? 22)、Java中内存溢出和内存泄漏区别? 23)、Java中进程和线程的区别? 24)、深拷贝和浅拷贝区别? 25)、什么是值传递和引用传递? 26)、可以在static环境中访问非static变量吗? 27)、Java支持多继承么,为什么? 28)、构造器是否可被重写? 29)、char型变量中能不能存贮一个中文汉字,为什么? 30)、如何实现对象克隆? 31)、object中定义了哪些方法? 32)、hashCode的作用是什么? 34)、列举出JAVA中6个比较常用的包? 35)、JDK 7有哪些新特性? 36)、JDK 和 JRE 有什么区别? 37)、说说你熟悉的设计模式有哪些? 38)、在自己的代码中,如果创建一个java.lang.String类,这个类是否可以被类加载器加载?为什么? 39)、java8的新特性? 40)、switch是否能作用在byte 上,是否能作用在long 上,是否能作用在String上? 41)、是否可以从一个静态(static)方法内部发出对非静态(non-static)方法的调用? 42)、equals与==的区别? 43)、final, finally, finalize 的区别? 44)、重载和重写的区别? 45)、BIO、NIO、AIO 有什么区别? 46)、String,StringBuffer,StringBuilder的区别? 47)、Comparator与Comparable有什么区别? 48)、说说反射的用途及实现原理,Java获取反射的三种方法? 49)、Java中IO流分为几种? 50)、Java创建对象有几种方式? 51)、守护线程是什么?用什么方法实现守护线程? 52)、String s与new String与有什么区别? 53)、反射中,Class.forName和ClassLoader的区别? 54)、Java的类加载机制? 55)、JVM调优? 56)、数据库3范式? 57)、rpc服务和http服务区别? 58)、CurrentHashMap底层结构? 59)、单例模式双重检测机制? 60)、java字符串contains实现原理? 61)、Java map的contains实现? 62)、java1.8 currentHashMap原理? 63)、java CAS机制? 64)、java中的悲观锁与乐观锁? 9.12、Scala 1)、伴生对象Object和伴生类Class区别? 2)、var、val和def三个关键字之间的区别? 3)、trait和abstract class区别? 4)、case class是什么? 5)、apply和unapply区别?以及各自的使用场景? 6)、Nil、Null、None和Nothing四个类型的区别? 7)、Unit类型是什么? 8)、Option类型的定义和使用场景? 9)、yield如何工作? 10)、Scala隐士转换如何理解?什么场景下使用? 11)、什么是偏函数? 12)、什么是柯里化? 13)、什么是闭包? 14)、Array和ArrayBuffer区别? 15)、Scala中协变和逆变区别? 16)、Scala中有break么? 17)、Scala中上界和下界区别? 18)、Scala中Any AnyRef AnyVal区别? 9.13、Kafka 1)、Kafka如何保证消息的顺序? 2)、Kafka的receiver和direct区别? 3)、Kafka和Flink保证仅消费一次ExactlyOnce? 4)、Kafka中ISR、AR表示什么? 5)、Kafka中HW、LEO等表示什么意思? 6)、Kafka中是怎么体现消息顺序性的? 7)、Kafka中分区器、序列化器、拦截器是否了解?它们之间的顺序使什么? 8)、Kafka生产者客户端整体结构式什么样子的?使用了几个线程处理?分别是什么? 9)、Kafka消费组中的消费者个数如果超过了topic的分区,那么就会有消费者消费不到数据,这句话是否正确? 10)、Kafka中消费者提交消费位移时提交的是当前消费到的最新消息offset还是offset+1? 11)、Kafka中有哪些情形会造成重复消费? 12)、Kafka中有哪些情形会造成消息漏消费? 13)、当使用kafka-topics.sh创建(删除)一个topic之后,kafka背后会执行什么逻辑? 14)、Kafka的topic分区数可不可以增加?如果可以怎么增加?如果不可以,那又是为什么? 15)、Kafka的topic分区数可不可以减少?如果可以怎么增加?如果不可以,那又是为什么? 16)、Kafka有内部的topic么?如果有是什么?有什么用? 17)、Kafka分区分配的概念? 18)、简述Kafka日志目录结构? 19)、如果指定了一个offset,Kafka Controller怎么找到对应的消息? 20)、Kafka Controller的作用? 21)、Kafka中有哪些地方需要选举,这些地方的选举策略有哪些? 22)、Kafka失效副本是指什么?有哪些应对策略? 23)、Kafka的哪些设计让它有如此高的性能? 24)、简述Kafka的基础架构? 25)、Kafka的用途有哪些?适用于哪些使用场景? 26)、Kafka中过期数据清理? 27)、Kafka中幂等是怎么实现的? 28)、Kafka中优先副本是什么?有什么特殊的作用? 29)、Kafka中zookeeper作用是什么? 30)、Kafka的ACK机制? 31)、Kafka如何实现ExactlyOnce? 32)、说说Kafka的使用场景? 33)、Kafka与传统MQ消息系统之间有三个关键区别? 34)、kafka如何保证不丢失消息? 35)、Kafka分区的目的? 36)、Kafka消息是采用Pull模式,还是Push模式? 37)、Kafka 数据存储类型? 9.14、SQL 1)、SQL执顺序? 2)、排名函数ROW_NUMBER,RANK,DENSE_RANK啥区别? 3)、用一条sql语句查询出每门课都大于80分的学生姓名? 4)、sql窗口函数? 5)、sql窗口函数使用? 6)、sql中条件函数使用? 9.15、Doris 1)、Doris数据模型? 2)、Doris底层存储原理? 3)、MPP引擎的选型? 4)、Doris简介? 5)、Doris适用场景? 6)、Doris的查询规划过程? 7)、Doris的Rollup? 8)、Doris的写入方式? 9)、Doris优缺点? 10)、Doris查询方式? 11)、Doris的调度? 12)、Doris的数据划分? 13)、Doris的Bitmap去重? 14)、Doris、ClickHouse、Druid对比? 15)、Doris内置函数? 16)、MPP数据库? 17)、数据库架构设计? 18)、Doris近似去重、精确去重功能? 19)、DorisDB基本概念? 20)、Doris分区? 21)、Doris分桶? 22)、Doris的Bloom Filter索引? 23)、Doris物化视图? 24)、Doris系统架构? 25)、Doris的Rollup? 26)、Doris用Bitmap实现精确去重? 27)、Doris用HLL(HyperLogLog)实现近似去重? 9.16、Flink Table API&SQL 1)、1、Flink API&SQL概述?是什么? 2)、Flink API&SQL的planner? 3)、Flink API&SQL的编程模板? 4)、Flink API&SQL的TableEnvironment? 5)、catalog是什么? 6)、catalog中创建临时表与永久表? 7)、catalog中创建虚表(Virtual Tables)? 8)、catalog中创建外部数据源表(Connector Tables)? 9)、查询表Table API方式? 10)、查询表SQL方式? 11)、API&SQL底层的转换与执行,Old planner? 12)、API&SQL底层的转换与执行 Blink planner? 13)、查询优化,Old planner? 14)、查询优化,Blink planner? 9.17、大数据算法 1)、逻辑回归公式推导? 9.18、大数据后端【SpringBoot】 1)、什么是微服务? 9.19、大数据前端【Vue】
Read on GithubGithub Stats Page
repotechsstarsweeklyforksweekly
ProperLLC/epcr-portal-apiScalaShell1000
succinctlabs/mudvrfSolidityTypeScriptGo50050
input-output-hk/laceTypeScriptGherkinSCSS70+133-1
EpicGames/PixelStreamingInfrastructureTypeScriptJavaScriptShell40202210
worblehat/dotfilesVim ScriptShell2010
cssninjaStudio/doktoAstroJavaScriptCSS440210
GrantBirki/edfAstroJavaScriptTypeScript1000
openchatai/OpenChatBladeCSSHTML4.7k+10720+6
biod/sambambaDShellRagel52101000
befovy/fijkplayerDartJavaObjective-C1.5k03140