总结 on LeoChu Space

LDAP 简明科普

Wed, 08 Apr 2026 00:00:00 +0000

1. 什么是 LDAP

LDAP（Lightweight Directory Access Protocol） 是一种用于查询和管理目录信息的协议。

简单说：

LDAP 是一个“按层级组织的用户信息数据库 + 查询方式”

2. LDAP 存什么

常见内容包括：

用户账号（用户名、ID）
密码（加密存储）
用户组（权限）
部门 / 组织结构
邮箱、电话等信息

3. 数据结构（像树）

LDAP 的数据是树状结构：

graph TD
A[公司] --> B[技术部]
A --> C[人事部]
B --> D[用户A]
B --> E[用户B]
C --> F[用户C]

每个节点都有唯一标识（DN）。

4. LDAP 能做什么

用户登录认证（验证账号密码）
查询用户信息
管理组织结构
权限分组管理

5. 常见使用场景

公司统一账号系统
内部系统登录（单点登录基础）
权限集中管理

6. 常见实现

OpenLDAP
Active Directory（微软）

7. 一句话总结

LDAP 是一个“按树组织的用户信息数据库 + 查询协议”，用于统一管理账号和组织结构

SSH、跳板机和隧道

Wed, 08 Apr 2026 00:00:00 +0000

1. SSH 是什么

SSH（Secure Shell） 是一种用于远程登录和通信的加密协议。

核心作用

远程登录服务器
执行命令
安全传输数据
建立加密通道

简单理解

就像一根“加密的远程操作线”，你在本地操作，实际在远程执行。

图示

graph LR
A[本地电脑] -- SSH连接 --> B[远程服务器]
A -->|输入命令| B
B -->|返回结果| A

2. 跳板机（Bastion Host）是什么

跳板机是一台中间服务器，用于访问内网机器。

为什么需要

内网服务器不能直接暴露到公网
提供统一入口（安全控制、审计）

简单理解

像“门卫”，必须先经过它，才能进入内部系统。

图示

graph LR
A[本地电脑] --> B[跳板机]
B --> C[内网服务器]

常见连接方式

ssh -J user@跳板机 user@内网服务器

3. 隧道（SSH Tunnel）是什么

SSH 隧道是一种通过 SSH 转发网络流量的技术。

本质

把本地请求“通过 SSH 转发到远程”

3.1 本地端口转发（Local Forward）

示例

ssh -L 3307:127.0.0.1:3306 user@服务器

加密体系

Wed, 08 Apr 2026 00:00:00 +0000

1. 三个核心问题

整个体系其实在解决三件事：

你是谁？（身份认证）
数据能不能被偷看？（加密传输）
如何安全地交换密钥？（密钥分发）

2. 非对称加密（公钥 / 私钥）

核心定义

使用一对密钥：公钥 + 私钥

公钥：可以公开
私钥：必须保密
二者不可互相推导

两种用途（关键区分）

① 加密通信

graph LR
A[发送方] -->|公钥加密| B[密文]
B --> C[接收方]
C -->|私钥解密| D[明文]

② 身份认证（SSH）

sequenceDiagram
participant A as 客户端（私钥）
participant B as 服务器（公钥）

B->>A: challenge
A->>B: signature
B->>B: 公钥验证
B->>A: 通过/拒绝

关键公式

signature = Sign(私钥, challenge)
Verify(公钥, challenge, signature) = true

本质总结

私钥负责“生成证明”，公钥负责“验证证明”

3. SSH：基于签名的认证机制

文件结构

~/.ssh/id_ed25519      # 私钥
~/.ssh/id_ed25519.pub  # 公钥
~/.ssh/authorized_keys # 服务器保存公钥

免密登录本质

服务器信任“某个公钥”，允许对应私钥登录

博客标签设计

Wed, 01 Apr 2026 00:00:00 +0000

一、设计原则

标签用于表达文章的“内容特征”，而不是分类。

分类（categories）用于表示文章所属目录（放在哪），标签（tags）用于描述文章内容（讲什么）。

标签统一为单层结构，不做层级划分。

标签体系同时服务两种需求：

浏览：快速理解文章内容
检索：精确定位知识点

二、标签分类（逻辑分层）

1. 技术类标签（核心索引）

用于标识具体技术或组件，可包含低频标签：

JVM
Java
Python
Django
Git
Maven
Linux

Hive
Spark
Kafka
Flink
Hadoop
Yarn
Flume
Presto ClickHouse

MySQL
MongoDB
Elasticsearch

说明：
技术标签允许低频存在，用于精确检索，不需要强制精简。

2. 内容类型标签（高频 ⭐）

用于标识文章表达形式：

速查
总结
原理
教程
配置
调优
源码

笔记
摘录
记录

3. 场景类标签（中频）

用于标识问题或使用场景：

踩坑
实战
排错
面试

4. 通用认知标签（非技术内容 ⭐）

用于 reading / thoughts / ideas：

思考
认知
学习

产品
副业

灵感
想法

三、使用规范（重点）

每篇文章建议使用 2～5 个标签
建议组合：
- 1～2 个技术标签（可低频）
- 1 个类型标签（必选）
- 可选 1 个场景或认知标签
技术标签优先表达“具体技术点”
类型标签控制文章表达形式（避免缺失）
避免重复语义标签（如：调优 vs 优化，仅保留调优）

四、示例

示例 1：Git 命令速查

tags:

jdk8和jdk8u有什么区别

Sat, 29 Mar 2025 00:00:00 +0000

JDK 8 代表的是一个大版本的更新，你可以理解成定义好了框架和实现

JDK 8u代表的是基于JDK 8的后续小版本的迭代，里面不会有 JDK 8 标准之外的内容，只会包含一些安全性，性能等方面的修改，例如某个Class的实现优化

观点一

一般来说，建议选用大版本下面最新的u版本，比如你要选择 JDK 8 ，那么就选择 JDK 8u281，这个是目前8这个大版本的最新版本，原因是里面会修复和优化前序版本的一些问题

观点二

正常来说，应该使用OpenJDK8。

OpenJDK8u是一些后期维护，一些特性并不是想要的。

观点三

对于jdk8u

这个最新的免费版本号，其实包括了两个，8u201和8u202，这个就是JDK版本号的命名问题了。从2014年10月发布Java SE 7 Update 71(Java SE 7u71)开始，Oracle在发布Oracle JDK关键补丁更新(CPUs：Critical Patch Updates)的同时一般会发布相应的补丁集更新(PSUs：Patch Set Updates)。其中Oracle JDK关键补丁更新(CPUs)包含安全漏洞修复和重要漏洞修复，Oracle强烈建议所有Oracle JDK用户及时升级到最新的CPU版本，Oracle JDK 关键补丁更新(CPUs)版本号采用奇数编号。Oracle JDK补丁集更新(PSUs)包含相应CPUs中的所有修复以及其他非重要修复，仅当受到Oracle JDK关键补丁更新(CPUs)版本之外的其他漏洞的影响时才应当使用相应的补丁集更新 (PSUs)，Oracle JDK补丁集更新(PSUs)版本号采用偶数编号。因此，一般情况下我们只要下载奇数编号的最新版本更新就行了。

简单来讲，Oracle将奇数版本作为BUG修正并全部通过检验的版本，Oracle官方建议用在生产环境最好使用这个版本。Oracle会在奇数版本之后同时发布一个偶数版本，偶数版本包含了奇数版本所有的内容，以及未被验证的BUG修复，Oracle官方建议，除非你受到未验证BUG影响，急需BUG修复才使用这个版本。因此，8u201是CPUs，关键补丁更新。8u202是PSUs，补丁集更新，推荐下载8u201。

部署CDH踩坑总结

Sat, 08 Jun 2024 00:00:00 +0000

1.zookeeper刚启动时会报错，晾它两分钟会就好了

2.更改或迁移服务时一定要切换到维护模式并停止当前服务！！！

3.cdh01的hadoop组件起不来，原因是一些文件夹的权限问题，更改权限并且更改拥有者及组（参照其他服务器）

4.内存不足主要因为NodeManager内存调的太高，调小即可（个人经验，5台机器可用内存和为30*4+20=160G，可同时对20G的数据做处理，感觉够用了）

5.oozie报错：Failed to install Oozie ShareLib，这个问题是cdh6.2的通病，只要安装oozie就会出现(无论是升级，还是新装。

解决：

cd /opt/cloudera/parcels/CDH/lib/oozie/libtools

ln -s ../../../jars/logredactor-2.0.7.jar logredactor-2.0.7.jar

执行完后重启oozie。

6.oozie端口号11000冲突，改为11002

7.从节点不要提前安装agent服务！！！直接在web界面安装！

8.把CM和CDH装好后面就轻松多了

9.==主机名不要出现下划线!==

指标字典

Sat, 11 May 2024 00:00:00 +0000

1.指标字典

指标字典，是业务数据标准化的基础，目的是对指标进行统一管理，方便共享达成对业务指标的共识，并且统一修改和维护。指标字典可以更新在 Excel或者Wiki中。如果有足够多的资源，那么开发指标管理模块可以放在数据管理系统中再配合血缘关系，就可以很方便追踪数据流转了。

1.1设计指标字典的主要目的：

(1)规范维度和量度命名，命名规则要尽量做到明确、通用、易懂。

(2)对维度或量度统一计算口径，避免岐义。

(3)涵盖尽可能多的关注的核心维度和量度，以此为基础推动数据建设，确保指标字典里覆盖的维度都可区分、指标都可统计

(4)基于指标字典，将核心维度和量度注入元数据中心，接入指标提取工具，后续实现不需要写QL语句即可完成自査询及分析需求

指标字典的建立，是搭建数据平台的基础。

1.2指标、量度和维度的相关概念

1.2.1 指标:

定义：衡量目标的方法

构成要素：维度+汇总方式+量度

（1）维度=哪些角度去看问题

（2）汇总方式=哪些方法衡量问题

（3）量度=目标是什么问题

1.2.2 维度：

定义：看问题的角度和方向，例如我要从年份看毛衣的销量，那么年份就是我看问题的角度

1.2.3 量度：

定义：对一个物理量的测定，通常数字+计算单位表示。例如，金额，次数，率

1.3 指标定义规范

1.3.1怎么定义一个合格的指标字典？需要遵守什么规范？

一个指标一经录入，它的命名和所有下钻维度的口径都已确定(默认口径)，这称为指标的一义性。
例如，“交易额”这个指标默认的时间口径是：支付时间，默认的城市口径是：下单所在城市等。
如果需要按下单时间口径看订单金额，我们定义了一个新的指标“下单交易额”。一个在某些维度上口径不确定的“指标”是不能被使用的，在业务场景中是毫无意义的。

1.3.2指标一般分为基础指标、普通指标和计算指标三类。

1.3.2.1基础指标

例如，“交易额”作为一个基于单纯实体的属性的简单计算，它没有更上游的指标，即它的父指标是它自身。我们称这样的指标为基础指标。

1.3.2.2.普通指标

所谓普通指标，即在单一父指标的基础上通过一些维度上的取值限定可以定义的指标。
例如，对于购买中PC端首次购买用户数，限制条件为首次购买用户中下单平台＝PC。

1.3.2.3.计算指标

可以在若干个注册指标之上通过四则运算、排序、累计或汇总定义出的指标称为计算指标。

1.4量度和维度都考虑好了，在构建一个指标字典时我们应该考虑哪些要素呢?

1.4.1指标字典要素如下：

1.4.2通常指标字典包含指标维度和指标量度两个部分，如下：

总结：

通过上面的步骤和方法，根据自身业务情况，建立一个指标字典。

指标字典在建立知乎，要经过各个业务产品经理的评审，纠正错误不明或者有歧义的指标，在达成一致后，由数据产品推广，共大家参考使用。

好的指标字典就像二叉树一样，从单维度，粗糙维度分析，再细拆维度。看问题需要：由大到小，由内到外。

restful风格

Sat, 13 Apr 2024 00:00:00 +0000

一、什么是 REST ？（一种软件架构风格）

缩写：REST （不是"rest"这个单词）外文名：Representational State Transfer，简称REST。中文名：表现层状态转移。

提出时间：2000年。属性：一种软件架构风格。（以Web为平台的。web服务的架构风格，前后端接口时候用到。）

REST之所以晦涩难懂，是因为前面主语（Resource ）被去掉了。全称是： Resource Representational State Transfer。通俗来讲就是：资源在网络中以某种表现形式进行状态转移。

分解开来讲解: Resource：资源，即数据（这是网络的核心）； Representational：某种表现形式，比如用JSON，XML，JPEG等； State Transfer：状态变化。通过HTTP的动词（get查询、post新增、put修改、delete删除）实现。

一句话描述 REST 实质：
URL 中只使用名词来定位资源，用 HTTP 协议里的动词（GET、POST、PUT、DELETE）来实现资源的增删改查操作。

什么意思呢？

比如，我们有一个 friends 接口，对于 “朋友” 我们有增删改查四种操作，怎么定义 REST 接口？

增加一个朋友，uri: generalcode.cn/v1/friends 接口类型：POST
删除一个朋友，uri: generalcode.cn/va/friends 接口类型：DELETE（在 http 的 parameter 指定好友 id）
修改一个朋友，uri: generalcode.cn/va/friends 接口类型：PUT（在 http 的 parameter 指定好友 id）
查找一个朋友，uri: generalcode.cn/va/friends 接口类型：GET

上面我们定义的四个接口就是符合 REST 协议的，请注意，这几个接口都没有动词，只有名词 friends，都是通过 Http 请求的接口类型来判断是什么业务操作。

举个反例： generalcode.cn/va/deleteFriends 该接口用来表示删除朋友，这就是不符合REST协议的接口。不能用deleteFriends ，而应该就用friends + http请求的delete方式。

ai栈

Sat, 06 Jan 2024 00:00:00 +0000

任务类型	工具 / 模型	说明 / 能力边界	成本	厂商
文档整理 / 项目重构 / 架构设计	Claude Code（基于 Claude Opus）	高质量理解长上下文，支持跨文件重构和工程分析；生成方案/代码，但需要外部环境执行	pro订阅	claude
写代码 / 单文件实现	OpenAI Codex（GPT-Code 系列）	自动生成可运行代码，适合函数、模块、脚本任务；执行依赖你的环境或接口	plus订阅	openAi
实时代码辅助 / IDE 提示	GitHub Copilot	IDE 插件，提供智能补全和片段建议，不提供 API
对话 / 问答 /策略讨论	ChatGPT Plus	快速交互、概念解释、方案讨论	plus订阅	openAi
机械重复 / 简单批处理任务	国内轻量模型	低成本处理大量重复操作或简单格式化任务		miniMax
自动化执行 / 跨渠道智能代理	OpenClaw	可自托管的 AI Agent 框架；整合多模型、消息渠道和技能；能持续管理任务、执行脚本、调用 API 和操作工具；适合自动化工作流和多通道触发，需配置和监管

开发流程

Sun, 12 Nov 2023 00:00:00 +0000

1. 开发流程

**说明：**此开发流程符合大部分需求场景，少数需求可能流程会有所增减。

2. 流程说明

2.1 需求评审

详细了解本次需求的背景和细节，并讨论需求的可行性。

比如：

当前需求是否明确? 新需求是什么?
需求背景及解决什么问题?
如果需求复杂程度大，提出是否需要分阶段实施?
需求完成的期望指标是什么? 如何评判? 如何交付?
技术能否实现、逻辑是否有问题？
进入开发阶段测试，遇到问题与谁对接，来协调解决问题?
如果需求复杂请让需求方拆解需求去描述要达到的目的。
如果需求未做到目的明确，清晰合理，请让需求方解决疑问点。
需求对接完，请邮件告知。

2.2 技术评审

阐述详细的技术实现方案，评估一下是否有不合理之处，比如表结构如何设计、接口怎么定义、有没有技术难点等。

2.3 开发 & 测试排期

评估具体的工作量，根据工作量安排各个步骤要完成的截止日期。

2.4 输出开发设计文档

此文档放在 confluence 上，大致包含需求背景、开发设计（技术方案）、排期计划、开发流程的具体内容、附录等。需求背景、开发设计（技术方案）、排期计划要在开发测试开始前书写完成，其他部分可以根据进度补充完善。

2.5 开发 & 测试

根据技术方案和排期，具体实现。

2.6 需求方验收

验收阶段，开发如有 bug 修改 bug，可以提前提供部分样例结果进行预验收。

2.7 生产部署

根据具体环境部署。

2.8 需求复盘总结

复盘一下问题主要出在哪里，以后如何规避，哪些优点可以以后借鉴等。

3. 其他注意事项

3.1 关于对接和验收阶段

首版需求已评审过的前提下，在此阶段如果不可避免出现需求变更频繁和很多不确定的时候，要明确告知需求方批量提供需求点或完善点，避免随时出现一个接一个，导致此需求一直完不成。

最好补充一次批量提完，如果第两个及以上批次，建议需求当需求变更处理。

开发要合理评估，尽量避免开发不合理需求。

4. 附件

Java 开发手册:!泰山版.pdf

技术债

Sun, 29 Oct 2023 00:00:00 +0000

关于技术债务的文章，尽管实践中会堆积技术债，但这个概念并不在我们的工作中频繁出现。这篇文章就系统性讲讲技术债，让大家避免知其然，不知其所以然。

一、技术债是什么

技术负债（英语：Technical debt），又译技术债，也称为设计负债（design debt）、代码负债（code debt），是编程及软件工程中的借鉴了财务债务的系统隐喻。指开发人员为了加速软件开发，在应该采用最佳方案时进行了妥协，改用了短期内能加速软件开发的方案，从而在未来给自己带来的额外开发负担。这种技术上的选择，就像一笔债务一样，虽然眼前看起来可以得到好处，但必须在未来偿还。软件工程师必须付出额外的时间和精力持续修复之前的妥协所造成的问题及副作用，或是进行重构，把架构改善为最佳实现方式。

1992 年，沃德 · 坎宁安首次将技术的复杂比作为负债。第一次发布代码，就好比借了一笔钱。只要通过不断重写来偿还债务，小额负债便可以加速开发。但久未偿还债务会引发危险。复用马马虎虎的代码，类似于负债的利息。整个部门有可能因为松散的实现，不完全的面向对象的设计或其他诸如此类的负债而陷入窘境。

二、技术债表现

技术债与其他债务本身一样，是一种透支行为，通过牺牲未来来满足当下的一些需求。也跟其他债务一样，技术债务也有利息，而且随着时间利滚利，会成为埋在项目里的定时炸弹。如果产品长期的可持续的发展，那么技术债的重要性是毋庸置疑的。

技术债务的本质是产品的结构阻碍了进步，表现出来的症状有：无法轻易重构产品以满足市场需求；组件之间的依赖性过多，体系结构不良；缺陷太多，结构不良；难以理解，难以改变。

技术债务的后果有偿还技术债务造成时间浪费，员工满意度降低带来士气低落，因解决遗留代码问题而错过优质项目造成人才流失，产品质量降低造成客户满意度下降，技术债务限制创新能力、扼杀创造性等诸多问题。

技术债不单单是技术债，它就像一个垃圾堆，久而久之不处理，慢慢周围就会产生更多的垃圾，因此产生的 “破窗效应” 更加是会对未来的项目环境造成很大的影响，大家也会逐渐丧失维护环境的信心。所以在讨论技术债的时候不仅仅是讨论技术债本身，技术债对团队追求质量的信心、对大家维护环境整洁的积极性都会造成很大的影响。

MartinFowler 把技术债分为四个象限，如下图所示：

三、技术债产生的原因

●业务压力：为了满足业务的快速要求，在必要的修改并没有完成时就匆匆发布，这些未完成的修改就形成了技术负债。

●缺少过程和理解：业务人员不清楚不理解技术负债的概念，在决策时就不会考虑到其带来的影响。

●模块之间解耦不够：功能没有模块化，软件柔性不够，不足适应业务变化的要求。

●缺少配套的自动化测试：导致鼓励快速而风险很大的 “创可贴” 式的 BUG 修复。

●缺少必要文档：需求和代码都没有必要的支撑性文档或注释。

●缺少协作：组织中的知识共享和业务效率较低，或者初级开发者缺少必要的指导。

●重构延迟：在开发的过程中，某些部分的代码会变得难以控制，这时候就需要进行重构，以适应将来的需求变化。重构越是推迟，这些已有的代码被使用的越多，形成的技术负债就越多，直到重构完成。

●不遵循标准或最佳实践：忽略了已有的业界标准、框架、技术和最佳实践。

●缺少相关技能：开发人员有时候技能缺失，并不知道如何编写优雅的代码。

四、如何 “还债”？

技术债可视化

尽可能公开技术债，一开始就与团队，利益相关方一起权衡利弊，并明确告知影响与解决方案。平等沟通，相互理解。让技术债在业务层面、技术层面可见。

可以在组织资产负债表的财产债中新增两列：短期技术债和长期技术债。还可以用用跟踪开发速率的方式体现技术债对于产品的影响。

不同的债要对症下药

技术债的状态可以分类为偶然技术债、已知技术债和目标技术债。

偿还技术债时应遵循如下原则：

1）确定已知技术债必须还。

2）发现偶然技术债，立即还。

3）每个冲刺确定一定数量的已知技术债作为目标技术债，在当前冲刺中偿还。

4）无需偿还的技术债是行将就木的产品、一次性原型和短命产品。

五、如何避免 “欠债”

与其后期吭哧吭哧还债填坑，不如从一开始就尽量避免欠下技术债务。

避免使用过时的技术

遗留应用程序、过时的技术以及不同的平台和流程可能会使组织陷入沉重的技术债务，迫使其推迟基本的现代化计划。DNS 和流量管理技术提供商 NS1 的联合创始人兼首席执行官 Kris Beevers 说：“技术债务将大量金钱和宝贵的时间浪费在系统和应用程序上，而这些系统和应用程序并不是为现代企业所需的规模和速度而打造的。”

旧资产和老方法也往往充斥着安全漏洞，难以集成和自动化，并且很可能不再更新。 Beevers 指出：“寻找人才来管理基于复杂或过时的代码构建的遗留应用程序也是一个日益严峻的难题。坚持采用过时技术不仅会消耗宝贵的预算，而且还会阻碍公司创新和保持竞争力的能力。”

参考敏捷实践

有越来越多的组织渐渐接受敏捷软件开发，这是将方法交给协作、自行组织的团队和跨职能团队的一系列方法和实践。如果这种方法得到严格应用，敏捷开发使组织可以避免技术债务，其方法是快速且以迭代的方式创建和发布新产品。Dodd 说：“这一过程将新产品和新功能尽快并逐步地交到用户手中。” 随着新版本的交付，各种改进和问题都得到了解决，这使技术债务的积累不太可能产生。

敏捷方法认识到项目在生命周期中从未真正完成过，并且也从来都不是完美的。“同时，敏捷方法专注于…… 针对能力和质量的简化了的开发”，Dodd 说。重要功能往往要频繁地开发，测试并投入生产。敏捷团队可能不会发布软件的 “全面（Big Bang）” 方法，而是每年发布几次重大升级。Dodd 指出：“这可以使产品保持相当平稳的发展，还可以帮助用户避免重大的中断事件。”

关于设计模式

Sun, 01 Oct 2023 00:00:00 +0000

【策略模式】（Strategy Pattern）

其中的Context是一个所谓的“上下文”，不一定非得是个类，也可以只是一个函数/方法。最关键的是，我们其实根本不需要ConcreteStrategyX类，也不需要它们的对象。我们要的只是一个execute函数而已，我们甚至连execute这个函数名都不需要，只要能执行它就行。

看看函数式编程是怎么玩的（这里以大家都熟悉的JavaScript为例）：

function context(func) {
  // 做些什么...
  var result = func()  // 有需要的话可以传参
  // 再做些什么...
}

context(function() {
  // 做些什么...
  return 123  // 是否需要返回值看需求
})

一个匿名函数参数func搞定。

Java能搞出这种类图来，全都是因为Java没有一等公民的函数，所以函数必须依附于类（静态方法）或者对象（非静态方法）。而玩静态方法又没法玩多态，而且类不能当成参数传递给其他函数/方法，所以只能用对象携带方法。而对象的方法必须有个名称，为了统一，就叫execute。由于需要多态，所以我们必须提一个接口出来，在接口里声明execute的方法签名。所有这一切说白了都是为了讨好Java编译器，否则它会给你颜色（red）看。

当然，自从Java有了函数式接口和lambda后一定程度上也能玩函数式编程了。

【观察者模式】（Observer Pattern）

这个在JS里大家已经熟悉到不能再熟悉了：

someButton.onclick = function(event) {
  // 处理点击事件
}

又是一个匿名函数搞定！上图里的Subject#attach在这里就是直接赋值。Subject#detach就是赋空值。Subject#notify就是调用一下匿名函数而已。而Observer#update就是匿名函数本身。

【访问者模式】（Visitor Pattern）

能整成这样我也是服了。说白了不就是访问者需要判断一下元素类型嘛。直接套用策略模式，在匿名函数里if-else一下不就行了？（当然还有其他方式，比如引入一个工厂。有模式匹配的函数式编程语言如Haskell、Erlang、Elixir等玩起来更简单）。

【装饰器模式】（Decorator Pattern）

这才是函数式编程的魅力所在！

function core1(arg1, arg2) {
  // 做些啥
  return 123
}

function core2(arg) {
  // 做些啥
  return 456
}

function decorate(core) {
  // 做些准备工作
  return function() {
    // 做些啥，甚至可以改变参数
    var ret = core(...arguments)
    // 做些啥，甚至可以改变返回值
    return ret
  }
}

var decorated1 = decorate(core1)
var decorated2 = decorate(core2)

酷吧？又是匿名函数搞定！只不过这次的匿名函数是返回值。

阿里编程规约

Sun, 20 Aug 2023 00:00:00 +0000

命名风格

【强制】抽象类命名使用 Abstract 或 Base 开头; 异常类命名使用 Exception 结尾; 测试类命名以它要测试的类的名称开始，以 Test 结尾。
【强制】POJO 类中布尔类型变量都不要加 is 前缀，否则部分框架解析会引起序列化错误。
【强制】包名统一使用小写，点分隔符之间有且仅有一个自然语义的英语单词。包名统一使用单数形式，但是类名如果有复数含义，类名可以使用复数形式。

正例: 应用工具类包名为 com.alibaba.ai.util、类名为 MessageUtils

【推荐】在常量与变量的命名时，表示类型的名词放在词尾，以提升辨识度。

正例: startTime / workQueue / nameList / TERMINATED_THREAD_COUNT

17.【参考】枚举类名带上 Enum 后缀，枚举成员名称需要全大写，单词间用下划线隔开。

B) 领域模型命名规约

数据对象: xxxDO，xxx 即为数据表名。
数据传输对象: xxxDTO，xxx 为业务领域相关的名称。
展示对象: xxxVO，xxx 一般为网页名称。
POJO 是 DO/DTO/BO/VO 的统称，禁止命名成 xxxPOJO。

常量定义

【推荐】不要使用一个常量类维护所有常量，要按常量功能进行归类，分开维护。
【推荐】如果变量值仅在一个固定范围内变化用 enum 类型来定义。

SPRING(1), SUMMER(2), AUTUMN(3), WINTER(4);

代码格式

【强制】采用 4 个空格缩进，禁止使用 tab 字符。

IDEA 设置 tab 为 4 个空格时，请勿勾选 Use tab character

OneData数据仓库架构

Sun, 05 Mar 2023 00:00:00 +0000

**1.**什么是 onedata

面对爆炸式增长的数据，如何建设高效的数据模型和体系，对这些数据进行有序和有结构地分类组织和存储，避免重复建设和数据不一致性，保证数据的规范性，一直是大数据系统建设不断追求的方向。OneData 即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下，构建统一、规范、可共享的全域数据体系，避免数据的冗余和重复建设，规避数据烟囱和不一致性，充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系，我们构建了阿里巴巴的数据公共层，并可以帮助相似的大数据项目快速落地实现。

**2.**指导思想

阿里巴巴集团数据公共层设计理念遵循维度建模思想，可参考 StarSchema-The Complete Reference 和 The Data Warehouse Toolkit-The Definitive Guide to Dimensional Modeling。数据模型的维度设计主要以维度建模理论为基础，基于维度数据模型总线架构，构建一致性的维度和事实。其核心的实施指导方针如下：

首先，要进行充分的业务调研和需求分析。

其次，进行数据总体架构设计，主要是根据数据域对数据进行划分；按照维度建模理论，构建总线矩阵，抽象出业务过程和维度。

再次，对报表需求进行抽象整理出相关指标体系，使用 One Data 工具完成指标规范定义和模型设计。

最后，是代码研发和运维。其实施流程主要分为：数据调研、架构设计、规范定义和模型设计。

**3.**业务调研

业务调研：需要确认要规划进数仓的业务领域，以及各业务领域包含的功能模块，以阿里的业务为例，可规划如下矩阵

需求调研：了解需求方关系哪些指标？需要哪些维度、度量？数据是否沉淀到汇总层等。

可以想象一下，在没有考虑分析师、业务运营人员的数据需求的情况下，根据业务调研建设的数据仓库无疑等于闭门造车。了解了业务系统的业务后并不代表就可以进行实施了，此刻要做的就是收集数据使用者的需求，可以去找分析师、业务运营人员了解他们有什么数据诉求，此时更多的就是报表需求。

需求调研的途径有两种:一是根据与分析师、业务运营人员的沟通(邮件、IM)获知需求；二是对报表系统中现有的报表进行研究分析。通过需求调研分析后，就清楚数据要做成什么样的。很多时候，都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据，这两者并没有严格的先后顺序。

举例：分析师需要了解大淘宝(淘宝、天猫、天猫国际)一级类目的成交金额。当获知这个需求后，我们要分析根据什么(维度)汇总，以及汇总什么(度量)，这里类目是维度，金额是度量；明细数据和汇总数据应该怎样设计?这是一个公用的报表吗?是需要沉淀到汇总表里面，还是在报表工具中进行汇总?

**4.**架构设计

4.1 数据域的划分

数据域是指面向业务分析，将业务过程或者维度进行抽象的集合，一般数据域和应用系统(功能模块)有联系，可以考虑将同一个功能模块系统的业务过程划分到一个数据域。业务过程可以概括为一个个不可拆分的行为事件，如下单、支付、退款。为保障整个体系的生命力，数据域需要抽象提炼，并且长期维护和更新，但不轻易变动。在划分数据域时，既能涵盖当前所有的业务需求，又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。如表所示是功能模块/业务线的业务动作(部分示例)：

根据业务过程进行归纳，可以抽象出如下数据域：

4.2 构建总线矩阵

在进行充分的业务调研和需求调研后，就要构建总线矩阵了，需要做两件事情：

1.明确每个数据域下有哪些业务过程。

2.业务过程与哪些维度相关，并通过总线矩阵定义每个数据域下的业务过程和维度。

如下表是供应链管理业务过程示例：

4.3 规范定义

规范定义主要定义指标体系，包括原子指标、修饰词、时间周期和派生指标。

4.4 模型设计

模型设计主要包括维度及属性的规范定义，维表、明细事实表和汇总事实表的模型设计。

4.5 架构总结

One Data 的实施过程是一个高度迭代和动态的过程，一般采用螺旋式实施方法。在总体架构设计完成之后，开始根据数据域进行迭代式模型设计和评审。在架构设计、规范定义和模型设计等模型实施过程中，都会引入评审机制，以确保模型实施过程的正确性。

**5.**指标体系搭建

5.1 指标体系核心结构

Hive调优大全

Sun, 18 Sep 2022 00:00:00 +0000

调优具体细节

Hive建表设计层面

Hive 的建表设计层面调优，主要讲的怎么样合理的组织数据，方便后续的高效计算。比如建表的类型，文件存储格式，是否压缩等等。

利用分区表优化

关于 Hive 的表的类型有哪些？
1、分区表  
2、分桶表

分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局数据，使得处理的数据量大大减少，从而提高查询效率。

也就是说：当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那么非常适合创建为分区表，该字段即为分区字段。

select1:  select ....  where country = "china"
select2:  select ....  where country = "china"
select3:  select ....  where country = "china"
select4:  select ....  where country = "china"
.....

分门别类：这个city字段的每个值，就单独形成为一个分区。其实每个分区就对应带HDFS的一个目录

在创建表时通过启用 partitioned by 实现，用来 partition 的维度并不是实际数据的某一列，具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用 where 语句，形似 where tablename.partition_column = a 来实现。

1、创建含分区的表：

CREATE TABLE page_view(viewTime INT, userid BIGINT,
                       page_url STRING, referrer_url STRING,
                       ip STRING COMMENT 'IP Address of the User')
PARTITIONED BY(date STRING, country STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '1'
STORED AS TEXTFILE;

2、载入内容，并指定分区标志：

Hive 数仓建表该选用 ORC 还是 Parquet，压缩选 LZO 还是 Snappy

Sun, 24 Jul 2022 00:00:00 +0000

在数仓中，建议大家除了接口表（从其他数据库导入或者是最后要导出到其他数据库的表），其余表的存储格式与压缩格式保持一致。

在数仓中，建议大家除了接口表（从其他数据库导入或者是最后要导出到其他数据库的表），其余表的存储格式与压缩格式保持一致。

我们先来说一下目前 Hive 表主流的存储格式与压缩方式

从 Hive 官网得知，Apache Hive 支持 Apache Hadoop 中使用的几种熟悉的文件格式，如 TextFile（文本格式），RCFile（行列式文件），SequenceFile（二进制序列化文件），AVRO，ORC（优化的行列式文件）和Parquet 格式，而这其中我们目前使用最多的是TextFile，SequenceFile，ORC和Parquet。

下面来详细了解下这 2 种行列式存储。

1、ORC

1.1 ORC 的存储结构

我们先从官网上拿到 ORC 的存储模型图

看起来略微有点复杂，那我们稍微简化一下，我画了一个简单的图来说明一下

但是由于索引的高成本，在**「目前的 Hive3.X 中，已经废除了索引」**，当然也早就引入了列式存储。

列式存储的存储方式，是按照一列一列存储的，如上图中的右图，这样的话如果查询一个字段的数据，就等于是索引查询，效率高。但是如果需要查全表，它因为需要分别取所有的列最后汇总，反而更占用资源。于是 ORC 行列式存储出现了。

在需要全表扫描时，可以按照行组读取
如果需要取列数据，在行组的基础上，读取指定的列，而不需要所有行组内所有行的数据和一行内所有字段的数据。

了解了 ORC 存储的基本逻辑后，我们再来看看它的存储模型图。

同时我也把详细的文字也附在下面，大家可以对照着看看：

条带 (stripe)：ORC 文件存储数据的地方，每个 stripe 一般为 HDFS 的块大小。（包含以下 3 部分）

index data:保存了所在条带的一些统计信息,以及数据在 stripe中的位置索引信息。
rows data:数据存储的地方,由多个行组构成，每10000行构成一个行组，数据以流( stream)的形式进行存储。
stripe footer:保存数据所在的文件目录

文件脚注 (file footer)：包含了文件中 sipe 的列表, 每个 stripe 的行数, 以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。
postscript：含有压缩参数和压缩大小相关的信息

所以其实发现，ORC 提供了 3 级索引，文件级、条带级、行组级，所以在查询的时候，利用这些索引可以规避大部分不满足查询条件的文件和数据块。

CDH角色划分

Sun, 15 May 2022 00:00:00 +0000

1. 服务器配置

主节点：

hostname: m1,m2,m3

vcore：48

内存：128G

SSD：1T（不算系统盘）

工作节点：

hostname: n1,n2,n3,n4

vcore : 48

内存：256G

SSD:1T（不算系统盘）

2. 节点职责描述

m1: 控制核心；cdh核心，hadoop主节点

m2: 网关入口；主节点高可用，一些组件的web ui，用户入口，（前期做计算任务的driver端，后期优化driver打散到各节点）

m3: 后台服务；组件元数据库，任务的history服务，（后期做元数据HA）

n1~n4: 算存一体；提供存储，计算等服务

3.角色分配策略

一、hdfs

NameNode一般在主节点上，初始化安装的时候没有高可用，所以有SecondaryNameNode的作为一个备份,NameNode它会将它拆分后进行分布式存储，其中的数据是分散在各个DataNode节点，且默认都会有3个副本，防止其中一台机器宕机使得数据缺失。balancer一般与namenode搭建在一起。

二、hive

hive metastore server与hiveServer2一般搭载一起上，但也可以分开，因为hive服务需要启动hiveServer2，访问sparksql需要启动metastore而hive gateway,事实上并不是真正的角色，也没有状态，但它们充当了告诉客户端配置应该放置在哪里。添加Hive服务时，默认情况下会创建Hive网关。

三、cloudera manager server

这个可以根据实际搭建，这个相当于是集群的监听器，在网页上出现的的图表也就是这个监听器类似的，这个可以搭建在主节点上，但若是主节点上分配的角色过多会影响其服务器的性能。

四、spark

这个角色可以分配这任意的机器上，按实际情况调整。spark-gateway全部部署在各个机器上，这个对于个人理解来说相当于spark、spark2机器之间的通信功能。

五、yarn

jobhistory与resourcemanager进行通信，所以部署上一般在同一台机器上放在主节点上，而nodemanager分配在各个节点上

六、zookeeper

这个若是机器足够一般是奇数的，所以部署在m节点上比较合适。奇数台、高可用、与管理角色共置

七、hue

会对外提供一个web ui，以便于数据分析和数据开发做即席查询。这个服务随意部署，根据自己的机器部署情况来看。

4.角色划分详情表


		控制核心	网关+入口	元数据+历史服务	存算一体
m1	m2	m3	n1	n2	n3	n4
cloudera management	Alert Publisher	✅
Event Server	✅
Host Monitor	✅
Service Monitor	✅
hdfs	NameNode	✅	✅
JournalNode	✅	✅	✅
Failover Controller	✅	✅
HttpFs		✅
DataNode				✅	✅	✅	✅
yarn	ResourceManager	✅	✅
NodeManager				✅	✅	✅	✅
JobHistory Server			✅
hive	Hive MetaStore Server			✅
HiveServer2			✅
HiveGateway	✅	✅	✅	✅	✅	✅	✅
spark	Spark History Server			✅
Spark Gateway	✅	✅	✅	✅	✅	✅	✅
impala	Impala StateStore	✅
Impala catalog Server			✅
Impala Daemon				✅	✅	✅	✅
zookeeper	zk-node	✅	✅	✅
hue	Hue Server		✅
Hue Load Balancer			✅

5. 未来升级项

work节点扩展硬盘，只需将新盘挂载到新目录/hadoop/data2或/hadoop/data3，更新hdfs配置就能完成存储扩展（支持热加入）