速查 | LeoChu Space

sqoop提交参数解析

/opt/cloudera/parcels/CDH/lib/sqoop/bin/sqoop import \ --connect jdbc:[mysql://ip:port/T_Cloud_Promote](mysql://ipport) \ --username rt_center \ --password pwd\ --query "select KeywordID,KeyType,Root,KeywordName,UID,Status,AddDate,UpdateDate,MigrateOID,PromotionStatus,WordType,IsEmphasis,KeywordLength,IsViolate,ViolateWord from T_Cloud_Promote.T_Cloud_User_KeywordLibrary where KeywordID < $[a+10000000] AND KeywordID >= ${a} AND AddDate != '0000-00-00 00:00:00' AND \$CONDITIONS" \ --fields-terminated-by '\001' \ --target-dir /tmp/t_cloud_order \ --delete-target-dir \ --hive-import \ --hive-database T_Cloud_Promote \ --hive-table ods_t_cloud_user_keywordlibraryb_tmp_01 \ --null-string '\\N' \ --null-non-string '\\N' \ --hive-drop-import-delims \ --num-mappers 5 \ --split-by KeywordID \ --hive-overwrite –connect mysql连接 –username 用户名 –password 密码 –query 条件查询语句 –fields-terminated-by 分隔符 –target-dir 临时存放位置 –delete-target-dir \ 程序结束删除文件夹 –hive-import \ 导入到hive –hive-database T_Cloud_Promote \ hive的数据库 –hive-table hive表 –null-string ‘\N’ \ –null-non-string ‘\N’ \ 转换为hive空 ...

spark提交参数

spark-submit --master yarn --conf spark.default.parallelism=100 \ --deploy-mode cluster --driver-memory 4G --executor-memory 4G \ --num-executors 40 --executor-cores 3 \ --conf spark.yarn.executor.memoryOverhead=5g \ --class com.lz.hbase.CompanyInfo /tmp/test_langzi/original-spark_hbase01-1.0-SNAPSHOT.jar \ --conf spark.dynamicAllocation.maxExecutors=40

presto

presto操作hive presto-cli --server 172.16.98.183:8050 --catalog hive

Kafka 常见的脚本汇总

命令行脚本概览 Kafka 默认提供了很多个命令行脚本，用于实现各种各样的功能和运维管理。今天我以 2.2 版本为例，详细地盘点下这些命令行工具。下图展示了 2.2 版本提供的所有命令行脚本。从图中我们可以知道，2.2 版本总共提供了 30 个 SHELL 脚本。图中的 windows 实际上是个子目录，里面保存了 Windows 平台下的 BAT 批处理文件。其他的. sh 文件则是 Linux 平台下的标准 SHELL 脚本。默认情况下，不加任何参数或携带 –help 运行 SHELL 文件，会得到该脚本的使用方法说明。下面这张图片展示了 kafka-log-dirs 脚本的调用方法。有了这些基础的了解，我来逐一地说明这些脚本的用途，然后再给你详细地介绍一些常见的脚本。我们先来说说 connect-standalone 和 connect-distributed 两个脚本。这两个脚本是 Kafka Connect 组件的启动脚本。在专栏第 4 讲谈到 Kafka 生态时，我曾说过社区提供了 Kafka Connect 组件，用于实现 Kafka 与外部世界系统之间的数据传输。Kafka Connect 支持单节点的 Standalone 模式，也支持多节点的 Distributed 模式。这两个脚本分别是这两种模式下的启动脚本。鉴于 Kafka Connect 不在我们的讨论范围之内，我就不展开讲了。接下来是 kafka-acls 脚本。它是用于设置 Kafka 权限的，比如设置哪些用户可以访问 Kafka 的哪些主题之类的权限。在专栏后面，我会专门来讲 Kafka 安全设置的内容，到时候我们再细聊这个脚本。 ...

Hive常用参数语句

1.动态分区 SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions=100000; SET hive.exec.max.dynamic.partitions.pernode=100000; SET hive.exec.max.created.files=100000; 2.union all并发执行 --在使用union all的时候，系统资源足够的情况下，为了加快hive处理速度，可以设置如下参数实现并发执行 set mapred.job.priority=VERY_HIGH; set hive.exec.parallel=true; 3.设置map reduce个数 -- 设置map capacity set mapred.job.map.capacity=2000; set mapred.job.reduce.capacity=2000; -- 设置每个reduce的大小 set hive.exec.reducers.bytes.per.reducer=500000000; -- 直接设置个数 set mapred.reduce.tasks = 15; 4.文件合并 -- 设置文件合并 set abaci.is.dag.job=false; set hive.merge.mapredfiles=true; set mapred.combine.input.format.local.only=false; set hive.merge.smallfiles.avgsize=100000000; -- 在map only的情况下，如上的参数如果没有生效，可以设置如下 -- 在HQL的最外层增加distribute by rand() select * from XXX distribute by rand() 5.设置任务名称 -- 设置名称 set mapred.job.name=${my_job}; 6.设置引擎和指定队列 set hive.execution.engine=mr; set mapreduce.job.queuename=bigdata;

Hive-mongo导入导出

1.MongoDB拉出到hive # 导入mongodb的包到hadoop add jar /var/lib/hadoop-hdfs/bin/hive_mongoDB/mongo-hadoop-core-2.0.2.jar; add jar /var/lib/hadoop-hdfs/bin/hive_mongoDB/mongo-hadoop-hive-2.0.2.jar; add jar /var/lib/hadoop-hdfs/bin/hive_mongoDB/mongo-java-driver-3.12.8.jar; set mongo.input.split.create_input_splits=false; DROP TABLE IF EXISTS ods.ods_ex_trade_mdb_wmb_rocket_waimao_company_info_mapping; drop table ods.ods_zxk_annualBusiness_mapping; create external table ods.ods_zxk_annualBusiness_mapping( `_id` string, companyName string, Tel string )STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler' WITH SERDEPROPERTIES('mongo.columns.mapping'='{"_id":"_id","companyName":"companyName","Tel":"Tel"}') TBLPROPERTIES('mongo.uri'='mongodb://username:password@172.16.98.159:21000/annualReport.annualBusiness?authSource=admin');

hadoop默认端口

端口用途 9000 fs.defaultFS，如：hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address，DataNode会连接这个端口 50070 dfs.namenode.http-address 50470 dfs.namenode.https-address 50100 dfs.namenode.backup.address 50105 dfs.namenode.backup.http-address 50090 dfs.namenode.secondary.http-address，如：172.25.39.166:50090 50091 dfs.namenode.secondary.https-address，如：172.25.39.166:50091 50020 dfs.datanode.ipc.address 50075 dfs.datanode.http.address 50475 dfs.datanode.https.address 50010 dfs.datanode.address，DataNode的数据传输端口 8480 dfs.journalnode.rpc-address 8481 dfs.journalnode.https-address 8032 yarn.resourcemanager.address 8088 yarn.resourcemanager.webapp.address，YARN的http端口 8090 yarn.resourcemanager.webapp.https.address 8030 yarn.resourcemanager.scheduler.address 8031 yarn.resourcemanager.resource-tracker.address 8033 yarn.resourcemanager.admin.address 8042 yarn.nodemanager.webapp.address 8040 yarn.nodemanager.localizer.address 8188 yarn.timeline-service.webapp.address 10020 mapreduce.jobhistory.address 19888 mapreduce.jobhistory.webapp.address 2888 ZooKeeper，如果是Leader，用来监听Follower的连接 3888 ZooKeeper，用于Leader选举 2181 ZooKeeper，用来监听客户端的连接 60010 hbase.master.info.port，HMaster的http端口 60000 hbase.master.port，HMaster的RPC端口 60030 hbase.regionserver.info.port，HRegionServer的http端口 60020 hbase.regionserver.port，HRegionServer的RPC端口 8080 hbase.rest.port，HBase REST server的端口 10000 hive.server2.thrift.port 9083 hive.metastore.uris

beeline导出数据

beeline -n chutianyu -p chutianyu –showHeader=false –outputformat=csv2 -e “select * from smp.india_imp_json_test2mongo ;” > india_imp_test1.json

大数据常用命令

Linux（vi/vim）一般模式语法功能描述 yy 复制光标当前一行 y数字y 复制一段（从第几行到第几行） p 箭头移动到目的行粘贴 u 撤销上一步 dd 删除光标当前行 d数字d 删除光标（含）后多少行 x 删除一个字母，相当于del X 删除一个字母，相当于Backspace yw 复制一个词 dw 删除一个词 shift+^ 移动到行头 shift+$ 移动到行尾 1+shift+g 移动到页头，数字 shift+g 移动到页尾数字N+shift+g 移动到目标行编辑模式按键功能 i 当前光标前 a 当前光标后 o 当前光标行的下一行 I 光标所在行最前 A 光标所在行最后 O 当前光标行的上一行指令模式命令功能 :w 保存 :q 退出 :! 强制执行 /要查找的词 n 查找下一个，N 往上查找 ? 要查找的词 n是查找上一个，shift+n是往下查找 :set nu 显示行号 :set nonu 关闭行号压缩和解压 gzip/gunzip 压缩（1）只能压缩文件不能压缩目录 ...