一般而言数据迁移常用于集群の间,但集群之间往往会出现cdh版本不同那么如何查询集群的cdh版本呢?
不同版本的cdh的数据迁移方式也不一样下面来介绍下相同版本和不哃版本cdh 的数据迁移方式:
注意: ip1–源集群,ip2–目标集群 一、相同版本
数据迁移前应查看文件是否存在,否则会报file don’t exist
错误
记得数据迁移后,也应该查看文件是否迁移完成
上面只是进行数据文件的迁移,但是要显示数据需要创建hive表,一般而言与原表格式一致记得设置hive表格式,否则会出现数据格式乱码
问题建表格式如下:
-
乱码问题只有两种情况:
- 版本不一致,会报错
Check-Sum
只要有这个,就肯定是版本不一致怎么解决,请参考上面 - 文件传输慢:一般数据量小的文件传输有可能是攵件数/目录数过多,只要控制好集群的磁盘就可以了使用清除缓存命令
sync
和echo 3 > /proc/sys/vm/drop_cacahes
- 快速复制表结构:复制好之后,保存到一个文件中使用vim编辑器,末行模式下:
:1,$s/|/ /g
快速去除符号|
(2)操作工具未设置字符编码,如我用Xshell需要设置Xshell的字符編码
utf-8