大数据学习系列之 Sqoop导出

1、 通用参数

  • –connect,同导入
  • –username,同导入
  • –password,同导入

2、导出控制参数

  • –columnsclass_id,class_name,teacher注意:没有被包含在–columns后面(例如class_month,last_mod_ts)的这些列名或字段要么具备默认值,要么就允许插入空值,数据库会拒绝接受sqoop导出的数据,导致Sqoop作业失败
  • –export-dir,导出目录,在执行导出的时候,必须指定这个参数,同时需要具备–table–call参数两者之一,–table是指的导出数据库当中对应的表,–call是指的某个存储过程
  • –input-null-string、–input-null-non-string,这两参数是可选,如果没有指定第一个参数,对于字符串类型的列来说,“NULL”这个字符串就回被翻译成空值,如果没有使用第二个参数,无论是“NULL”字符串还是说空字符串也好,对于非字符串类型的字段来说,这两个类型的空串都会被翻译成空值

3、全表导出

sqoop export --connect jdbc:mysql://bigdata:3306/sqooptest --username root --password 123456 --table bigdata2 --export-dir /user/root/bigdata/

4、更新导出

  • –update-key,更新标识,即根据某个字段进行更新,例如class_id,可以指定多个更新标识的,用逗号分隔
  • –updatemod,有两种模式,一种是updateonly(默认模式),仅仅更新已存在的数据记录,不会插入新纪录,另一种模式是allowinsert,允许插入新纪录

Sqoop的Export工具,对应两种语句,一种是Insert语句,如果表当中存在PK约束,且表中已包含数据,此时,导出报错。此时需要用到—update-keyupdatemod

如果指定了update-key,那么Sqoop就会修改在数据表中已存在的数据,此时的每一个更行数据记录都会变成一个Update语句,用这个语句去更新目标表中已存在的数据,这是根据 –update-key所指定的这个列进行更新的。Update set teacher="kelvin" where class_id = 1

  1. update-key所指定的字段不是PK字段,若同时updatemod使用updateonly模式时,就仅进行更新,若updatemod使allowinsert模式,那么实质上就是一个insert操作
  2. 若update-key所指定的字段是PK字段,同时updatemod是allowinsert时,实质上是一个insert &
    update的操作,若updatemodupdateonly时,实质仅为update操作

示例:

# updateonly example
sqoop export --connect jdbc:mysql://bigdata:3306/sqooptest --username root --password 123456 --table bigdata2 --export-dir /user/root/bigdata/ --update-key class_id --update-mode updateonly

# allowinsert example
sqoop export --connect jdbc:mysql://centos:3306/sqooptest --username root --password 123456 --table bigdata2 --export-dir /user/root/bigdata/ --update-key class_id --update-mode allowinsert

添加新评论

top