2013年5月14日火曜日

初めてのPentaho Data Integration 6 Job

Jobはファイルを操作したり、エラー時にメールを送信したり、Transformationよりも大きな目的で使われます。また、TransformationはStepでデータが並列処理されるのに対し順々に処理される事が大きな違いです。
例えばこんな感じで使います。
処理は
  1. Set varialbesで変数を設定
  2. Transfromationでデータ処理
  3. Simple evaluationで条件分岐
  4. 条件に合わなければメールを送信
  5. 終了 
Set variables, Transformation, Mail too manyでエラーが起きればMail Alarmでメールが送信されます。

個人的に良く使うのは以下です。 詳細はSampleやCommunityを参照して下さい。
当然、扱うデータと目的に大きく依存しますので参考程度にしてください。
  • 全般
    • START : 当たり前です。 ここから処理が開始されます。
    • Job : 他のJobを呼ぶ
    • Set variables : 同じTransformationでvariableだけ変えて処理する時に使います。
    • Success :処理の最後に入れます。 入れなくても動くのですが理解しやすいように入れています。
    • Transformation :  そのまま。
  • メール
    • Mail : メール送信。
  • ファイル管理
    • Copy Files : ファイルコピー。 正規表現で複数ファイルをコピー出来ます。
    • Delete file : 1ファイルの削除
    • Delete files :  正規表現で複数ファイルを削除出来ます。
  • 条件
    • Simple evaluation : 変数や前のTransformationの結果で条件分岐
    • Wait for :  待ち。 エラーの後に1秒待って、再処理などで使います。
  • スクリプト
    • Shell :  Pentahoで出来ない処理をShellに任せます。
  • Untility
    • Write to Log :  ログを書き出します。
  • ファイル転送
    • Get a file with FTP : FTPでファイル取得。 
    • Put a file with FTP : そのままです。
大きなファイルをGet/Put FTPすると中断される場合を想定するとこんな感じのJobを使います。



0 件のコメント:

コメントを投稿