2013年2月28日木曜日

初めてのPentaho Data Integration

使い方が分からないと言われる事が続いたのでPentaho Data Integration 4.4.0の簡単な使い方を説明します。
  1. 先ずは何はともあれここからダウンロード。 今回はUnix/Linuxとも同じコードを使うようにpdi-ce-4.4.0-stable.tar.gzにしました。 
  2. 7-Zipなどでお好きな所に解凍して下さい。 例えばC:\Program Files\Pentaho\data-integration-4.4.0とか。
  3. 解凍した場所に出来たspoon.batをダブルクリック。 環境によってはset-pentaho-env.batを先ずダブルクリックしないといけないかも知れません。
  4. 取り敢えず、Repositoryを使わないでCancelする。

  5. 今日のヒントを教えてくれるので読みたかったら読んでから閉じる。
  6.  ファイル - 新規作成 - データ変換 と選択して新しいファイルを作成する。
  7.  入力 / CVS file inputを「デザイン」からドラッグ
  8. CVS file inputをダブルクリックしてファイル名を選択する。
  9. フィールドを取得して入力列を定義する。
    • ファイルの先頭を読み込んで入力列のデータタイプ、書式、精度を自動的に設定する。 読み込む行数は図のサンプルサイズで決定します。
    • フィールド区切りをカンマからタブに変えるにはタブの挿入ボタンを押す。
    • ここでプレビューする事も出来ます。
  10. 出力 / Text file outputをドラッグ
  11. シフトを押しながらCSV file inputからText file outputまでドラッグして連結します。
  12. Text file outputをダブルクリックして出力ステップを定義
    •  フィールドタブで出力列を設定します。ここでフィールドの取得ボタンを押すと自動的に前のステップから引き継いだ列を全て定義出来ます。
    • ファイルに出力する場合は文字列に精度を入れていると空白で埋められますので最小桁数にするボタンを押した方が良いでしょう。


  13. 実行!
  14. 設定画面が出ますが今は無視して実行して下さい。

動画にもしてみました。
http://www.youtube.com/watch?v=gdYXtXnGvAQ

0 件のコメント:

コメントを投稿