目次
Glueとは
AWSのGlueは、ETL(Extract, Transform, Load)サービスの機能を持っています。
ETLとは、異なるデータソースからデータを抽出して変換し、別のデータストアにロードします。
Amazon S3やRDS、Redshift、DynamoDBなど、様々なデータソースにアクセスでき、異なる形式のデータ(CSV、JSON)も処理できます。
ビッグデータの処理やデータウェアハウスの構築など、データ関連の課題を解決するために設計されたサービスです。
ジョブを作成する
1.検索入力欄で「Glue」と入力し、表示された「Glue」をクリックします。
2.「ETL jobs」をクリックします。
3.「 script editor」をクリックします。
4.ダイアログが表示されるのでEngineはPython shell、OptionsはStart freshを選択します。
Create scriptをクリックします。
4.ジョブ名を入力します。(test-hello)
Scriptのタブをクリックし、コードを入力します。
コード
import sys
print("hello world")
5.Job detailsをクリックします。
6.IAM Roleはそのままで大丈夫です。Pythonはバージョンを選択できます。
※デフォルトのままで問題ありません。
7.Advanced propertiesではファイル名の入力が可能です。デフォルトはJob名が入っています。
同名のファイルが既に存在している場合はSaveクリックときにエラーになります。
8.Saveボタンをクリックします。
9.問題ない場合Runボタンが押せるようになります。
ジョブを実行する
1.画面右側のRunボタンをクリックします。
2.Runsタブをクリックします。ジョブが成功するとRun statusがSucceededになります。
3.右下にある「Output logs」をクリックします。
4.hello worldの文字が表示されます。
再度ジョブを実行する
1.「ETL jobs」をクリックします。
2.ジョブにチェックを入れ、右にある「Run job」をクリックすると再度ジョブが実行されます。
関連の記事