ブロックリファレンス

BLOCKS Reference

BigQuery

GCS から単一テーブルへロード

概要

このブロックは、指定された Google Cloud Storage(GCS)上のファイル内容(複数ファイル可)を BigQuery のテーブルにロード(投入)します。

GCS から単一テーブルへロードブロックの概念図

ファイルのデータ形式は、以下いずれかのフォーマットでなければなりません。

フォーマット 説明
CSV CSV 形式のデータです。
NEWLINE_DELIMITED_JSON 改行区切りの JSON 形式データです。JSON Lines と同形式です。
DATASTORE_BACKUP Google Datastore マネージドインポートおよびエクスポートサービスを使って作成された Datastore エクスポートデータです。

プロパティ

プロパティ名 説明
ブロック名

編集パネルに配置した当該ブロックの表示名が変更できます。

ブロックリストパネル中のブロック名は変更されません。

GCP サービスアカウント

このブロックで扱う GCS と BigQuery にアクセス権がある GCP サービスアカウントを選択します。

この GCP サービスアカウントには、少なくとも GCS からの読み取りの権限と、BigQuery への書き込み権限が必要です。

投入データのファイル GCS URL

投入データの GCS 上のファイル URL(gs://バケット名/オブジェクト名 のような URL)を指定します。

gs://バケット名/オブジェクト名-*.csv のような URL も指定できます。URL 中の *(アスタリスク)の部分を長さ 0 文字以上の任意の文字列として、それに合致するファイル名のファイルをすべて読み込みます。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
投入先のデータセット

投入先のデータセット ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
投入先のテーブル

投入先のテーブル ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
スキーマ設定をデータから自動生成する

投入データのファイル形式が、ヘッダー付きの CSV ファイルもしくは JSON ファイルの場合、そのファイル内容からスキーマ (テーブルの構造)の自動生成ができます。

スキーマを自動生成する場合は、チェックボックスにチェックを付けます。

自動生成を有効にし投入データのファイル形式が CSV の場合は、[読み飛ばし行数]プロパティに 1 が指定されたものとして扱います。ただし、[読み飛ばし行数]プロパティに値を直接指定した場合は、その値が使用されます。

スキーマの指定が複数ある場合は、以下の優先順位でスキーマが決定します。

  1. スキーマ設定をデータから自動生成するプロパティ
  2. スキーマ定義ファイルプロパティ
  3. スキーマ設定プロパティ
スキーマ設定

投入先テーブルのスキーマを指定します。JSON 形式のファイルから読み込む場合は、省略可能です。

※[JSON で編集]リンクをクリックすると、JSON 形式の文字列を直接指定できます。

画面上には表示されませんが、description キーが自動で追加されます。JSON で編集の場合は、description キーは表示され編集も可能です。

スキーマの指定が複数ある場合は、以下の優先順位でスキーマが決定します。

  1. スキーマ設定をデータから自動生成するプロパティ
  2. スキーマ定義ファイルプロパティ
  3. スキーマ設定プロパティ

info_outline 使い方は、基本操作ガイドの「スキーマ設定プロパティの使い方」を参照願います。

スキーマ定義ファイル

GCS 上の JSON 形式のスキーマ定義ファイルを使ってスキーマを定義します。

このプロパティには、スキーマ定義ファイルへの GCS URL を指定します。

JSON 形式のスキーマ定義ファイルの内容については、Google のドキュメント を参照願います。

スキーマの指定が複数ある場合は、以下の優先順位でスキーマが決定します。

  1. スキーマ設定をデータから自動生成するプロパティ
  2. スキーマ定義ファイルプロパティ
  3. スキーマ設定プロパティ
変数展開の指定が可能][% 形式の文字列書式の指定が可能]

空でないテーブルが存在したとき

投入先のテーブルが存在したときの動作を選択します。

  • 追加: データを追加で読み込みます。
  • 上書き: テーブルを空にしてから読み込みます。
  • エラー: テーブルが空でなければ失敗となります。
ブロックメモ このブロックに関するメモが記載できます。このブロックの処理に影響しません。
ファイル形式

GCS 上のファイルの形式を選択します。選択できるフォーマットは次のいずれかです。

  • CSV
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
CSV の区切り文字

ファイル形式]プロパティ値が CSV の場合の区切り文字を選択もしくは指定します。選択できる区切り文字は以下のいずれかです。

  • カンマ
  • タブ
  • パイプ
  • その他

その他]を選択した場合は、[その他]の入力フィールドに、区切り文字を 1 文字で指定します。

読み飛ばし行数 ファイル形式]プロパティ値が CSV の場合、先頭何行を読み飛ばすかの行数を指定します。
フィールド数が足りない行を許容する ファイル形式]プロパティ値が CSV の場合、フィールド数が足りない行を許容するかしないかを選択します。
クオート記号を指定 ファイル形式]プロパティ値が CSV の場合のクオート記号を指定します。
クオートされた文字列に改行を含む ファイル形式]プロパティ値が CSV の場合、クオートされた文字列に改行が含まれることを許容するかしないかを指定します。
不正な行の許容数 不正なレコードの許容数を指定します。このレコード数を超える不正なレコードがあると読み込み失敗となります。
余分なフィールドを無視する 余分なフィールドを無視するかしないかを指定します。
ファイルの存在チェック URL

このプロパティを使用すると、指定したファイルが存在するときのみ、本ブロックを実行します。ファイルは、GCS URL で指定します(gs://my-bucket/item.csv のような形式)。

空欄の場合は、無条件に本ブロックを実行します。

ここで指定したファイルは、本ブロックの正常終了時に削除されます。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
チェック回数 ファイルの存在チェックの最大試行回数を指定します。
チェック間隔 ファイルの存在チェックで、ファイルが存在しないときに、再度ファイルの存在チェックを繰り返すまでの時間を秒単位で指定します。

この情報は役に立ちましたか?