文書(限定公開)
単語に分割
notificationsこのカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。
概要
このブロックは、BigQueryテーブルに格納された文書を解析し、指定された品詞の種類に応じて単語列に分割します。単語列は、「結果出力先BigQueryテーブル」のwords列(STRING型のREPEATEDモード)に出力します。
対応する言語は、日本語と英語のみです。
-
「結果出力先BigQueryテーブル」は、key・words・languageの3列で構成されます。
key列 各文書を特定するユニークなキーです。 words列 文書を解析し分割された単語が列挙されます(STRING型のREPEATEDモード)。 language列 文書の言語種別を示す列です。「単語分割の対象BigQueryテーブル」のlanguage列をそのまま使用します。「単語分割の対象BigQueryテーブル」にlanguage列がなければ、この列は作られません。
- 「単語分割の対象BigQueryテーブル」にlanguage列がない場合は、文書に日本語が含まれていれば日本語文書として解析します。文書に日本語がひとつも含まれていない場合は、英語文書として解析します。
- 「結果出力先BigQueryテーブル」は、存在しなくても良いです。この場合は、指定されたテーブル名でテーブルを自動作成します。
本ブロックの結果出力は、以下各ブロックの入力として使えます。
Google APIを有効にする」を参照してください。
セルフサービスプランの場合は、このブロックを使用する前に、Dataflow APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント>プロパティ
プロパティ名 | 説明 |
---|---|
ブロック名 |
編集パネルに配置した当該ブロックの表示名が変更できます。 ブロックリストパネル中のブロック名は変更されません。 |
GCPサービスアカウント | このブロックで使用するGCPサービスアカウントを選択します。 |
単語の分割対象BigQueryデータセット |
[単語の分割対象BigQueryテーブル]プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。 warning「単語の分割対象BigQueryデータセット」・「結果出力先BigQueryデータセット」・「一時フォルダーGCS URL」のロケーションは合わせる必要があります。BigQueryのデータセットがUSマルチリージョンの場合は、この限りではありません。 |
単語の分割対象BigQueryテーブル |
単語分割したい文書が格納されているBigQueryテーブルのIDを指定します。 |
結果出力先BigQueryデータセット |
[結果出力先BigQueryテーブル]プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。 warning「単語の分割対象BigQueryデータセット」・「結果出力先BigQueryデータセット」・「一時フォルダーGCS URL」のロケーションは合わせる必要があります。BigQueryのデータセットがUSマルチリージョンの場合は、この限りではありません。 |
結果出力先BigQueryテーブル |
単語を出力するBigQueryテーブルのIDを指定します。 単語は、このBigQueryテーブルのwords列に出力します。空でないテーブルが存在する場合は、空にして上書きします。 |
一時フォルダーGCS URL |
このブロックの内部処理で一時的に使用するGCS上のフォルダーを指定します。 内部処理中に、このフォルダーに一時的なファイルが作成されますが、処理終了後は削除されます。 warning「単語の分割対象BigQueryデータセット」・「結果出力先BigQueryデータセット」・「一時フォルダーGCS URL」のロケーションは合わせる必要があります。BigQueryのデータセットがUSマルチリージョンの場合は、この限りではありません。 |
キーの列名 |
[単語分割の対象BigQueryテーブル]プロパティで指定したBigQueryテーブルにおいて、文書を特定するキー列の名前を指定します。 |
文書の列名 |
[単語分割の対象BigQueryテーブル]プロパティで指定したBigQueryテーブルにおいて、文書が格納されている列の名前を指定します。 |
品詞の種類 |
分割対象となる単語の品詞を指定します。 選択可能な品詞の種類は、以下のとおりです。
|
ブロックメモ | このブロックに関するメモが記載できます。このブロックの処理に影響しません。 |