Redshiftの新しいデータ型「VARBYTE」型がサポートされました

2021.12.09

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは！DA(データアナリティクス)事業本部サービスソリューション部の大高です。

先日、Redshiftの新しいデータ型「VARBYTE」型のサポートがアナウンスされていましたので、こちらをご紹介したいと思います。

利用可能なリージョン

すべてのリージョンで利用することができます。

わたしもこれまで利用したことがなく、具体的に良いユースケースが思いつかないのですが「可変長のバイナリ文字列を格納および表現する可変長データ型」として利用できるデータ型となります。

ドキュメントに記載されているとおり、例えば文字列abcをVARBYTE型にすると616263となります。

select 'abc'::varbyte;
                      
 varbyte
---------
 616263

VARBYTE型はVARBYTE(n)のように明示的にサイズを指定して定義することも可能で、デフォルトでは64KB、最大1MBを指定できます。つまり、VARBYTE(1)からVARBYTE(1024000)まで指定可能となっています。

2021年12月現在では、ドキュメントに記載のとおり、以下の制約事項があります。

Amazon Redshift Spectrumは、VARBYTEデータ型をサポートしていません。したがって、VARBYTE列を使用して外部テーブルを作成または変更することはできません。
AmazonRedshiftクエリエディターとAmazon Redshiftクエリエディターv2は、VARBYTEデータ型をまだ完全にはサポートしていません。したがって、VARBYTE式を操作するときは、別のSQLクライアントを使用してください。
クエリエディタを使用するための回避策として、データの長さが64KB未満でコンテンツが有効なUTF-8である場合、次のようにVARBYTE値をVARCHARにキャストできます。

select to_varbyte('6162', 'hex')::varchar;

PythonまたはLambdaユーザー定義関数（UDF）でVARBYTEデータ型を使用することはできません。
VARBYTE列をAmazon Redshiftテーブルのソートキーまたは分散キーとして使用することはできません。
VARBYTE列からHLLSKETCH列を作成したり、VARBYTE列に対してAPPROXIMATE、COUNT、DISTINCT関数を使用したりすることはできません。

実際に少し試してみました。クエリエディタで試したので、今回はターミナルで文字列を16進数にしてからクエリで元に戻してみます。

まずは16進数を以下のようなコマンドで取得します。

$ echo "classmethod" | xxd -p
636c6173736d6574686f640a

$ echo "クラスメソッド" | xxd -p
e382afe383a9e382b9e383a1e382bde38383e383890a

なお、最後の0aは改行コードなので、実際には0aを削ったものをクエリで利用します。

クエリとしては、以下のようなクエリで試してみました。

SELECT TO_VARBYTE('636c6173736d6574686f64', 'hex')::VARCHAR;
                      
 to_varbyte
---------
 classmethod

SELECT TO_VARBYTE('e382afe383a9e382b9e383a1e382bde38383e38389', 'hex')::VARCHAR;
                      
 to_varbyte
---------
 クラスメソッド

想定通りになりましたね！

以上、Redshiftの新しいデータ型「VARBYTE」型の紹介でした。

re:Inventの後も新しいリリース情報が入ってきてワクワクしますね。

どなたかのお役に立てば幸いです。それでは！