PostgreSQL Conference Europe 2022@ベルリンに参加してきた #pgconfeu

3年ぶりに開催されたPGConf.EU 2022に参加してきた!

quiver

2022.11.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

PostgreSQLのヨーロッパにおける年次イベント「PostgreSQL Conference Europe(以下PGConf.EU)」が2022年10月25日から10月28日に渡ってドイツ・ベルリンで開催されました。

地元民の地の利を活かして参加してきましたので、カンファレンスの印象やセッションについてレポートします。

PGConf.EU について

PGConf.EUはヨーロッパ最大の年次のPostgreSQLカンファレンスです。

2009年に第1回がフランス・パリで開催され、毎年異なる都市で開催されています。

直近では、2018年がポルトガル・リスボン、2019年がイタリア・ミラノで開催されたあと、2020年はドイツ・ベルリンの予定でしたが、パンデミックのために2回延期され、2022年に1106日ぶりにカンファレンスが開催されました。

カンファレンスは1日目のワークショップと2〜4日目のセッションの2部構成です。

PGConf.EUでは4名の日本人が参加し、3名(内1名はスピーカー)は日本から、私は市内からの参加(オフィスから徒歩15分)です。

なお、セッションは録画されておらず、セッションの概要とスライドのみ公開されています。

オンサイト開催

PGConf.EU 2022 は100％オンサイト会議です。

録音セッションは一つもなく、スピーカーは聴衆の反応を伺いながら話し、聴衆もセッション中に活発に質問をするため、各セッションは双方向に進みます。

参加者ともふれあえるため、対面カンファレンスのメリットを再認識できました。

なお、会場のBerlin Marriott Hotelの直ぐ側には、DB(ドイツ鉄道)の本社ビルがあります。

キーノート:Efficient Graph Analysis with SQL/PGQ

カンファレンスはPeter Bonczによるについてのキーノートで始まります。

Peter BonczはこれまでにMonetDB、Tableauに買収されたHyPer、VectorWise、DuckDBなど、アカデミックサイドから分析系データベースのアーキテクトとして活躍してきました。最近では、グラフデータベース向けのクエリー言語の標準化(SQL/PGQ(Property Graph Query))にも携わっています。

キーノート前半は、カラムナーストア、圧縮、クエリーのベクトル化など、大規模な分析データベースで重要なアイデアが触れられました。RedshiftのようなDWHに慣れた人には親しみやすいトピックです。

後半は打って変わってグラフデータのクエリー言語です。

近年は、グラフ操作の需要が高まっており、SQLでは記述が複雑なこと、クエリー言語はグラフデータベースごとに異なることから、標準化する動きがあります。

そのような背景でISOワーキンググループが標準化に取り組んでいるのが、次の2プロジェクトです

SQL/PGQ (Property Graph Queries)
GQL (Graph Query Language)

SQL/PGQはSQLを拡張したものであり、リレーショナルモデルで動作し、SQL:2023 に取り込まれる予定です。

キーノートでは SQL/PGQ を中心に

プロパティ・グラフ・モデルとは
SQLと SQL/PGQ の記述違い
RDBMSへの機能追加(特に、スピーカーが携わるDuckDBへの実装方法)

について語られました。

趣の異なる2つのトピックが1キーノートに圧縮され、特に、後半のグラフデータベースは疎いこともあり、カンファレンス1つ目のセッションから、頭がついていくのに苦労しました。

Trigger: How it Works in PostgreSQL Internals

スピーカーはIncremental View Maintenance (IVM)の実装でもおなじみ、SRAのYugo Ngataさんです。

トリガーのユースケース、作り方、インターナルを解説したあと、外部キーが内部的にはトリガーが使われていることや、より複雑なケース、INSERT ON CONFLICT、MERGE、パーティションテーブルにトリガーを使った場合などが解説される、テクニカルなセッションでした。

Q&Aでも、トランザクションでエラーが起きた時の挙動など、込み入った質問が多かったです。

PostgreSQL at GitLab.com

GitLab.comの Database Reliability チームによる事例紹介です。

GitLabはGoogle Cloud上でPostgreSQLを動かしています(96 vCPUS, 624 GB RAMのVM)。

ピーク時は、プライマリノードのRead/Wwriteは 60K TPS、スダンドバイノードのReadは300K TPS、WALは 65MB/s を誇ります。今後もスケールし、機能拡張しやすいよう、メインシステムとCIという性質の異なるワークロードでクラスターを分割するプロジェクトについての発表でした。

以下の流れでクラスターを2分割します。

(済)CI のReadを別クラスターに分ける
(済)メインとCIでWriteエンドポイントを分ける。書き込み先はメインクラスターのまま
(済)CIのWriteエンドポイントの書き込み先をCI用クラスターに向ける
(進行形)スケールダウン(今後台数を減らしたい)

本プロジェクトは、GitLabのブログで詳細にまとまっています。

クラスターを2分割したため、プロジェクト・レコードはメインクラスターにもCIクラスターにも存在します。プロジェクト削除時にはメインクラスターだけでなく、CIクラスターのレコードも削除する必要があります。

GitLabはLoose foreign keysという仕組みで解決しました。具体的には、削除にトリガーを仕込み、非同期に結果整合性でCIクラスターのレコードも削除します。具体的な仕組みは、次のドキュメントを参照下さい。

Loose foreign keys | GitLab

Distributed Postgres: How to build a multi-tenant SaaS app with Citus

マイクロソフト Azure Cosmos DB for PostgreSQL の Principal Group Product Manager である Charles Feddersen によるセッションです

セッション概要

Citus DataはPostgreSQLを分散データベース化したもので、2019年にMicrosoftに買収されました。

RDBMS、NoSQL、分散データベースという最近のデータベースの流れをさらい、分散データベースが正しくスケールする・しないパターン、例えば、シャーディングをdeterministicにすること、データのローカリティが大事で、ノードをまたぐ処理、例えば、ノードをまたいだID採番やトランザクションなどは苦手であること、などが解説されました。ノード単体で処理できるように設計すべきであり、コーディネーターはSPOFでしかありません。

「分散データベースは大規模データのためにあるというのは誤解だ」というなかなか刺激的な発言も飛び出しました。