OSSデータカタログAmundsenにOracleのメタデータをロードしてみた

2021.09.21

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どーもsutoです。

登録したデータに対し、「Google検索」のようにデータの検索ができるLyft社製のOSSデータカタログAmundsenというデータ検出およびメタデータエンジンがあります。

これまでにRedshift、Glueのテーブルをロードを検証してきました。

今回はEC2上にセットアップしたAmundsenに、Oracleのテーブルメタデータを読み込んでみました。

AmundsenをEC2にセットアップ

  

※セットアップは上記2件の記事と同じ手順ですので、既にAmundsenを起動している場合はスキップしてください。

本記事ではAmazon Linux2にAmundsenをセットアップしていきます。

以下の参考記事ではローカルPC(Mac)の手順やUbuntu on EC2でAthenaテーブルを読み込む手順がありますので参考に。

まずはEC2インスタンスを作成します。作成するインスタンスは主に以下のようなパラメータで作成しました。

  • インスタンスタイプ: t3.medium
  • EBS ボリューム: 20GB
  • パブリックIP:有効化
  • セキュリティグループ(SG):5000番を許可
  • IAMロール:以下のポリシー内容のIAMロールを作成してアタッチします
    • AmazonSSMManagedInstanceCore(セッションマネージャ用)
    • AWSGlueConsoleFullAccess
    • AmazonS3FullAccess

Glueテーブルは同AWSアカウントに既存で作成されているものを使用しています。

インスタンスが起動完了したらセッションマネージャでログインします。

sh-4.2$ sudo su - ec2-user
Last login: Fri Sep 10 01:02:29 UTC 2021 on pts/0
[ec2-user@ip-x-x-x-x ~]$

まずはAmundsenの要件で必要なパッケージをインストールしていきます。

sudo yum -y update
sudo yum install git
sudo yum install python3
echo 'alias python=python3.7' >> ~/.bashrc
source ~/.bashrc
python -V 
# Version3.7になることを確認
curl -sL https://rpm.nodesource.com/setup_12.x | sudo bash -
sudo yum install --enablerepo=nodesource nodejs
node -v 
# Version12になることを確認

次にDocker-composeをインストールします。

sudo amazon-linux-extras install -y docker
sudo systemctl enable docker
sudo systemctl start  docker
sudo usermod -a -G docker ec2-user
sudo curl -L https://github.com/docker/compose/releases/download/1.28.5/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
sudo gpasswd -a $USER docker
docker-compose --version
# バージョンが表示されることを確認

ここでインスタンスを再起動を行い、Docker-composeをインストール完了です。

再びログイン後、Elasticsearchのメモリ上限を上げておきます。

sudo vi /etc/sysctl.conf
# vm.max_map_count=262144に変更して保存
sudo sysctl -p
/sbin/sysctl -a
# 変更されていることを確認

git cloneでAmundsenをインストールしてビルド、起動します。

git clone --recursive https://github.com/amundsen-io/amundsen.git
cd amundsen
docker-compose -f docker-amundsen.yml up -d
# docker-compose -f docker-amundsen.yml logs -f)ログ記録

これで初期設定は完了です。ブラウザでhttp://<EC2のパブリックIP>:5000にアクセスしAmundsenのWeb画面が表示されることを確認しておきます。

Oracleの読み込み

スクリプトの準備をする前に、AmundsenがOracleへアクセスするためにはoracleクライアントなどのツールが必要なので以下のコマンドを参考にインスタンスにsqlplusのインストールを行います。

# cdでカレントディレクトリに移動
sudo curl -o oracle-instantclient18.3-basic-18.3.0.0.0-3.x86_64.rpm http://yum.oracle.com/repo/OracleLinux/OL7/oracle/instantclient/x86_64/getPackage/oracle-instantclient18.3-basic-18.3.0.0.0-3.x86_64.rpm
yum -y localinstall oracle-instantclient18.3-basic-18.3.0.0.0-3.x86_64.rpm
sudo curl -o oracle-instantclient18.3-sqlplus-18.3.0.0.0-3.x86_64.rpm http://yum.oracle.com/repo/OracleLinux/OL7/oracle/instantclient/x86_64/getPackage/oracle-instantclient18.3-sqlplus-18.3.0.0.0-3.x86_64.rpm
yum -y localinstall oracle-instantclient18.3-sqlplus-18.3.0.0.0-3.x86_64.rpm
export LD_LIBRARY_PATH=/usr/lib/oracle/18.3/client64/lib:$LD_LIBRARY_PATH
export PATH=/usr/lib/oracle/18.3/client64/bin:$PATH

仮想環境を立ち上げ、GlueデータロードのPythonスクリプト実行に必要なモジュールをインストールします。その後setup.pyを実行します。

cd ~/amundsen/databuilder
python3 -m venv venv
source venv/bin/activate
# (venv) $ (ここからvenv環境下で実行します)
pip3 install --upgrade pip
pip3 install -r requirements.txt
pip install cx_oracle
python3 setup.py install

次にsample_oracle_loader.pyを以下のように編集します。

vi example/scripts/sample_oracle_loader.py
import logging
   # ~~省略~~
   
def connection_string():
    user = '<oracleのユーザ名>'
    password = '<oracleユーザのパスワード>'
    host = '<oracleのホスト名>'
    port = '1521'
    service = '<oracleのサービス名>'
    return "oracle+cx_oracle://%s:%s@%s:%s/%s" % (user, password, host, port, service)


def run_oracle_job():
    where_clause_suffix = textwrap.dedent("""
        where c.owner = '<取得したいスキーマ名>'    # "schema_table = "を"c.owner = "に修正しています
    """)

    tmp_folder = '/var/tmp/amundsen/table_metadata'
    node_files_folder = f'{tmp_folder}/nodes/'
    relationship_files_folder = f'{tmp_folder}/relationships/'

    job_config = ConfigFactory.from_dict({
        f'extractor.oracle_metadata.{OracleMetadataExtractor.WHERE_CLAUSE_SUFFIX_KEY}': where_clause_suffix,
        # f'extractor.oracle_metadata.{OracleMetadataExtractor.USE_CATALOG_AS_CLUSTER_NAME}': True,  (←使っていなかったのでエスケープ)
    
   # ~~省略~~
   
    job_es_table.launch()

スクリプトを実行することで、Oracleのデータを取得することができます。

python3 example/scripts/sample_oracle_loader.py

所感

これまで3種類のデータベースのロードするサンプルスクリプトを実行してきましたが、基本的に使っているモジュールや変数の受け渡しの仕方などコードは同じような作りになっていました。

どうやらスクリプトをコピペしながらサンプルを開発しているように見受けられ、呼び出し元となるextoractorフォルダ内のスクリプトとの連携でエラーとなる箇所があり、今回のoracleのように独自でコードに修正を加えたりしました。

OSSとしてAmundsenもまだまだ発展途上だと思うので、今後のGitのアップデートでスクリプトの内容が変わってくる可能性がありますのでご注意ください。