OSSデータカタログAmundsenにOracleのメタデータをロードしてみた
どーもsutoです。
登録したデータに対し、「Google検索」のようにデータの検索ができるLyft社製のOSSデータカタログAmundsenというデータ検出およびメタデータエンジンがあります。
これまでにRedshift、Glueのテーブルをロードを検証してきました。
今回はEC2上にセットアップしたAmundsenに、Oracleのテーブルメタデータを読み込んでみました。
AmundsenをEC2にセットアップ
※セットアップは上記2件の記事と同じ手順ですので、既にAmundsenを起動している場合はスキップしてください。
本記事ではAmazon Linux2にAmundsenをセットアップしていきます。
以下の参考記事ではローカルPC(Mac)の手順やUbuntu on EC2でAthenaテーブルを読み込む手順がありますので参考に。
まずはEC2インスタンスを作成します。作成するインスタンスは主に以下のようなパラメータで作成しました。
- インスタンスタイプ:
t3.medium
- EBS ボリューム:
20GB
- パブリックIP:有効化
- セキュリティグループ(SG):5000番を許可
- IAMロール:以下のポリシー内容のIAMロールを作成してアタッチします
AmazonSSMManagedInstanceCore
(セッションマネージャ用)AWSGlueConsoleFullAccess
AmazonS3FullAccess
Glueテーブルは同AWSアカウントに既存で作成されているものを使用しています。
インスタンスが起動完了したらセッションマネージャでログインします。
sh-4.2$ sudo su - ec2-user Last login: Fri Sep 10 01:02:29 UTC 2021 on pts/0 [ec2-user@ip-x-x-x-x ~]$
まずはAmundsenの要件で必要なパッケージをインストールしていきます。
sudo yum -y update sudo yum install git sudo yum install python3 echo 'alias python=python3.7' >> ~/.bashrc source ~/.bashrc python -V # Version3.7になることを確認 curl -sL https://rpm.nodesource.com/setup_12.x | sudo bash - sudo yum install --enablerepo=nodesource nodejs node -v # Version12になることを確認
次にDocker-composeをインストールします。
sudo amazon-linux-extras install -y docker sudo systemctl enable docker sudo systemctl start docker sudo usermod -a -G docker ec2-user sudo curl -L https://github.com/docker/compose/releases/download/1.28.5/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose sudo chmod +x /usr/local/bin/docker-compose sudo gpasswd -a $USER docker docker-compose --version # バージョンが表示されることを確認
ここでインスタンスを再起動を行い、Docker-composeをインストール完了です。
再びログイン後、Elasticsearchのメモリ上限を上げておきます。
sudo vi /etc/sysctl.conf # vm.max_map_count=262144に変更して保存 sudo sysctl -p /sbin/sysctl -a # 変更されていることを確認
git cloneでAmundsenをインストールしてビルド、起動します。
git clone --recursive https://github.com/amundsen-io/amundsen.git cd amundsen docker-compose -f docker-amundsen.yml up -d # docker-compose -f docker-amundsen.yml logs -f)ログ記録
これで初期設定は完了です。ブラウザでhttp://<EC2のパブリックIP>:5000
にアクセスしAmundsenのWeb画面が表示されることを確認しておきます。
Oracleの読み込み
スクリプトの準備をする前に、AmundsenがOracleへアクセスするためにはoracleクライアントなどのツールが必要なので以下のコマンドを参考にインスタンスにsqlplusのインストールを行います。
# cdでカレントディレクトリに移動 sudo curl -o oracle-instantclient18.3-basic-18.3.0.0.0-3.x86_64.rpm http://yum.oracle.com/repo/OracleLinux/OL7/oracle/instantclient/x86_64/getPackage/oracle-instantclient18.3-basic-18.3.0.0.0-3.x86_64.rpm yum -y localinstall oracle-instantclient18.3-basic-18.3.0.0.0-3.x86_64.rpm sudo curl -o oracle-instantclient18.3-sqlplus-18.3.0.0.0-3.x86_64.rpm http://yum.oracle.com/repo/OracleLinux/OL7/oracle/instantclient/x86_64/getPackage/oracle-instantclient18.3-sqlplus-18.3.0.0.0-3.x86_64.rpm yum -y localinstall oracle-instantclient18.3-sqlplus-18.3.0.0.0-3.x86_64.rpm export LD_LIBRARY_PATH=/usr/lib/oracle/18.3/client64/lib:$LD_LIBRARY_PATH export PATH=/usr/lib/oracle/18.3/client64/bin:$PATH
仮想環境を立ち上げ、GlueデータロードのPythonスクリプト実行に必要なモジュールをインストールします。その後setup.py
を実行します。
cd ~/amundsen/databuilder python3 -m venv venv source venv/bin/activate # (venv) $ (ここからvenv環境下で実行します) pip3 install --upgrade pip pip3 install -r requirements.txt pip install cx_oracle python3 setup.py install
次にsample_oracle_loader.py
を以下のように編集します。
vi example/scripts/sample_oracle_loader.py
import logging # ~~省略~~ def connection_string(): user = '<oracleのユーザ名>' password = '<oracleユーザのパスワード>' host = '<oracleのホスト名>' port = '1521' service = '<oracleのサービス名>' return "oracle+cx_oracle://%s:%s@%s:%s/%s" % (user, password, host, port, service) def run_oracle_job(): where_clause_suffix = textwrap.dedent(""" where c.owner = '<取得したいスキーマ名>' # "schema_table = "を"c.owner = "に修正しています """) tmp_folder = '/var/tmp/amundsen/table_metadata' node_files_folder = f'{tmp_folder}/nodes/' relationship_files_folder = f'{tmp_folder}/relationships/' job_config = ConfigFactory.from_dict({ f'extractor.oracle_metadata.{OracleMetadataExtractor.WHERE_CLAUSE_SUFFIX_KEY}': where_clause_suffix, # f'extractor.oracle_metadata.{OracleMetadataExtractor.USE_CATALOG_AS_CLUSTER_NAME}': True, (←使っていなかったのでエスケープ) # ~~省略~~ job_es_table.launch()
スクリプトを実行することで、Oracleのデータを取得することができます。
python3 example/scripts/sample_oracle_loader.py
所感
これまで3種類のデータベースのロードするサンプルスクリプトを実行してきましたが、基本的に使っているモジュールや変数の受け渡しの仕方などコードは同じような作りになっていました。
どうやらスクリプトをコピペしながらサンプルを開発しているように見受けられ、呼び出し元となるextoractorフォルダ内のスクリプトとの連携でエラーとなる箇所があり、今回のoracleのように独自でコードに修正を加えたりしました。
OSSとしてAmundsenもまだまだ発展途上だと思うので、今後のGitのアップデートでスクリプトの内容が変わってくる可能性がありますのでご注意ください。