【レポート】リコーのデバイス設計システムクラウド化への道~評価して分かった効果と注意点~ #AWSSummit

DA事業本部の春田です。

AWS Summit Online絶賛開催中!ということで、本記事では「CUS-34: リコーのデバイス設計システムクラウド化への道~評価して分かった効果と注意点~」の内容についてまとめていきます。

セッション情報

  • 株式会社リコー イノベーション本部 先端デバイス研究センター 第 2 研究室 第 7 研究グループ 西村 行雄 氏

リコーではデバイス設計システムをオンプレで構築しているが幾つかの課題を抱えている。その課題解決する為に AWS を利用する事を考えて評価を行った。 評価は主に使用する EDA ツールにて行った。 結果は、課題はあるが概ね良好であり利用に向けて構築を進める事にした。 構築に際しては、利用者の利便性を考慮し段階的に AWS への移行を行う予定にしている。

※セッション動画と資料は以下リンク

アジェンダ

  1. 会社概要
  2. 現行社内システムでの問題
  3. クラウドでの評価
  4. 当初のネットワークでの問題
  5. 専用線接続の効果
  6. クラウド利用の注意点
  7. まとめ

会社概要

  • 株式会社リコー
    • 設立:1936年2月6日
    • 資本金:135,364百万円
    • 代表取締役 社長執行役員:山下良則
    • 本社:東京都大田区中馬込1-3-6
  • リコーグループの概要
    • グループ企業数:229社
    • グループ従業員数:90,141名
      • (国内:31,648名、海外:58,493名)
    • 連結売上高:20,085億円
      • (国内:43.4%、海外:56.6%)

※グループ企業数は(株)リコーを除く ※2020年3月31日現在(連結売上高は2020年3月期)

  • リコーの事業分野
    • MFPやプリンターなどの情報機器を中心に、製品の開発・生産・販売・サービス・リサイクルなどの事業がメイン
    • その他、ヘルスケア、カメラ、ビジネスサービス、社会インフラなど、幅広い範囲で事業を展開している

  • イノベーション本部 先端デバイス研究センターについて
    • 旧研究開発本部
    • 画像処理、ヘルスケア、エネルギー、IoT関係、材料・デバイスを研究開発領域としている
    • 西村氏が所属している材料・デバイス分野の先端デバイス研究センターでは、MEMS、VCSEL等の様々なデバイスの研究開発を行っている

  • 拠点
    • 宮城県名取市:応用電子研究所
    • 神奈川県海老名市:リコーテクノロジーセンター
    • 大阪府池田市:池田事業所 → 今回の話はココのデバイス設計のクラウド化。リコー全体のクラウド化ではない。

現行社内システムでの問題

  • どんな問題か
    • サーバーは3年レンタルで導入しているが、3年目でリソース不足に陥っていることが多い
    • ユーザーの要望に早急に対応できない
      • 例: 大容量メモリが欲しいなど
    • 事業所のメンテナンスのために停電が定期的に発生しており、その都度システムを止めていた
    • 導入時・運用時に管理工数がかかる
      • システムトラブルが発生すると、休日や深夜でも対応に迫られた
  • 対応策は?
    • オーバースペックのハードを導入してあらゆる状況に対応する
      • コストがかかり過ぎて無駄
      • 事業所メンテや故障は対応できない
    • クラウドを使う
      • 必要なリソースを準備できる
      • 事業所メンテに影響しない
      • 故障もない?
      • わからなかった点
        • 本当に使えるのか?
        • パフォーマンスは出るのか?
        • コストは削減できるのか?

→ クラウドを評価してみる

→ クラウドはどうすれば使えるのか?

  • 最初は全くスキルがない状態
    • Amazon EC2?Amazon EBS?Amazon S3?
    • 言葉は聞いたことがあるが、内容はよくわかっていなかった
    • Webでの調査、セミナー受講などで情報収集、ハンズオンなどでクラウドを体験
  • どのクラウドを使うか?
    • AWSをはじめ、多数のクラウドベンダーがある
    • サービス・利用者数・コストを比較
    • 全社的にAWSの利用を進めており、アライアンスも進めているため、試行のしやすさからAWSを選択
    • AWSアカウントを登録

クラウドでの評価

  • 性能評価はEDAツールを使って行った
    • EDA: Electronic Design Automation
    • 集積回路や電子機器など電気系の設計作業の自動化を支援するためのソフトウェアやハードウェアのこと
    • リコーでは、デバイス設計用ツールをEDAツールと称しており、例えば以下のツール
      • デジタル系シミュレーション
      • アナログ系シミュレーション
      • 抽出系ツール
      • 検証系ツール

パブリッククラウドでの評価環境

評価サーバースペック↓

# 社内システム AWS (Amazon EC2)
種別 Xeon E5-2667 v4 m5.12xlarge
CPU 32cpu(3.2GHz) 42cpu(2.5GHz)
Mem 64GB 192GB
OS RHEL6 RHEL6
  • ユーザー端末かEC2インスタンスにログイン
  • データはインターネット経由でEBSにアップロード

  • 評価EDAツール
    • アナログ系ツール(シミュレーション)をメインで実施
    • GUIでの編集、デジタル系ツール(シミュレーション)も一部実施
    • EDAライセンスは期間限定の評価版を貸し出して頂いた

評価結果

青が社内システムでかかった時間、オレンジがクラウドでかかった時間。AWSでの実行時間が約30~50%短い。

→ シミュレーション時間短縮に効果あり

  • 要因
    • ログから判断するに、同時に使用されるCPUコアの効率が向上した?
    • 最大同時使用コア数は16コアで同じだが、AWSの方が同時に動くコアの割合が多かった?
    • シングルコアで動作するツールについては効果なし → マルチスレッドで発揮する

当初のネットワークでの問題

EDAツールを利用した際の問題

  1. GUIの操作が遅い
    1. ツールのGUI画面をXで転送(DISPLAY変数をセットしてGUIをリモートで表示)すると表示は問題ないが、操作や編集は遅くて使えない。
  2. EDAライセンスの割り当てをどうするか?
    1. AWS用にライセンスを別途購入 → コストがかかる
    2. 社内システムのライセンスを分割 → クラウドで未使用のライセンスが発生し、効率が悪い
  3. データを毎回クラウド上にアップロードする必要がある
    1. 直に社内システムのデータを全部AWS上には持っていけない。
    2. 何度かアップロードを繰り返すと社内とAWSのどっちが最新データか分からなくなる

→ AWSと社内ネットワークがつながれば、情報共有できるので問題解決?

AWSと専用線接続を実施

  • セキュリティや帯域の問題もあり、インターネット接続では社内システムとAWSとの情報共有は難しい
  • 社内IT部門に相談したところ、AWS Direct Connectを導入する予定があったため、先行して使うことに
  • 大阪のDCから接続する設備が整っていなかったため、東京のDCを経由してAWSへ専用線接続
  • AWSを社内のシステムと同様に扱えるようになった

# 大阪⇔AWS(nping/ping) 大阪⇔関東事業所(ping) 関東事業所⇔AWS(ping)
インターネット接続 12ms ~ 440ms
専用線 12.974ms 9.961ms 4.192ms
  • AWS Direct Connectを接続する事でレイテンシーが安定
  • 関東事業所からAWS間でのレイテンシーは比較的良い結果が出ている

専用線接続の効果

1. GUIの操作が遅い

  • ツールのGUI画面をXで転送(DISPLAY変数をセットしてGUIをリモートで表示)すると表示は問題ないが、操作や編集は遅くて使えない。

→ AWS Direct Connectの接続が関東地区なので大阪からのレイテンシーはあまりよくない。やはりGUIの操作は遅い。

→ NICE DCVというEC2上で無償で使えるツールで、GUIの表示改善が出来そう。未だ十分評価は出来ていないが改善が期待出来る。

2. EDAライセンスの割り当てをどうするか?

  • AWS用にライセンスを別途購入 → コストがかかる
  • 社内システムのライセンスを分割 → 効率よくライセンスが使えない

→ AWS Direct Connectを接続する事で、AWSから社内のライセンスサーバーが参照可能になった

→ AWSと社内システムでライセンスが共有できる。

  • ※ツールベンダーとの契約に注意が必要
    • ツールベンダーによってクラウド用ライセンスへの対応は異なる。
      • 費用が上がる
      • 費用は変わらないが連絡は必要
      • ライセンスサーバーがある位置から半径何キロ以内といったArea制限
  • リコーではクラウドで使用するためのライセンスに切り替えた

3. データを毎回クラウド上にアップロードする必要がある

  • 直に社内システムのデータを全部AWS上には持っていけない。
  • 何度かアップロードを繰り返すと社内とAWSのどっちが最新データか分からなくなる

→ AWS Direct Connectを接続する事で、AWSから社内システムのデータが参照可能になる

→ AWSから社内システムのデータにNFSでアクセス可能。毎回アップロードしなくても良い?

AWSから社内システムのデータへのアクセス検証

  • レイテンシーがあまり良くなかったので、NFSのパフォーマンスが十分出ているのかわからない
  • 確認するためのテスト
    • 社内システムから社内システムのファイルサーバへWrite
    • EC2から社内システムのファイルサーバへWrite
    • 同時に同じフォルダに対して書き込みを行った

  • AWSから社内データへアクセスした時のパフォーマンスは?
    • 社内システムからの方がスピードは速いが、AWSからでも思ったより悪くないスピードだった
    • 数値的にもAWSのインスタンスから直接社内システムのデータを使えそう
    • ※ネットワークの構成により状況は異なると思われる。

  • AWSインスタンスから社内データを利用するシミュレーション
  • 評価用サーバーはインターネット経由の時と同じインスタンス
  • 評価用EDAツール → アナログ系シミュレーションを実施
  • 流れ
    • ユーザーの端末から社内システムにログイン
    • バッチジョブをEC2インスタンスに投入
    • EC2インスタンスから社内のライセンスサーバーとファイルサーバーにアクセスし、ライセンス情報とデータを取得

  • シミュレーション実施結果
    • 青:社内サーバー、オレンジ:AWS
    • 社内システムにあるデータでも、シミュレーション時間は短縮された(約45%)
    • データを毎回クラウドにアップロードしなくても使える。
    • 現行システム環境そのままでクラウドのCPUのみ利用可能

→ AWSインスタンスから社内データを直接NFSで利用できる

  • 一旦データをクラウド上のメモリにロードする時間は多少増加したが、シミュレーション全体の実行時間に対して非常に小さいので時間短縮の効果が出た
  • シミュレーション時間の短いJOBの場合は逆に遅くなる可能性がある → JOBの時間によって使い分けが必要

今後のクラウド運用方法について

  • AWSインスタンスから社内データを利用出来る事で、社内システムとAWSの両方をハイブリッドに利用可能
    • リソースが必要な際に、EC2インスタンスへJOBをオフロード
    • ネットワークトラフィックによるパフォーマンスの低下が懸念
  • この構成は恒久的ではなく、最終的には全てのデータをAWSへシフト予定

→ 段階的にAWSへ移行

  • 最終的には全てクラウド上で運用を行う
  • メリット
    • リソースの適正な運用
    • メンテナンス等の管理工数削減
    • 宮城・神奈川など離れた拠点間の環境統一
    • リモートアクセスの利便性向上

クラウド利用の注意点

  1. ネットワークポートの開放が必要な場合がある
    1. EDAツールのGUIからJOB投入出来る機能があるが、GUIからJOB投入出来なかった
    2. → 必要なネットワークポートを開放するとOKになった
    3. → 事前に必要なポートを調べて開放しておく必要がある
  2. 立ち上げたインスタンスはそのままでは使えない
    1. RHELを使用する場合、追加のパッケージをインストールしないとEDAツールが起動しない
    2. → ツールで必要なパッケージは調べて事前にインストールしておく
    3. → AMIを作っておくと便利
  3. 運用方法によってはコストUPも考えられる
    1. 必要な時にのみインスタンスを起動するなどの工夫をしないと社内システムよりもコストが増大する可能性がある
    2. → 使っていないインスタンスはこまめに停止する等の運用が必要

まとめ

  • AWSを利用する事で長時間シミュレーションでの時間短縮に期待出来る
    • マルチスレッドで効果大
  • AWS Direct Connectにより社内システムとAWSでEDAライセンスやデータの共有が図れる
    • ライセンス共有に際しての条件はベンダによって異なるので注意
  • レイテンシーによってはX環境ではなくNICE DCV等のツールでGUIを利用する方が良さそう
  • ネットワークポートの開放やOSパッケージの追加が必要になる
  • 運用方法によってはコストUPの懸念がある

→ 現行システムでの問題(システムリソース・メンテ・管理工数etc)はクラウド化で解消できる