[新発表] AWS Inferentia:推論専用チップを開発しちゃいました #reinvent

はじめに

現在Las Vegasで進行中のre:Invent 2018のキーノートで、AWSが推論(Inference)に特化したチップ「AWS Inferentia」を開発したと発表がありました。

AWS Inferentia High performance machine learning inference chip, custom designed by AWS

AWS Inferentia

MLは学習、そして推論と処理は二つに大別されますが、実際のサービスに使用する場合には、推論がほとんどの割合を占めます。この推論ワークロードについて専用チップを使用することで、コストを下げ、高いスループット、低遅延、そして数百TOPS(Tera Ops per second)もの推論性能を発揮するとのことです。

Amazon Inferentiaは、INT8やFP16(半精度浮動小数)を使って計算精度を下げることで、チップ内の計算密度を上げ、効率的に推論処理を行うようです。詳細は不明ですが、TPUなど他の推論チップと同様のアプローチを取っているようです。

以下のような主要なフレームワークに対応するとのことです。

  • TensorFlow
  • MXNet
  • PyTorch
  • Caffe2
  • ONNX

Amazon Inferetiaは、現時点ではまた利用可能にはなっていませんが、次のサービスで利用可能になるとのことです。提供予定は2019とのことです。

  • Amazon SageMaker
  • Amazon EC2
  • Amazon Elastic Inference

Amazon Elastic Inferenceは、さきほど発表になったばかりの新サービスです。名前がすこし紛らわしいですが、こちらはすでに利用可能になっています。

さいごに

Amazonは次々と新しいチップを開発しているようです。どのくらいの性能が出るのか、実際に試してみるのが楽しみです!

参考