[新発表] AWS Inferentia:推論専用チップを開発しちゃいました #reinvent
はじめに
現在Las Vegasで進行中のre:Invent 2018のキーノートで、AWSが推論(Inference)に特化したチップ「AWS Inferentia」を開発したと発表がありました。
AWS Inferentia High performance machine learning inference chip, custom designed by AWS
AWS Inferentia
MLは学習、そして推論と処理は二つに大別されますが、実際のサービスに使用する場合には、推論がほとんどの割合を占めます。この推論ワークロードについて専用チップを使用することで、コストを下げ、高いスループット、低遅延、そして数百TOPS(Tera Ops per second)もの推論性能を発揮するとのことです。
Amazon Inferentiaは、INT8やFP16(半精度浮動小数)を使って計算精度を下げることで、チップ内の計算密度を上げ、効率的に推論処理を行うようです。詳細は不明ですが、TPUなど他の推論チップと同様のアプローチを取っているようです。
以下のような主要なフレームワークに対応するとのことです。
- TensorFlow
- MXNet
- PyTorch
- Caffe2
- ONNX
Amazon Inferetiaは、現時点ではまた利用可能にはなっていませんが、次のサービスで利用可能になるとのことです。提供予定は2019とのことです。
- Amazon SageMaker
- Amazon EC2
- Amazon Elastic Inference
Amazon Elastic Inferenceは、さきほど発表になったばかりの新サービスです。名前がすこし紛らわしいですが、こちらはすでに利用可能になっています。
さいごに
Amazonは次々と新しいチップを開発しているようです。どのくらいの性能が出るのか、実際に試してみるのが楽しみです!