[新発表] AWS Inferentia:推論専用チップを開発しちゃいました #reinvent

re:Invent 2018のキーノートで、AWSが推論(Inference)に特化したチップ「AWS Inferentia」を開発したと発表がありました。

AWS re:Invent 2018

#AWS Inferentia

#AWS

2018.11.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

現在Las Vegasで進行中のre:Invent 2018のキーノートで、AWSが推論(Inference)に特化したチップ「AWS Inferentia」を開発したと発表がありました。

AWS Inferentia High performance machine learning inference chip, custom designed by AWS

AWS Inferentia

MLは学習、そして推論と処理は二つに大別されますが、実際のサービスに使用する場合には、推論がほとんどの割合を占めます。この推論ワークロードについて専用チップを使用することで、コストを下げ、高いスループット、低遅延、そして数百TOPS(Tera Ops per second)もの推論性能を発揮するとのことです。

Amazon Inferentiaは、INT8やFP16(半精度浮動小数)を使って計算精度を下げることで、チップ内の計算密度を上げ、効率的に推論処理を行うようです。詳細は不明ですが、TPUなど他の推論チップと同様のアプローチを取っているようです。