公共雲平台近年推動人工智能服務,他們之間還競爭硬件設備。 AWS 將在明年推出自建的機械學習訓練晶片 Trainium ,也同時提供英特爾旗下 Habana的 Gaudi 晶片,均強調成本效益。該公司新興技術主管 Olivier Klein 稱,百貨應百客,應付不同企業的不同用途。
AWS 在 2018 年推出自建的推理晶片 Inferentia ,今年發表訓練晶片 Trainium ,組成全套機械學習硬件。根據 AWS 的公布, Trainium 配合 ARM 的 EC2 執行個體支援 TensorFlow 、 PyTorch 及 MXNet 的模型框架,可提升數據處理吞吐量三成,推理運算成本可降低最多 45% 。不過,未有進一步交待 Trainium 的運算 TFLOPS 效能數據。 Trainium 預計明年下半年推出。
但同時 AWS 發表 Habana 的 Gaudi 晶片。 Habana 是英特爾在去年 12 月斥資 20 億美元收購的人工智能技術,旗下的 Gaudi 晶片首次大規模在雲端部署,支援 TensorFlow 與 PyTorch 模型框架。 AWS 指出,可在多個執行個體選配 Gaudi 晶片,與 GPU 比較運行機械學習程式,可增加最多 40% 的成本效益。該款晶片則在明年上半年推出。
Klein 稱,兩款同屬訓練晶片,目的提供選擇給企業,按照他們的需要和喜好,選用最合適的硬件服務。
公共雲平台近年陸續自行設計人工智能晶片,例如 Google Cloud Platform 的 TPU 、阿里雲的含光 800 、華為雲的昇騰系列,目的為用大規模安裝的優勢降低成本。微軟 Azure 則採用英國人工智能晶片公司 Graphcore 的 IPU 。另外, NVIDIA 提出 400 億美元收購 ARM ,其中一個目的就是為發展數據中心的人工智能業務。