YouTube動画

生成AI/データセンターシリーズ:光技術がもたらすパラダイムシフトの全貌に迫る!│Vol.120

製品紹介

【sevensixTV】に第120弾の動画を更新しました。

00:36 生成AIによる社会的課題
02:03 光電融合技術について
03:38 光スイッチング技術について
06:39 まとめ

AIとデータセンターというテーマで、本動画を含め3回に分けて、 色々な角度から深く掘り下げてお話しています。
今回は生成AI、データセンターを支えるテクノロジー面にフォーカスし、光技術によるパラダイムシフトについて詳しく解説します。  

【引用】
・電子情報通信学会より
https://app.journal.ieice.org/trial/106_2/k106_2_98/index.html

・GoogleのAIプロセッサーTPU v4の取り組みについて
https://weekly.ascii.jp/elem/000/004/146/4146388/3/

■ 関連動画
第1弾:AI革命!データセンターの役割とその進化│Vol.118
世界のデータセンター市場動向から、国内(政府・民間企業)動向を考えてみる│Vol.119

++(動画内の抜粋)++++++++++++++++++++++

さて、AIとデータセンターをテーマに、第1回・第2回ではその市場動向を中心にお届けさせていただきました。今回はシリーズ最終回の第3回としまして、生成AI・データセンターを支えるテクノロジー面にフォーカスし、特に当社が専門分野とする光技術がもたらすパラダイムシフトについて、「低消費電力化」「広帯域化」「低遅延化」をキーワードにお届けしてまいります。 

光技術がもたらすパラダイムシフト

00:36 生成AIによる社会的課題

生成AIが爆発的に普及する昨今ですが、課題となっているのが膨大な量の計算をこなすためにデータセンターで消費される莫大な電力です。現在の電気をベースとした技術の延長線上では、生成AIの運用に必要な電力は現在のインフラの供給キャパを近い将来超えてしまうと言われています。低消費電力化が急務となっております。 

また、生成AIクラスターでは大量のデータを複数のGPUで同時に分散処理し、それぞれの結果を集めまたバラして処理を繰り返します。その際に膨大なGPU間トラフィックが発生するため、GPU間インターコネクトの広帯域化がシステム全体のパフォーマンスを決定する重要な要素となります。 

さらに、市場が生成AIに求める計算性能の増大速度はあまりに早く、必要な計算性能は6ヶ月毎に倍増すると言われており、これはGPU単体が現実的に実現可能な性能向上速度の5倍以上と言われているそうです。このため、生成AIにおいてはGPUクラスターの将来のシステム規模を想定し拡張可能なように設計されたスケーリング拡張性がパフォーマンスを決定する重要な要素となります。 

これらの課題を抜本的に解決するための画期的な技術として注目されている、「光電融合技術」と「光スイッチング技術」についてご紹介いたします。 

02:03 光電融合技術について

光電融合は従来の半導体を基盤とした電気的な演算処理を、究極的には光に置き換えて光半導体上で処理するまったく新しいテクノロジーです。日本ではNTTがIOWN構想の中で提唱、膨大な資金を投じて要素技術の研究開発を進めております。こちらのロードマップをご覧ください。Step1で制御・信号処理を司るチップと外部との接続を光化、Step2ではチップ間接続を光化、最後にStep3でチップ内部のコア間接続まで光化することを目指しています。 

NTT技術ジャーナル記事 「IOWN構想特集─オールフォトニクス・ネットワーク実現に向けた光電融合技術」

この技術を生成AIに利用することで、消費電力や熱、遅延発生を劇的に削減することができると期待されています。例えば、IOWN構想では光電融合の導入で電力効率100倍(消費電力1/100)、遅延を1/200とすることを目標としているといいます。 

世界でも光電融合技術の開発は加速しております。こちらの日経新聞の記事からの引用をご紹介します。記事によると、TSMCやインテルといった名だたる半導体企業が光電融合デバイスの開発を加速しており、特にCo-Packaged Optic(CPO)と呼ばれる、CPU/GPUなどの半導体と光学エンジンを異種チップ集積する技術、これはNTTのIOWNロードマップStep1に当たるものですが、その商用化が目前に迫ってきており、各社が数年後の商用化を目指しています。 

光電融合、大手が商用化に本腰 TSMCは26年にCPO投入

 

03:38 光スイッチング技術について

光電融合技術と並んで、究極の低消費電力化を実現する技術として長年注目され、近年ではGAFAを中心に、生成AIクラスターやコンピューティングネットワークのスケーリングを拡張する技術としても導入検討が進んでいる光スイッチングについてご紹介します。これは、シンプルな言い方をすれば従来のOEO変換をベースとした電気スイッチで構成されたデータセンターネットワークを、光スイッチに置き換えていくことで、大幅に低消費電力・広帯域化・低遅延化を実現する技術です。電子情報通信学会の記事を引用し、その概要を説明させていただきます。当該記事のリンクは概要欄からご参照ください。https://app.journal.ieice.org/trial/106_2/k106_2_98/index.html 

こちらは現在主流の一般的なデータセンターネットワークの模式図です。リーフ・スパイン・トップオブラックの三層構造になっており、各電気スイッチとサーバ間はOE変換素子である光トランシーバと光ケーブルで繋がれています。 

 

L3ベースのClosネットワーク

この電気スイッチを、光スイッチに置き換えてネットワークを構成していくものが光スイッチング技術になります。こちらの図をご覧ください。緑色の電気スイッチの一部を黄色の光スイッチへ置き換えた構成となります。電力や熱、遅延はOE変換時に発生しますが、そのOE変換処理自体を減らすことで、大幅な低消費電力化・低遅延化が実現可能と言われています。 

EPS: Electrical Packet Switch / OCS: Optical Circuit Switch
ハイブリッドネットワーク

ただ、光スイッチは回線交換方式で、スイッチング速度もミリ秒オーダーと電気スイッチに比べて極めて遅く衝突回避機能を持たないため、パケット単位のスイッチングではなく、大きなデータのオフロードに用いるそうで、その用途は飽くまで限定的なのが現状のようです。 

一方でGoogleを始めとしたGAFA各社はこぞってデータセンターへの光スイッチの導入を進めています。こちらの週間アスキーの記事で紹介されているGoogleのAIプロセッサーTPU v4の取り組みについて紹介します。記事URLは概要欄をご参照ください。(https://weekly.ascii.jp/elem/000/004/146/4146388/3/) 

週間アスキー 2023年7月24日 「電気を利用せずにスイッチングできるGoogle TPU v4 AIプロセッサーの昨今

GoogleのTPU v4は4096台ものTPUを接続して構成したコンピューティング・ネットワークのTPU間接続に、MEMS式光スイッチを導入することで大幅な消費電力・遅延・コストの削減を実現したものです。 

記事によれば、従来のOEO変換型のイーサネットスイッチを使わずにMEMSミラー式の光スイッチを導入することで、Infinibandに比べてはるかに低価格・低消費電力を実現できていると言います。 

ただ、パケットの中身を見て切り替える機能のない光スイッチにどのように置き換えて導入しているかというと、稼働させるニューラルネットワークに合わせてトポロジーを変更することに用途を限定しているとのことで、動的に構成を切り替えることの少ないニューラルネットワークだからこその成功事例です。記事によれば、「光スイッチの価格はTPU v4 Pod全体の5%未満、消費電力は3%未満とされ、InfiniBandに比べてはるかに安く、低消費電力を実現できている。」とのことです。 

++++++++++++++++++++++

#生成AI
#データセンター
#光電融合
#NTTIOWN
#光スイッチ
#CPO
#CoPackagedOptics