FICmeeting181109
の編集
https://www.am.ics.keio.ac.jp/proj/asap/wiki/?FICmeeting181109
[
トップ
] [
編集
|
差分
|
バックアップ
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
-- 雛形とするページ --
(no template pages)
[[ASAP Top]] -山倉 --3×3スイッチの設計時間とコンフィギュレーション時間の評価 ---4×4がすぐにできるので評価をとる(畔上さんからもらう、PR領域の大きさ変わる) ---5×5とかも(9×9まで、卒論はどこのあたりから領域が小さくなるか調べる) --PR領域が小さい(無駄が多いように見える)問題 ---調べる(Warningを解析する→ふんがさんに相談) ---BRAMとDSPをもっと使えるようにしたい --CPSY(1月) -山内さん --プロポーザル --一つのアプリでスケーラビリティ ---アプリの選定(推論 or ビデオ圧縮) --Cool Chips、Reconfig(来年の12月)、離島 -飯塚さん --プロポーザルの質疑応答 ---モジュールは動的なのか、どのようなモジュールをどれだけ用意するのか→演算の種類は限られている、サイズについては考えなければならない ---CPU,GPUでやった場合と比べてどれくらい速くなるかという予備実験的なものはないのか、具体的なボトルネックがないとGoogleやGPUに勝てないのではないか→実際の実装はしていないけれど先行研究でもGPUに勝つことは難しいので電力性能で勝負したい。 1枚での比較は多いけどマルチでやっても電力性能がスケールするといいな --プロポを終えて ---VS一つのハイスペックなFPGA、VS GPU --アクションアイテム ---モジュール呼び出し(ONNXから何の計算するか、サイズ、重みなどの扱い) ---ハードウェア実装(なにかモデルを載せて通信して計算) ---モジュール割り付け --学会 ---離島、Cool Chips -ひかりさん --FPGAでの学習アクセラレータのフレームワーク --Roadmap ---RNNの推論を複数のFICボードで動かす ---簡単なRNNの学習 ---コンフィギュレーション ---JSON configをハードウェアに -武者さん --デザインガイア2018完 ---FiCSW1 17.89W(= 12.87V×1.39A)(BRAM 80%, DSP 80%, FF,LUT 10%) --全結合層 ---6.87GOPS/W (1枚→4枚) --ジャーナル(11月末) or 国際学会(FPL締め切り3月)→デザインガイアのものを英訳 --DRAM -畔上さん --連続転送テスト --ネットワーク --ジャーナル --9×9まで評価をとる --バリア同期 -Imdadさん --Genome Sequencing(A,C,T,Gが2billionあるが各人で98%同じ) ---1)out/delete ---2)In ---3)Mismatch --BWT(Burrows Wheeler Transform)をまずシングルFPGAで、次にマルチFPGAで -Akramさん --Axi4 --memcpy(DDR4, hls, size); --memcpy(hls, ddr, size); --32×128bit data
タイムスタンプを変更しない
[[ASAP Top]] -山倉 --3×3スイッチの設計時間とコンフィギュレーション時間の評価 ---4×4がすぐにできるので評価をとる(畔上さんからもらう、PR領域の大きさ変わる) ---5×5とかも(9×9まで、卒論はどこのあたりから領域が小さくなるか調べる) --PR領域が小さい(無駄が多いように見える)問題 ---調べる(Warningを解析する→ふんがさんに相談) ---BRAMとDSPをもっと使えるようにしたい --CPSY(1月) -山内さん --プロポーザル --一つのアプリでスケーラビリティ ---アプリの選定(推論 or ビデオ圧縮) --Cool Chips、Reconfig(来年の12月)、離島 -飯塚さん --プロポーザルの質疑応答 ---モジュールは動的なのか、どのようなモジュールをどれだけ用意するのか→演算の種類は限られている、サイズについては考えなければならない ---CPU,GPUでやった場合と比べてどれくらい速くなるかという予備実験的なものはないのか、具体的なボトルネックがないとGoogleやGPUに勝てないのではないか→実際の実装はしていないけれど先行研究でもGPUに勝つことは難しいので電力性能で勝負したい。 1枚での比較は多いけどマルチでやっても電力性能がスケールするといいな --プロポを終えて ---VS一つのハイスペックなFPGA、VS GPU --アクションアイテム ---モジュール呼び出し(ONNXから何の計算するか、サイズ、重みなどの扱い) ---ハードウェア実装(なにかモデルを載せて通信して計算) ---モジュール割り付け --学会 ---離島、Cool Chips -ひかりさん --FPGAでの学習アクセラレータのフレームワーク --Roadmap ---RNNの推論を複数のFICボードで動かす ---簡単なRNNの学習 ---コンフィギュレーション ---JSON configをハードウェアに -武者さん --デザインガイア2018完 ---FiCSW1 17.89W(= 12.87V×1.39A)(BRAM 80%, DSP 80%, FF,LUT 10%) --全結合層 ---6.87GOPS/W (1枚→4枚) --ジャーナル(11月末) or 国際学会(FPL締め切り3月)→デザインガイアのものを英訳 --DRAM -畔上さん --連続転送テスト --ネットワーク --ジャーナル --9×9まで評価をとる --バリア同期 -Imdadさん --Genome Sequencing(A,C,T,Gが2billionあるが各人で98%同じ) ---1)out/delete ---2)In ---3)Mismatch --BWT(Burrows Wheeler Transform)をまずシングルFPGAで、次にマルチFPGAで -Akramさん --Axi4 --memcpy(DDR4, hls, size); --memcpy(hls, ddr, size); --32×128bit data
テキスト整形のルールを表示する