SIMTってやつを完全に理解したい
GPU architecture part 2: SIMT control flow management
GPU はスタックベースに相当する操作をコンパイラが頑張って生成しているのかと思っていた。つまりハードウェアとしてはシンプルな 32-way のマスク付き SIMD だと思っていた。 Per-thread PC による方法が主流なんだろうか。賢いなあ (あたりまえ)。
しかし素朴に Common PC = min({PTPC}) すると、ループ内で毎回 continue するスレッドがあったとき処理が非効率になる気がする。あとこの機構だけみていると、スカラー並列に比べて効率がいい理由が分からなくなってくる。 way 数分の min を計算するコストはかなり高いのでは。