NEW/Bio_100%の適当な日記ようやく、CUDAのcoalesced accessというのが理解出来た。 単純なメモリコピーで、8GB/S程度しか出ていなかったのが、今日、20GB/Sまで向上した。 キモは、 連続したメモリに各スレッドが同時にアクセスする という事。 今までは、画像のフィルターを、ラインに分割して、1ラインを1スレッドにやらせていた。 これだと、全てのスレッドが、担当するラインのピクセルを読み込みに行く。 つまり、非連続なメモリをアクセスするので、読み込みの指令数分だけのアクセスが生じる。 この例で分かりやすく言えば、スレッド数分だけのアクセスが生じるわけだ。 これを、各スレッドが各ピクセルを処理させる様にする。 これがcoalescだ。 スレッド0番は、Pixel0を、スレッド1番は、Pixel1を...と、順番に並べてアクセスさせる。 次のループでは、スレッド数
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く