文書の過去の版を表示しています。
お勉強
グラフィックス
2Dベクターグラフィックスについて
用語
| Barycentric Coordinates | 重心座標 |
| Bresenham Algorithm | ブレゼンハムのアルゴリズム |
動き解析
動作の追跡には大まかにトラッキングとフロー推定の2つがある. 目標物体の追跡をするTrackingと,画像の変化を解釈するフロー推定. フロー推定の中にも特徴点のみの追跡をするsparse型と,画像全域のピクセルを追跡するdense型がある.
ニューラルネット
基本事項
Transformer
章分け
- Attention
- Self-Attention / Source Target Attention
- Multi-Head Attention
- Encoder / Decoder
- BERT (Encoder) / GPT (Decoder)
画像関係で Self-Attention を使っていたので Attention についてはある程度わかっているつもりになっていた.
しかしながら「Transformer と Self-Attention 使っているモデルって何が違うの?」みたいな疑問があった.
ここでは Transformer を構成する要素を分解し,通常の Self-Attention を使用した画像系モデルであまり採用されていない Transformer を
Transformer たらしめているものを理解する.
概要
パラダイム
まず始めに, Transformer は単語の列を扱う自然言語処理のモデルとして生まれたことが大きな違いである. 単語の列というのはつまり可変長の列であり,決まったサイズの長さの文章を扱うわけではない. これだけでは画像系とあまり違いがわからないかもしれない. 自然言語処理でも固定長文章しか扱えないモデルもあれば可変長も扱えるモデルもあるように, 画像系でも特定のサイズにリサイズしないと使えないモデルやサイズに依存しない全層畳み込みニューラルネット(Fully Convolutional Neural Network) がある. しかし,完全に列として扱うということは全層畳み込みモデルとは全然違う. 全層畳み込みモデルは,入力に依存して出力サイズが決まり,そのサイズの各箇所の値を求めるものである. つまり,画像変換であれば入力と同じサイズのキャンバスに色を埋めていく作業であるし,超解像であれば入力の縦横何倍かのキャンバスの各ピクセルの色を計算するものである. この手の画像変換と完全に列として扱うTransformerはパラダイムが違う. Transformer の Decoder 部分では列の途中まで計算された値から列の次の値を求めるし,列が左シフトしていくようなイメージである. つまり用意されたキャンバスを埋めると言うよりは横に系列を追加しつつ生成していくようなイメージである. さらに,画像変換系であればキャンバスのすべての値が並列に求まっていくのと違い,キャンバスをスキャンラインして逐次的に処理していくイメージである.
アニメ系ビットマップ画像生成
| PSGAN | DeNA,アニメキャラクターの生成. |
| Style2Paints | 自動着色 |
GAN
ヒューマンインタラクション
GUI
データ構造
データベース
- グラフデータベース Neo4j
- Maria DB, MySQLの後継
- RDBMS(Relational Database Management System)はテーブル?,
OODBMS(Object-Oriented Database Management System)はオブジェクト指向,
LDAP(Light weight Directory Access Protocol)はツリー構造
- RDF(Resource Description Framework)はXMLでグラフを表現?RDFa
ファイルシステム
- Semantic File System<html><p>ディレクトリやファイルにタグとかをつけたりできるらしい.</p></html>





