視覚言語モデルLLaVAを作ろう
外部サイト掲載イベント
タグ
オンライン
ディープテック投資
生成AI投資
開発スキル磨きたい
AI技術
テクノロジーイベント
視覚言語モデル
LLaVA
視覚言語モデルLLaVAを作ろう
122
2025/12/02 (火)19:00 - 20:30
表示タイムゾーン: JST (UTC+09:00)

概要・詳細

LLaVA(ラバ)は、画像とテキストを組み合わせて理解し、指示に柔軟に対応できる視覚言語モデルです。 Flamingoよりシンプルな設計で、高品質な合成データの訓練により高い指示追従性を実現しています。 論文を読み、LLaVA-1.6を参考に再実装し、推論させることで、AIの最新技術を理解します。