# 視覚言語モデルLLaVAを作ろう ## 概要 LLaVA(ラバ)は、画像とテキストを組み合わせて理解し、指示に柔軟に対応できる視覚言語モデルです。 Flamingoよりシンプルな設計で、高品質な合成データの訓練により高い指示追従性を実現しています。 論文を読み、LLaVA-1.6を参考に再実装し、推論させることで、AIの最新技術を理解します。 ## 資料 当日18:00に資料のURLをコンパスのメッセージで送信します。 以下は「gpt-oss」のワークショップのサンプルです。難易度の参考にしてください。 * GitHub * Google Colab ## ...