「J-Moshi を試す|ぬこぬこ」
tl;dr J-Moshi は日本語の Speech to Speech モデルだよ Kyutai Labs の Moshi をベースに日本語で追加学習したモデルだよ 日本人と雑に会話している感じが体験できるよ 相槌が多く深い話は期待できない印象(パラメータ数を考えると仕方ない) VRAM 24GB 以上が必要で macOS は非対応だよ Google Colab の L4 GPU で動作確認したよ(T4 では OOM) Google Colab で試す時は --gradio-tunnel オプションに気をつけてね 日本語リアルタイム音
コンテンツ文字数:0 文字
見出し数(H2/H3タグ):0 個
閲覧数:9 件
2025-01-25 08:02:58