「J-Moshi を試す｜ぬこぬこ」

tl;dr J-Moshi は日本語の Speech to Speech モデルだよ Kyutai Labs の Moshi をベースに日本語で追加学習したモデルだよ日本人と雑に会話している感じが体験できるよ相槌が多く深い話は期待できない印象（パラメータ数を考えると仕方ない） VRAM 24GB 以上が必要で macOS は非対応だよ Google Colab の L4 GPU で動作確認したよ（T4 では OOM） Google Colab で試す時は --gradio-tunnel オプションに気をつけてね日本語リアルタイム音

tl;dr J-Moshi は日本語の Speech to Speech モデルだよ Kyutai Labs の Moshi をベースに日本語で追加学習したモデルだよ日本人と雑に会話している感じが体験できるよ相槌が多く深い話は期待できない印象（パラメータ数を考えると仕方ない） VRAM 24GB 以上が必要で macOS は非対応だよ Google Colab の L4 GPU で動作確認したよ（T4 では OOM） Google Colab で試す時は --gradio-tunnel オプションに気をつけてね日本語リアルタイム音

Webページ

コンテンツ文字数：0 文字

見出し数（H2/H3タグ）：0 個

閲覧数：9 件

2025-01-25 08:02:58

オリジナルページを開く