「J-Moshi を試す|ぬこぬこ」

tl;dr    J-Moshi は日本語の Speech to Speech モデルだよ    Kyutai Labs の Moshi をベースに日本語で追加学習したモデルだよ    日本人と雑に会話している感じが体験できるよ    相槌が多く深い話は期待できない印象(パラメータ数を考えると仕方ない)    VRAM 24GB 以上が必要で macOS は非対応だよ    Google Colab の L4 GPU で動作確認したよ(T4 では OOM)    Google Colab で試す時は --gradio-tunnel オプションに気をつけてね     日本語リアルタイム音

tl;dr J-Moshi は日本語の Speech to Speech モデルだよ Kyutai Labs の Moshi をベースに日本語で追加学習したモデルだよ 日本人と雑に会話している感じが体験できるよ 相槌が多く深い話は期待できない印象(パラメータ数を考えると仕方ない) VRAM 24GB 以上が必要で macOS は非対応だよ Google Colab の L4 GPU で動作確認したよ(T4 では OOM) Google Colab で試す時は --gradio-tunnel オプションに気をつけてね 日本語リアルタイム音

note.com

Webページ

コンテンツ文字数:0 文字

見出し数(H2/H3タグ):0 個

閲覧数:9 件

2025-01-25 08:02:58

オリジナルページを開く