「rinnaのDeepSeek R1蒸留モデルがすごい - きしだのHatena」

DeepSeek R1が話題になってだいぶたちますが、日本語対応モデルも出てきてますね。 そして2/15にrinnaからDeepSeek R1の蒸留モデルが出ていて、これがかなりいい感じなのでびっくりしてます。驚き屋してます。 DeepSeek R1では、こっそりと回答方針を決めるフェーズがあるのだけど、そこがなかなか筋がいい。 というか、作り方もなんだかすごいので最後に解説してます。 Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社 CyberAgentからもDeepSeek R1の蒸留モデル…

DeepSeek R1が話題になってだいぶたちますが、日本語対応モデルも出てきてますね。 そして2/15にrinnaからDeepSeek R1の蒸留モデルが出ていて、これがかなりいい感じなのでびっくりしてます。驚き屋してます。 DeepSeek R1では、こっそりと回答方針を決めるフェーズがあるのだけど、そこがなかなか筋がいい。 というか、作り方もなんだかすごいので最後に解説してます。 Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社 CyberAgentからもDeepSeek R1の蒸留モデル…

nowokay.hatenablog.com

Webページ

コンテンツ文字数:0 文字

見出し数(H2/H3タグ):0 個

閲覧数:5 件

2025-02-18 08:01:28

オリジナルページを開く