87 GB 大模型種子,GPT-4 縮小版,超越GPT3.5,在線體驗

大家好,我是老章

最近風頭最盛的大模型當屬Mistral AI 發佈的Mixtral 8x7B了,火爆程度壓過Google的Gemini。

緣起是MistralAI二話不說,直接在其推特賬號上甩出了一個87GB的種子

隨後Mixtral公佈了模型的一些細節:

具有編程能力

相比 Llama 2 70B,運算速度快 6 倍

可處理 32k 令牌的上下文

可通過 API 接口使用

可自行部署(它使用 Apache 2.0 開源協議

在大多數標準基準測試中匹配或優於 GPT3.5

可以微調爲遵循指令的模型,在 MT-Bench 測試中獲得 8.3 分

Mixtral 8x7B 是基於Mixture of Experts (專家混合,8x7B即 8 名專家,每個專家7B個參數 )的開源模型,

Mixtral 是一個稀疏專家混合網絡,僅包含解碼器。其前饋網絡從 8 組不同的參數中挑選,在每一層,對每個詞元,路由網絡會選擇兩組“專家”參數來處理該詞元,並將其輸出疊加。

這種技術在控制計算成本和延遲的同時擴大了模型規模,因爲每個詞元只使用參數總量的一小部分。具體來說,Mixtral 總參數量有 46.7 億,但每個詞元只使用 12.9 億參數。因此,它的輸入處理和輸出生成速度與成本與 12.9 億參數模型相當。

Mistral 8x7B 使用與 GPT-4 非常相似的架構,但縮小了:

總共 8 名專家,而不是 16 名(減少 2 倍)

每個專家 7B 個參數,而不是 166B(減少 24 倍)

42B 總參數(估計)而不是 1.8T(減少 42 倍)

與原始 GPT-4 相同的 32K 上下文

如果大家硬件資源真的很硬,可以下載這個87GB的模型種子本地運行

下載:https://twitter.com/MistralAI/status/1733150512395038967

玩法:https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2

我相信99%的同學應該沒有這個實力,現在市面上已經有很多可以在線試玩的平臺了。

1、replicate

https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

replicate還服了api調用的方法:

pip install replicateexport REPLICATE_API_TOKEN=#API token https://replicate.com/account/api-tokensimport replicateoutput = replicate.run("nateraw/mixtral-8x7b-32kseqlen:f8125aef9cd96d879f4e5c5c1ff78618818e62939ab76ab1e07425ac75d453bc",input={"prompt": "你好","top_p": 0.9,"temperature": 0.6,"max_new_tokens": 512print(output)

2、POE

https://poe.com/chat/2t377k6re3os2ha7z1e

https://app.fireworks.ai/models/fireworks/mixtral-8x7b-fw-chat

4、perplexity_ai

https://labs.perplexity.ai/