张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《我的小黑屋》 » 正文

ollama如何保持模型加载在内存（显存）中或立即卸载

11 人参与 2024年09月06日 16:44 分类 : 《我的小黑屋》评论

一、ollama如何保持模型加载在内存中或立即卸载？

默认情况下，模型在生成响应后会在内存中保留 5 分钟。这允许在您多次请求 LLM 时获得更快的响应时间。然而，您可能希望在 5 分钟内释放内存，或者希望模型无限期地保留在内存中。使用 keep_alive 参数与 /api/generate 或 /api/chat API 端点，可以控制模型在内存中保留的时间。

keep_alive 参数可以设置为：

一个持续时间字符串（例如 “10m” 或 “24h”）一个以秒为单位的数字（例如 3600）任何负数，这将使模型无限期地保留在内存中（例如 -1 或 “-1m”）‘0’ 这将使模型在生成响应后立即卸载

例如，要预加载模型并使其保留在内存中，请使用：

curl http://localhost:11434/api/generate -d '{"model": "llama3", "keep_alive": -1}'

要卸载模型并释放内存，请使用：

curl http://localhost:11434/api/generate -d '{"model": "llama3", "keep_alive": 0}'

或者，可以通过在启动 Ollama 服务器时设置环境变量 OLLAMA_KEEP_ALIVE 来更改所有模型在内存中保留的时间。OLLAMA_KEEP_ALIVE 变量使用与上述 keep_alive 参数相同的参数类型。

如果希望覆盖 OLLAMA_KEEP_ALIVE 设置，请使用 keep_alive API 参数与 /api/generate 或 /api/chat API 端点。

二、在启动时添加OLLAMA_KEEP_ALIVE环境参数

1. 停止ollama服务

docker stop ollama

2.移除ollama服务

docker rm ollama

3.加上参数进行启动

docker run -d --gpus=all -e OLLAMA_KEEP_ALIVE=-1 --restart=always -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

三、查看是否设置成功

docker exec -it ollama env

在这里插入图片描述

点击全文阅读

本文链接：http://zhangshiyu.com/post/156312.html

评论（0）

赞助本站

search zhannei

最新文章
戚絮傅辞逾_戚絮傅辞逾 三国从织席贩履到寰宇共主（刘枫张飞）_三国从织席贩履到寰宇共主 我放弃攻略后，攻略世界坍塌了（陆修），我放弃攻略后，攻略世界坍塌了 全书浏览老婆背叛我，我就让她永远后悔（王志明林雅陈浩）_老婆背叛我，我就让她永远后悔（王志明林雅陈浩）全书结局 完结文老公要治小青梅的性冷淡，我决定离婚列表_完结文老公要治小青梅的性冷淡，我决定离婚（祝祈礼沈南伊贺峥） 血染桃枝，树妖疯批美人杀疯了！全书严鹤鸣顾清漪严灵犀在线 别宠了！霸总你快丟掉恋爱脑（苏晚顾砚辞）_别宠了！霸总你快丟掉恋爱脑 王牌鬼混（陶芙陆嘉黎）_王牌鬼混 祖传汤被妻子竹马抢走后，他的死期到了（乔妍苏家明），祖传汤被妻子竹马抢走后，他的死期到了 何处春江无月明元子明（李炎延庆）_何处春江无月明元子明李炎延庆 怀年思梦忆（苏清漪苏灵薇）_怀年思梦忆 大佬留步！这一世换我来爱你（沈意棠顾怀铮）全书免费_（沈意棠顾怀铮）大佬留步！这一世换我来爱你后续（沈意棠顾怀铮）

关于我们 | 我要投稿 | 免责申明