在Server上面用下面指令啟動Ollama來當LLM inference server,並且可長長久久運行:
- export OLLAMA_MODELS="/llm/.../ollama/models"
- export OLLAMA_NUM_PARALLEL=1
- export OLLAMA_MAX_LOADED_MODELS=2
- export OLLAMA_FLASH_ATTENTION=1
- export OLLAMA_CONTEXT_LENGTH=65536
- export OLLAMA_KEEP_ALIVE="1h"
- export OLLAMA_LOAD_TIMEOUT=8h
- ollama serve 2>&1 | tee ~/ollama-service.log &
這樣ollama在載入LLM model的時候,相關的log就會存下來。用下面指令看:
- tail -f ~/ollama-service.log
啟動之後,用下面的指令來驗證Ollama服務有跑起來:
- curl http://localhost:11434
輸出Ollama is running就是有正常在運行~
_EOF_
沒有留言:
張貼留言