2026年6月21日 星期日

修改ALLM環境變數,改善5分鐘會斷線

用AnythingLLM(ALLM)當前端去呼叫Ollama的LLM model,會出現5分鐘就斷線的問題。當LLM model很大,生成內容的時間超過5分鐘,就會因為用Node.js寫的ALLM預設fetch()是300秒,造成ALLM主動斷線,回傳 HTTP 500。修正方法是:

  • sed -i '' "s/OLLAMA_RESPONSE_TIMEOUT='0'/OLLAMA_RESPONSE_TIMEOUT='86400000'/" ~/Library/Application\ Support/anythingllm-desktop/storage/.env
  • sed -i '' "s/ANYTHINGLLM_FETCH_TIMEOUT='0'/ANYTHINGLLM_FETCH_TIMEOUT='86400000'/" ~/Library/Application\ Support/anythingllm-desktop/storage/.env

完成之後重開ALLM就可以了。以下說明這兩個環境變數的作用:

2026年6月14日 星期日

手動運行Ollama並看執行的log

在Server上面用下面指令啟動Ollama來當LLM inference server,並且可長長久久運行:

  • export OLLAMA_MODELS="/llm/.../ollama/models"
  • export OLLAMA_NUM_PARALLEL=1
  • export OLLAMA_MAX_LOADED_MODELS=2
  • export OLLAMA_FLASH_ATTENTION=1
  • export OLLAMA_CONTEXT_LENGTH=65536
  • export OLLAMA_KEEP_ALIVE="1h"
  • export OLLAMA_LOAD_TIMEOUT=8h
  • ollama serve 2>&1 | tee ~/ollama-service.log

這樣ollama在載入LLM model的時候,相關的log就會存下來。用下面指令看: