LazyLLM 中的 TrainableModule 为所有本地模型 (包括 llm、Embedding、多模态模型等) 提供服务,可用于本地模型的训练、微调和推理。调用本地大模型依赖于其推理服务,我们回顾一下使用本地模型进行推理的步骤:
(1)通过推理框架启动本地模型服务;
(2)在 python 脚本中进行接口调用。
LazyLLM 提供了一种非常 lazy 的实现方式,只需将模型所在的路径传入 LazyLLM 的 TrainableModule 然后通过 start() 函数启动服务即可。这里需要您传入模型文件的绝对路径,或者配置环境变量 LAZYLLM_MODEL_PATH 指定模型所在的目录,然后将模型名称传入 TrainableModule。如果您本地没有该模型,LazyLLM 会为您下载对应模型并存入模型缓存目录,默认情况下会下载到您的家目录下的 ".lazyllm/model" 目录;您可以通过配置“LAZYLLM_MODEL_CACHE_DIR” 环境变量指定模型缓存目录。
值得一提的是 LazyLLM 支持多种推理框架,如:LightLLM 和 vLLM 等,在不指定明确框架下 LazyLLM 会根据模型大小和测试数据等信息,自动为用户选择合适的推理框架。如果要明确指定一个推理框架,我们可以这么来设定