Releases: noooop/wde
Releases · noooop/wde
Releases v0.3.1 将内存 和 ssd 作为 kv cache
- 将内存 和 ssd 作为巨大kv cache池子
- 优化调度系统
使用文档
实现细节
祝好
wde v0.3.1
Releases v0.3.0 实现 offloading prefix caching
- 实现 offloading prefix caching,使用cpu 内存作为巨大kv cache池子
- 优化 prefix caching,这个是使用 gpu 版本的 prefix caching
祝好
wde v0.3.0
Releases v0.2.3 实现 Prefix Caching
- 重构 executor/worker/runner
- 重构 kvcache manager
- 实现 Prefix Caching
2025 新年快乐
wde v0.2.3
Releases v0.2.2 remove SequenceGroup
删除 SequenceGroup
真是个大工程啊
祝好
wde v0.2.2
Release v0.2.1
- 升级依赖
- ubuntu 24.04.1
- CUDA 12.4
- python=3.12
- torch==2.5.1
- vllm==v0.6.4.post1
- 支持 agents
祝好
wde v0.2.1
Release v0.2.0 支持 Decoding (chat) models
release v0.1.2 重构 wde.client
重构 wde.client
之前
from wde.tasks.retriever.engine.client import RetrieverClient,
from wde.tasks.reranker.engine.client import RerankerClient
现在
from wde.client import RetrieverClient, RerankerClient
祝好
wde v0.1.2
Patch release v0.1.1
准备把decoding模型异步调度代码提交上来
祝好
wde v0.1.1
Support prefill only models
介绍
- Workflow Defined Engine, 针对不同架构的模型实现不同的模块,并按需加载所需的模块。
- Asynchronous scheduling, 异步调度,提高GPU利用率,增加吞吐降低延迟
- Microservices linked by Zeromq,减少序列化反序列化和io开销,进一步增加吞吐降低延迟
文档
祝好
wde v0.1.0