文档

将内存和 ssd 作为巨大kv cache池子
优化调度系统

使用文档

将内存和 ssd 作为 kvcache

实现细节

祝好
wde v0.3.1

实现 offloading prefix caching，使用cpu 内存作为巨大kv cache池子
优化 prefix caching，这个是使用 gpu 版本的 prefix caching

祝好
wde v0.3.0

重构 executor/worker/runner
重构 kvcache manager
实现 Prefix Caching

2025 新年快乐
wde v0.2.3

删除 SequenceGroup
真是个大工程啊

祝好
wde v0.2.2

升级依赖
- ubuntu 24.04.1
- CUDA 12.4
- python=3.12
- torch==2.5.1
- vllm==v0.6.4.post1
支持 agents

祝好
wde v0.2.1

文档

祝好
wde v0.2.0

重构 wde.client

之前

from wde.tasks.retriever.engine.client import RetrieverClient,
from wde.tasks.reranker.engine.client import RerankerClient

现在

from wde.client import RetrieverClient, RerankerClient

祝好
wde v0.1.2

准备把decoding模型异步调度代码提交上来

祝好
wde v0.1.1

介绍

Workflow Defined Engine, 针对不同架构的模型实现不同的模块，并按需加载所需的模块。
Asynchronous scheduling, 异步调度，提高GPU利用率，增加吞吐降低延迟
Microservices linked by Zeromq，减少序列化反序列化和io开销，进一步增加吞吐降低延迟

文档

祝好
wde v0.1.0

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

文档

Uh oh!

Uh oh!

Uh oh!

介绍

文档

Uh oh!

Releases: noooop/wde

Releases v0.3.1 将内存 和 ssd 作为 kv cache

Uh oh!

Releases v0.3.0 实现 offloading prefix caching

Uh oh!

Releases v0.2.3 实现 Prefix Caching

Uh oh!

Releases v0.2.2 remove SequenceGroup

Uh oh!

Release v0.2.1

Uh oh!

Release v0.2.0 支持 Decoding (chat) models

文档

Uh oh!

release v0.1.2 重构 wde.client

Uh oh!

Patch release v0.1.1

Uh oh!

Support prefill only models

介绍

文档

Uh oh!

Releases v0.3.1 将内存和 ssd 作为 kv cache