Open
Description
Сильно не хватает возможности параллельных запросов к ллмам. У себя попробовал на коленке переписать на multithreadingPool, почему-то не завелось, как будто где-то блоки.
Концептуально ничто не мешает делать запросы к ллм в нескольких потоках или асинхронно
В RepoAgent это работает так https://github.com/valer1435/RepoAgent/blob/main/repo_agent/multi_task_dispatch.py
PS локальные ллмы (на картах больше чем 4060) должны держать хотя бы 2-3 запроса одновременно
Metadata
Metadata
Assignees
Labels
No labels