и SD не умеет детектить что на картинке, это ж диффузионная модель, она про другое по определению так что подозреваю что у тебя там clip-interrogator или что-то типа того, моделек image2text хватает
скорее всего всё гораздо проще - взяли готовую популярную модель, и докручивали сверху свои сеты. прямо как с текстовыми, которые до сих пор весну с пружиной путают, по понятной причине.
и SD не умеет детектить что на картинке, это ж диффузионная модель, она про другое по определению
так что подозреваю что у тебя там clip-interrogator или что-то типа того, моделек image2text хватает
прямо как с текстовыми, которые до сих пор весну с пружиной путают, по понятной причине.
настоящее искусство не задушишь какими-то там ограничениями промта!