Ну, я тоже с ДТФ по-переношу свои тексты и гайдики, чо бы и нет. Начнём с простого, крафт промптов для Stable Diffusion.
Так же я вижу, что нейро-контента здесь вроде вовсе нет, если судить по тегам, ну шо, пионерим тогда :D
Хотите тоже генерировать хорошие арты как сверху?!(Или в самом низу!) Да и что бы редактировать ничего не нужно было?! Ну хотите дальше, это утопично, по крайней мере без тренировок вполне себе продвинутых гиперсетей и в течение следующих 20 дней, пока не вышла WD.1.4. Но что можно - это сделать качественный стиль-промпт, который вы сможете использовать на любой картинке.
Данный гайд НЕ будет объяснять, как составлять сами стили, но покажет процесс, которому стоит следовать, если вы хотите получить хороший базис для генерации любых аниме вайфу/объектов в стиле, который хочется лично вам.
Сегодня я покажу вам путь от
До
Полный промпт присутствует в конце гайда, так что можете делать своих готических вайфу даже без него.
Настройки, использованные в ходе написания
Модель — Anything3
VAE — Anything3
Hypernetwork — для вашего же удобства и возможности повторить — не используется
CLIP Skip — 1
Позитивный промпт(база) — masterpiece, best quality, 1girl, upper body, solo
Негативный промпт(база) — bad anatomy, ugly, badly drawn, broken arms, mutated, mutilated, mutation, deformation, 6 fingers, 7 fingers, 4 fingers, extra fingers, extra arm, extra leg, extra limbs
Шаги — 20
Семплер — DPM++ 2M Karras
Ширина — 512
Высота — 768
CFG — 7
Сид — 595652525
Данное сочетание даст нам такую картинку:
(П*зжу, не совсем такую, ибо у меня модифицированный ETA шум и sigma параметры, но +- вы получите это)
Начало
А давайте сделаем нашу новосгенерированную вайфу чуть более реалистичной и детализированной?(А в итоге ещё добавим готику) А давайте.
Для этого нам понадобится скрипт Shift Attention, найти который вы можете здесь —
https://github.com/yownas/shift-attention
Гайд как использовать его там же, но сложного ничего нет.
Поставили? Открывайте.
Для скорости в данном гайде я буду делать всего 5 шагов на каждый параметр, так как это просто стиль для гайда и точность не особо важна, но для своих более продвинутых стилей я использую 15, дабы покрыть 0-1.5 с шагом в 0.1.
Подготовления завершены.
Промпт-крафт
Мы хотим реалистичную вайфу, очевидно, что нужно добавить слова для этого.
Почему именно в таком формате? Потому что это покажет начальную и конечную точку для скрипта.
Генерируем. И не забываем НЕ сохранять как видео, нам это не нужно.
Ждём... А как вы хотели? Генерируем по 5 картинок, чо делать-то...
Получаем такое. Первое соответственно realistic:0, а последнее realistic:1.5, выбираем наиболее понравившуюся - примерно прикидываем вес и оставляем его в виде статичного. Мне например вполне зашла четвёртая, то есть ~0.9
Я бы добавил немного артистичных тегов, дабы всё-таки было не совсем реалистично, как пытается сделать на весе 1.5, поэтому добавим что-то такое... А что бы придумать что - проконсультируемся с вайлдкардами. Как на счёт взять движение готического арта? А чо бы и нет.
Повторяем предыдущий шаг:
И ждём, в моём случае 12 секунд...
И да, важное замечание - новые слова БУДУТ влиять на генерацию, даже при нулевом весе.
Ну... Предпоследняя ничего, берём. Около 1.2. Только глаза поплыли... Давайте подправим глаза, вполне универсальная вещь для вайфу-крафта, поэтому не помешает универсальному стиль-промпту. Схема та же.
Просто банально детализируем глаза, или всё лицо, если хочется.
Беру четвёртую.
Хочу больше артистичности. *бнем-ка экспрессионизма!
Беру предпоследнюю. Не сильно изменилось, ожидал большего если честно, ну и ладно.
Вернёмся к идее реалистичной вайфу, добавим тег гиперреализма.
Честно говоря, на этом моменте мне как-то стало грустно, ибо без гиперсетки не так красиво, но да ладно.
Гиперреализм даёт кардинальные изменения только на 1.5
Попробую 1.35, ибо не хочу слишком сильно отдавать силу этому тегу.
А что, вполне ничего.
Теперь добавим объёма, зайдя в территорию 3д рендеров.
Мне нравится на 1.2.
Теперь добавим тег самого 3д.
0.9 пойдёт.
ЭРТЫИКС, НЕ ЗРЯ ЖЕ Я 3070ТИ ПОКУПАЛ
П.С. это вызвало небольшой бугурт у чела на ДТФ, но ртх работает. Я лично проверил, в чём модель видит данный токен, и, кто бы мог подумать, это свет.
1.2 Нравится
В плане реалистичного маняме, я считаю, что мы справились, но мне не хватает всё-таки чего-то... Время взять рандомную х*йню из вайлдкардов! Или не рандомную, давайте *бнем реннесанса.
Да! Так-то лучше. 1.2 нраица, но возьму чуть больше, 1.35.
Можно крафтить дальше, например заняться негативным промптом, но мне это как-то особо не нужно, ибо давно есть большая заготовка.
Давайте отрендерим сие в нормальном разрешении, дабы посмотреть, как оно выглядит.
А вот так, ну, вполне неплохо!
Финальный промпт:
masterpiece, best quality, 1girl, upper body, solo, (realistic:0.9), (gothic art:1.2), (detailed eyes:0.9), (expressionism:1.2), (hyperrealism:1.35), (render:1.2), (3d:0.9), (rtx:1.2), (renaissanse:1.35)
bad anatomy, ugly, badly drawn, broken arms, mutated, mutilated, mutation, deformation, 6 fingers, 7 fingers, 4 fingers, extra fingers, extra arm, extra leg, extra limbs
Бонусные шаги
Запустить скрипт X/Y Plot и проверьте, на каком CFG картинка лучше. Скрипт встроен в интерфейс по умолчанию.
П.С. картинка с генерациями от 1 до 15 не отображается, поэтому только 5-7.
5 лучшее, имхо.
Различные такие стили позволяют мне создавать много хороших маняме артов :3
Есть вопросы - задавайте.
P.S. Мои продвинутые стили так же используют вайлдкарды в основе, что отдельного гайда не требует, но и объяснять мне это лень, скорее всего вы и так знаете, как их использовать, если хотите заходить в такие дебри.
Комментарии
в разделе "Бонусные шаги" картинка не показывается
inpwbusina, Ля, видимо размер большой, слишком широкая... Если найду как редачить, щас мелкую волью с меньшим количеством генераций.
inpwbusina, Обновил.
Я думал, что эта штука платная
Hesko, Нет. Платные DALL-E м MidJourney. Ну и вариация в виде NovelAI, так как они разрабатывают свою проприетарную платформу. Сам Stable Diffusion опен сурсный и доступен всем.
Спаcибо за статью, где еще можно почитать подробнее по Stable Diff ?
Женские трусики, Ну, пока явно не на KKnights. Я постепенно перенесу свои статьи сюда, возможно вечером, быстро это сделать не позволяет не сильно отзывчивый редактор.
Но я так понимаю, нужны статьи по базовой установке и использованию? У меня таких не будет, но я знаю, что на ДТФ или Пикабу есть очень базовые статьи на эту тему. Но не стоит верить тому, что они пишут по отдельным фичам, так как я далеко не один раз видел неправильную инфу в них.
Возможно я напишу что-нибудь базовое для KKnights, но пока у меня готовы статьи только по продвинутым фичам и тренировкам.
Anzhc, хорошо, спасибо большое, буду ждать
Женские трусики, возможно я напишу статью-сборник тегов в ближайшее время
Софт, Женские трусики, было бы о чём писать там в общем-то. Вот все нужные теги, на которых были тренированы аниме модели.
https://danbooru.donmai.us/wiki_pages/tag_groups
Anzhc, а как самому тренить модель?
Женские трусики, Быть богатым, очевидно. Для плебсов как мы такое не по силам. Там требуется более 30 гигов памяти видеокарты, что не доступно на консумерских, максимум 24 на 3090/4090.
Нам доступен только максимум файн-тюн уже тренированных моделей. И тот, в зависимости от типа тренировки только для обладателей 3080+.
ЛОРА можно тренировать на 6 гигах(но это не точно), но лучше 8. Но я не могу сказать, насколько это эффективно для крупного изменения модели. Я максимум делал на 620 картинках, это относительно очень небольшой файн-тюн, который многому не научит, использовал для улучшения общего качества генераций.
Про Дримбут не скажу, так как это случай, где нужно хотя бы 10 гигов, которых у меня нет. Но людям ЛОРА вроде заходит больше, но появилась она недавно, поэтому прямо разницу пока назвать трудно.
Можно сильно изменять генерацию с помощью надстройки в виде гиперсетей, но саму модель это не тренирует.
Эмбеддинги позволяют создать знание о чём-то конкретном через тренировку инверсии, но это так же не меняет модель, а позволяет добавлять новые токены, но отдельно от модели, хоть и работать они будут лучше всего с той, на которой тренированы.
Ни одна из вышеперечисленных тренировок не работает на 4 гигах. 6 это самый минимум, и тот, только для эмбеддингов и, возможно, ЛОРА, но это не реалистично проводить крупную тренировку на медленных и слабых видеокартах.
Женские трусики, Но всё, что я написал, верно на текущий день. Развивается всё быстро, не помню, что бы какие-то новые техники не открывались реже раза в неделю. Постоянно исследуются новые пути оптимизации.
Когда я вкатывался в генерации, даже что-то простое можно было генерировать минимум на 6 гигах памяти, а сейчас можно даже на 2 гигах.
Хотя тренировки вряд ли опустятся ниже 4х, ибо это стандартный размер SD 1.x-базированных моделей.
Для референса, SD 1.х линейка моделей относительно очень компактная, всего 860 миллионов параметров. Дальше будет только больше. Языковые модели уходят в миллиарды, некоторые в сотни миллиардов, и хостятся только на кластерах.
SD 2.x уже весит 5 гигов, имеет не сильно больше параметров, около 869 миллионов что ли, не помню.
Нужно смотреть, если кто-то найдёт способ тренировать только несколько слоёв одновременно, в зависимости от лимита памяти, хотя... Вроде бы это и есть техника тренировки Дримбута на менее чем 24 гигах, сливая крупную часть данных в оперативную память... Сложно сказать, как скоро появится более жёсткая оптимизация.
Но для конкретно тренировки моделей, именно с нуля, базы, оптимизаций не видел. Да и не под силу это всё-таки для личного пользования, по крайней мере моделей на уровне SD. Там же тренировки на миллиардах картинок идут.
Отдельная статья, про то, как делать такую красивую аи Мону, будет? )
Grerya, Хех. Там случай немного уникальный, не думаю, что выйдет повторить, но можно другую, чуть менее художественную красоту генерить. Но отдельной статьи не будет, тут и эта свою роль играла, и будущая статья про гиперсети, что в данном случае и является тем неповторимым фактором.
Grerya, С текущими тренировками гиперсетей, и какие результаты они дают, я не знаю, как повторить то, что делает моя гиперсеть. Ибо она конкретно почему-то делает стиль, а не теги, которые она училась делать 60 тысяч шагов. Хотя может быть в этом и суть, что она научилась их отделять за такую долгую тренировку... Очень трудно узнать, ибо тренировки таких гиперсетей требуют несколько дней, или часов 10-15 времени за раз.
Anzhc, А если в общих чертах? А то там аж, два арта с Моной, хоть теги примерные, все дела, или все аналогично статье? )
Grerya, Где 2? Один, просто продублирован. Проблема не в том, что это невозможно повторить. Я могу её перегенерировать когда угодно, и у меня не вызовет проблем сгенерировать тонну годного арта с Моной. Прпоблема в том, что у обычного человека на это не будет времени и знаний. Есть много переменных, которые у меня будут отличаться, как например широта слоёв гиперсети и их количество, численность и качественность датасета, переменный рейт тренировки, который у меня относительно детальный, хотя я до сих пор считаю, что он требует доработки.
Я методом научного тыка перепробовал много различных комбинаций, но данная гиперсеть, которая используется мною постоянно, была тренирована ещё до фиксов, её просто сейчас не повторить. Я НЕ знаю, будет ли сеть с идентичными настройками сейчас лучше или хуже в том, для чего она используется. Очень уникальный случай.
Grerya, прости, я тебя в чс случайно кинул :с Думал "удалить пользователя с сайта" это какой-то прикол, что выдаст мне забавную реакцию, а тут так ЧС называется. ЪУЪ. Ещё и убрать оттуда нельзя человека(
Kufos, Кек
Kufos, Не удаляй меня больше, мне жить нравится! Ах, да, ты же наверное меня теперь не видишь, редиска.
Grerya, кстати вижу, мож админы заметили коммент и поправили)