DEV Community

Danny Chan
Danny Chan

Posted on

解锁高质量逼真图片:AWS Bedrock的技巧与窍门

为什么你应该熟悉Bedrock:

70%的企业利用AI服务实现业务增长和沟通。
68%的营销和活动组织利用生成式AI提升用户体验和参与度。
90%的客户认为生成式AI可以增强线上和线下的销售服务。
如果你的企业还没有使用生成式AI,是时候了解一下AWS Bedrock。

生成式AI让你能做什么:

生成创意、概念和草图,提升人类创造力。
根据个人偏好定制个性化内容,改善用户体验。
自动批量生成内容,促进大规模制作。
创建逼真的模拟场景。

AWS Bedrock是什么:

一项全面托管的服务。
提供多种高性能基础模型(Foundation Models,简称FM),用于构建生成式AI应用。

游乐场:
提供交互式的文本、聊天和图像探索游乐场。

协同知识库:
允许使用自己的数据定制和微调FM,同时确保符合GDPR和HIPAA等标准的隐私、安全和合规性。

单一代理API:
提供用户友好的单一代理API,轻松进行应用推理。

无服务器架构:
按需付费,无需长期承诺,无需基础架构管理,自动可扩展。专注于你想要实现的目标,无需担心与代码连接基础模型。

可用的基础模型:

AI21 Labs: Jurassic
Anthropic: Claude
Cohere: Command & Embed
Meta: Llama 2
Mistral AI: Mixtral 8x7B 和 Mistral 7B
Stability AI: Stable Diffusion XL
Amazon: Amazon Titan
最新支持的模型:Claude 3

我的角色:

协助金融服务公司采用生成式AI,优化开发工作流程和可投入生产的系统。
专注于Titan v1(简版和快速版)和Claude 3这两个基础模型。

利用免费的Bedrock环境:

中国AWS提供了一个免费的Bedrock环境,供探索生成式AI功能。
无需付费即可生成无数张图片,展示Bedrock的性能。

创建逼真的概念图片:

为概念验证项目开发了为期两天的香港现场会议项目。
优化图片以在社交媒体上分享,吸引和吸引观众。
利用AWS Bedrock上的Titan v1和Claude 3基础模型。

提升准确性的技巧和窍门:

以下是根据你的期望提高图片准确性的一些方法。

1 Bedrock对背景理解有限的方法
2 Bedrock对手势表示限制的方法
3 Bedrock对眼神接触和质量的方法

问题:Bedrock对背景的理解有限

Bedrock经常生成带有默认、不太令人兴奋的背景,例如会议展台。
对场地活动的理解不足导致视觉效果不够吸引人。

创建有趣的背景:

使用生动的描述帮助Bedrock捕捉你所期望的氛围和情感。
加入更多通用环境细节,如室外、室内、夜晚或阳光明媚的设置。

期望的图片类型:
愉快的云雾后派对、户外聚会、夜总会和餐厅等。
Bedrock在创造愉快、凉爽的氛围方面表现出色。

例子:
拥挤环境:聚会、峰会、会议

Image description

派对
Image description

问题:Bedrock的手势表示

当戴着帽子和提包等道具时,Bedrock经常生成带有奇怪手势和不真实形象的图片。

了解Bedrock的限制:
手势对许多基础模型都是一个挑战,不仅仅是Titan。
更换模型无法解决这个问题。

Image description

改善手势的技巧:
避免复杂的手部姿势和动作,如握杯或拿包。
基础模型擅长绘制拳头或张开的手掌,而无需特定手势。
设计需要拳头或张开的手掌的任务,例如控制摇杆或拿书。
观察日常生活,了解常见的手势,以获得更准确的描绘。

好消息:
基础模型可以准确描绘握拳或展示手掌而不需要特定手势。

好手势示例:
控制摇杆(握拳)
拿书(手指不与物体接触,简单任务)
竖起大拇指(类似握拳)
DJ在面板上播放音乐(展示手掌背面,无特定手势)
拍摄肖像(交叉手臂)

Image description

Image description

逼真手势的技巧:
记住基础模型缺乏对人体结构的理解和熟悉。
日常生活观察可以提供关于各种活动中自然手势的见解。

手势的高级技巧:
为了微调手势,考虑使用直接处理身体和手势的基础系统。

问题:Bedrock的眼神接触和质量

Bedrock经常生成肖像图片,模特没有看向摄像头或眼神位置不平衡。
这导致奇怪和不专业的照片。

Image description

了解眼神接触的挑战:
一些基础模型在生成肖像时存在困难,人类对眼神接触的敏感性加剧了这个问题。

提高图片质量:
提高眼神接触质量需要大量的努力,可能不适合概念验证的目的。

利用Titan的优势:
Titan在整体质量上表现更好,包括面部表情和眼睛平衡,特别是对戴眼镜的模特。
通过引入"太阳镜"和指定"在阳光下"来避免强烈的眼神接触,充分利用这一点。
这种方法可以生成时尚有趣的图片,非常适合社交媒体和概念艺术。

Image description

增添吸引力:
Titan在特定主题上表现出色,如F1和工程制服。
利用这方面的专业知识,创建与真实工程相关的图片,利用AWS社区的工程背景。

Image description

随机结果的技巧:

批量生成五张图片,并调整种子或引入更多随机模式,增加获得杰作的机会。

Image description

考虑单数和复数:

Titan可能会忽略复数表示,导致只有个体而不是群体。
为确保准确性,使用诸如"一群模特"之类的短语以获得所需的结果。

Image description

理解物体关系:

Titan难以理解图片中的物体关系。

避免涉及多个物体的复杂任务,因为结果可能是幽默或意外的。
简化任务,以确保更准确可靠的图像生成。

Image description

为什么你需要学习提示工程重要性:

提示工程是一项易于学习但需要努力掌握的技能。
它需要耐心进行试错,并且需要运气才能生成引人入胜的图片。

利用模型的优势:

了解模型的优势,以生成高质量的图片。
例如,Titan擅长描绘制服、太阳镜和在阳光下的模特。

Image description

避免使用模型的限制:

识别模型的弱点并避免使用它们。
例如,Titan在戴帽子时手势存在困难,或者描绘密集群体时存在困难。

Image description

Image description

Image description

Image description

Image description

Bedrock的好处:Bedrock可以帮助您

游戏行业:
快速创建用于概念验证项目的概念艺术集和演示视频。

娱乐公司或小型企业:
为与合作举办派对的场地平面图协作生成场所视觉效果。

多渠道市场销售:
在Facebook、LinkedIn和Twitter等平台上创建视觉吸引力强的图形和上下文,用于交叉销售和增值销售。

Top comments (1)

Collapse
 
kennc profile image
Kenn C • Edited

很精彩的文章。我会尝试生成这种图片。