近日,百度发布了检索增强的文生图技术(iRAG),将百度搜索的亿级图片资源跟强大的基础模型能力相结合,可以生成各种超真实的图片,旨在解决大模型在图片生成上的幻觉问题。
那么,这个技术到底有多真实?如何通过它生成高质量的图片?下面,小编给大家展示一些生成的例子,以及,当文心iRAG面对提示词刺客,是否依旧抗打。
传送门:百度文心官方网站https://yiyan.baidu.com/
一、生成“无AI味”图片的技巧
1.精准描述是关键
AI生成结果的好坏很大程度上取决于你的输入描述(Prompt)。以下是一些示例:
● 明确主题:“一片冬日清晨的湖泊,湖面上有微薄的雾气,远处隐约可见雪山。”
● 细化细节:“20世纪风格的街景,地面有湿润的砖石,街灯昏黄,带有复古氛围。”
● 融合情感:“一对恋人坐在秋日公园的长椅上,阳光洒下斑驳光影,背景是微风吹动的金黄色树叶。”
描述小tips:避免使用模糊词语,比如“美丽的”“独特的”,要尽量具体。
2.选择合适的风格
写实风格:最适合想要生成自然场景、人物肖像的情况。
● 艺术插画:用于设计书籍封面、动画角色等。
● 未来科技:如果你需要科幻感的设计,这个模式是首选。
风格小tips:写实风格更容易生成“无AI味”的图片,但需要细化描述。
二、刁钻的提示词下还能“无AI味”吗
上难度,以下提示词设计了复杂的动态场景、文化符号和多层次元素的结合,看看文心iRAG表现如何,针对东方明珠、贝多芬、古罗马斗兽场等特定地点和人物,是否会出现幻觉问题。
提示词:“东方明珠塔夜景下的盛大烟火表演,背景中黄浦江的波光粼粼和对岸的高楼灯光清晰可见。塔身呈现紫色与粉色的灯光效果,顶部球体被烟火点缀成五彩斑斓的画面,地面有游客举着手机拍照,近景是一艘装饰华丽的龙舟游艇。”
测试点:
· 东方明珠塔的细节(形状、灯光分布)。
· 黄浦江及周边建筑的准确性。
· 是否能将动态烟火与静态场景合理结合。
· 是否生成不符合上海城市风格的元素。
2.提示词:“贝多芬坐在钢琴旁,身穿18世纪的深色燕尾服,他的桌上摆放着一张打开的乐谱,旁边有一只点燃的蜡烛和一片凌乱的羽毛笔。背景是一个欧式古典风格的房间,窗外能看到星空。”
· 贝多芬的特征是否清晰(面部特征、服饰)。
· 房间与乐器的历史真实性(钢琴、蜡烛、羽毛笔)。
· 是否生成与时间背景矛盾的现代元素。
3.提示词:“古罗马斗兽场的日出场景,残破的石墙被晨光染成金色,周围环绕着典型的罗马松树。天空中飞过几只鸽子,远处的地平线上隐约可见古罗马的其他建筑遗址。”
· 斗兽场的建筑细节(破损程度、石墙纹理)。
· 自然环境(松树、鸽子)的真实感和协调性。
· 是否混入与古罗马场景不符的元素(现代物品或建筑)。
看完以上例子,上海人民、贝多芬的“粉丝”、到过古罗马斗兽场的旅客……大家来找碴,文心iRAG是否读懂了提示词,是否出现幻觉问题。当然,文心iRAG的亮相带来了图像生成领域的新惊喜,但它并不是无懈可击的,也会出现瑕疵,尤其在复杂场景或冷门题材下,可这正是AI技术不断进步的动力,期待AI生图将“以假乱真”技能点满的一天。
AI美图