原文来源:GenAI新世界
图片来源:由无界 AI生成
众所周知,如何在画面中输出文字一直是文生图大模型的弱项。不过最近阿里巴巴做的新模型AnyText给了这个难题一个解。
比如给出Prompt:“一张钢笔的电商广告,上边写有“双12大促!”,“出水流畅”,“立即发货”,“包邮”,“立减50”。”很快就能生成下面这张图片:
甚至不用修改都能直接当作电商图片来使用了。
目前,AnyText 支持中英日韩四种语言。该项目在魔搭社区放出了 Demo ,可以通过部署到本地使用,也可以直接在魔搭社区试用。
给出Prompt:“一面蓝色的墙,用中英日韩四种语言写着“happy,快乐,ジョイフル,즐거운””,之后 AnyText给出了这张图片:
虽然文字有点怪,但至少实现了文字输出功能。再换一个主题试一试,正好南方小土豆这个梗正火,我们跟着小土豆去哈尔滨看看:
效果不错,甚至让人觉得AnyText在文字输出能力这方面秒了当前最强的Midjourney。要知道前不久刚刚更新的Midjourney 还只能输出简单的英文,而且效果也只能说一般。
能通过理解Prompt之后,给出恰当的图案,同时辅以恰当的文字,整体不说艺术性有多高,但实用性是拉满了。至少做表情包又多了一个途径。
由AnyText生成
AnyText目前提供两种功能,一个是图片生成,一个是图片编辑。顾名思义,图片生成就是根据用户的描述来生成一张带有文字的图片,而图片编辑可以让AI帮助用户改变现有的图片中的文字。
图片编辑是AnyText一个非常实用的功能,只要将想要修改的图片上传,并在想要修改或添加文字的地方涂抹,同时写上提示词就可以对图片中的文字进行修改。既可以改变现有的文字内容,也可以单独为图片增加文本。
上图为AnyText修改后的效果,下图为原图
左图为原图,右图为修改后的效果
图片编辑这个功能可以在很大程度上提高各位美工老师修改图片的速度。不过有了AnyText之后,以后恐怕大家还要加倍小心来判断图片中内容的真假了。
而另一个就是图片生成功能,这其实是AnyText的主要功能,可以在一定程度上取代平面设计的工作。用户除了需要提供提示词之外,还可以对文字出现的位置进行调整。AnyText在这方面提供了三个不同的模式,分别是随机、手绘和拖框。
手绘模式可以让用户随机选择文字出现的位置,如果对于文字位置没有太好想法的用户,还可以利用拖框功能拖出一个长方形文本框,让AI在框内随机发挥。
手绘
拖框
如果想不到合适的位置,也可以直接选随机,让 AI 自行安排。
选好文字位置,我们就可以输入提示词,并调整图片的参数。让我们来看看更多 AnyText生成的图片效果吧:
在随机模式下提出要求:生成一张1980年的报纸,标题是“新报”
在手绘模式下输入:一个椭圆形的铭牌,写有“姓名:罗建成,ID:0875”
在手绘模式下输入:生成一个未来感的LOGO,标有“GENAI 新世界”
在拖框模式下输入:一幅古典人物画像,标有固体诗文“知否知否,应是绿肥红瘦”
随机模式下输入:画一个水果装饰的奶油蛋糕,下方写有“生日快乐”
在拖框模式下输入:一张儿童蜡笔画,森林中有一座糖果屋,标题是“糖果屋”
在手绘模式下输入:一位大妈站在公告板前,写有“安全生产”
各种图片证明,AnyText的文字表达能力和同行比起来挺强的,不管是中文还是英文都能清晰地让人辨认出来,甚至连古体字也能轻松表现。
但这就让人感觉非常遗憾了,因为在它的文字输出能力面前,AnyText的图片内容质量和理解能力都跟不上。这让AnyText像一个偏科生,虽然有一项表现特别出色的科目,但整体成绩平平。这比那些哪哪都不行的模型更让人觉得可惜。
AnyText还有一个很大的问题,就是生成时间的问题。虽然很多图片生成模型都需要一定的时间来生成内容,但没有像AnyText耗时这么长的。基本上一组图片生成需要耗时3—4分钟,甚至有的图片生成时间超过了5分钟。而 AnyText 自己给出的预估时间常与实际花费时间矛盾,让用户觉得等待时间更久。而且AnyText是不是还会出现Bug,让用户必须重新生成图片。
还有一点,AnyText 虽然可以改变图片的分辨率、强度、种子数、风格等专业参数,但这方面引导做的并不好,如果不是随意点开,许多人几乎都找不到改变参数的位置。生成式大模型都发展一年了,这些基础功能还需要人自己挖掘,这点挺令人遗憾的。
总体来说,AnyText并不算一款成熟的产品,虽然在文字输出方面有着自己的优势,但就目前的图片质量而言,想要投入实际使用恐怕还是要好好训练一段时间。