日前有消息显示,字节跳动旗下AI智能助手豆包已上线图片理解功能,并在PC端及App新增照片和相机按钮,用户在上传图片后会自动识别、并给出答案。
据悉,豆包的图片理解功能可识别图片中包含的元素和基本特征,并解析其中的各类信息。例如在输入一张包含糖果和耳机的照片后,豆包会解答图中物品的外观、颜色等特征信息,并从这些信息中理解物品的种类,此外还能够解答图片中景点所处位置,或某个角色出自哪部作品。以上传一张景点的照片为例,豆包能够快速从图中景点的地貌特征,分析出照片拍摄于四川的墨石公园。
值得一提的是,豆包的图片理解功能不仅限于简单的信息提取,还可理解并解释图片中的幽默元素,例如在输入一张网络图片后,豆包就会解释这张图片的笑点、并分析造成幽默效果的因素。
近日豆包PC端还基于字节跳动通用图片编辑模型SeedEdit,上线了局部修图、氛围优化、一键换装、风格转换等功能。据悉,该功能使用户可以在生成图片后选择“继续编辑”,通过一句简单的指令实现“一键P图”,也能够提供“参考图”入口上传图片进行二次加工。
据了解,此前在今年8月豆包还上线了音乐生成功能,并提供流行、摇滚、R&B、爵士、雷鬼、电音等11种音乐风格,可选择男声或女声演唱,并且其生成的声音在吐字清晰度和流畅性上表现良好。为了让AI音乐更好地贴合用户的情感表达,还预设了快乐、伤感等11种情绪状态。
不久前有消息显示,豆包正内测视频生成功能。据称该功能具备“文生图”和“图生图”能力,支持动态运镜,还可选择不同的风格和比例,并且其所生成的视频可保持多镜头一致性。
此前官方曾透露,在产品能力日益完善的同时,豆包大模型的使用量也在快速增长。截至今年9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时增加十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读: