首页 > 科技 > 正文
Qzone
微博
微信

AI助手豆包上线图片理解功能,可分析图中元素

科技 三易生活网 2024-12-06 09:34

日前有消息显示,字节跳动旗下AI智能助手豆包已上线图片理解功能,并在PC端及App新增照片和相机按钮,用户在上传图片后会自动识别、并给出答案。

据悉,豆包的图片理解功能可识别图片中包含的元素和基本特征,并解析其中的各类信息。例如在输入一张包含糖果和耳机的照片后,豆包会解答图中物品的外观、颜色等特征信息,并从这些信息中理解物品的种类,此外还能够解答图片中景点所处位置,或某个角色出自哪部作品。以上传一张景点的照片为例,豆包能够快速从图中景点的地貌特征,分析出照片拍摄于四川的墨石公园。

值得一提的是,豆包的图片理解功能不仅限于简单的信息提取,还可理解并解释图片中的幽默元素,例如在输入一张网络图片后,豆包就会解释这张图片的笑点、并分析造成幽默效果的因素。

近日豆包PC端还基于字节跳动通用图片编辑模型SeedEdit,上线了局部修图、氛围优化、一键换装、风格转换等功能。据悉,该功能使用户可以在生成图片后选择“继续编辑”,通过一句简单的指令实现“一键P图”,也能够提供“参考图”入口上传图片进行二次加工。

据了解,此前在今年8月豆包还上线了音乐生成功能,并提供流行、摇滚、R&B、爵士、雷鬼、电音等11种音乐风格,可选择男声或女声演唱,并且其生成的声音在吐字清晰度和流畅性上表现良好。为了让AI音乐更好地贴合用户的情感表达,还预设了快乐、伤感等11种情绪状态。

不久前有消息显示,豆包正内测视频生成功能。据称该功能具备“文生图”和“图生图”能力,支持动态运镜,还可选择不同的风格和比例,并且其所生成的视频可保持多镜头一致性。

此前官方曾透露,在产品能力日益完善的同时,豆包大模型的使用量也在快速增长。截至今年9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时增加十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: cxr4186

责任编辑: cxr4186
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-58206599     举报邮箱/未成年人举报:jubao@tomonline-inc.com