阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

软件科技1年前 (2023)发布 botnews
3.6K 0 0
阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型 Qwen-VLQwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

来源:QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud. (github.com)

 

© 版权声明

相关文章

司马阅(SmartRead),是一款AI文档阅读分析工具

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    4K壁纸

  • 视频

    随机动态

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置