Qwen2.5-VL,Qwen 模型家族的旗舰视觉语言模型,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-Instruct 进行体验。此外,阿里在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在内的 3 个模型尺寸。
Qwen2.5-VL 的主要特点如下所示:
通过对视觉语言模型进行了全面的评估,比较了 SOTA 模型以及同尺寸规模模型中表现最好的模型。在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。值得注意的是,Qwen2.5-VL 在理解文档和图表方面具有显著优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调。
在较小的模型方面,Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,甚至超越了之前版本 Qwen2-VL 的 7B 模型。
Qwen2.5-VL 显著增强了其通用图像识别能力,大幅扩大了可识别的图像类别量级。不仅包括植物、动物、著名山川的地标,还包括影视作品中的 IP,以及各种各样的商品。
用户:这些景点是什么?请用中文和英文说出他们的名字。
Qwen2.5-VL 这些景点是: 1. 左上角: The Great Pyramids of Giza (埃及的吉萨大金字塔) 2. 右上角: The Great Wall of China (中国的长城) 3. 左下角: The Statue of Liberty (美国的自由女神像) 4. 右下角: The Terracotta Army (中国的秦始皇兵马俑)
Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位,可以实现层级化定位和规范的 JSON 格式输出。增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。
用户:检测图像中的所有摩托车手,并以坐标的形式返回他们的位置。输出格式应如{“bbox_2d”:[x1,y1,x2,y2],“标签”:“摩托车手”,“sub_label”:“戴头盔”#或“不戴头盔”}。
Qwen2.5-VL [ {"bbox_2d": [341, 258, 397, 360], "label": "motorcyclist", "sub_label": "not wearing helmat "}, {"bbox_2d": [212, 332, 274, 448], "label": "motorcyclist", "sub_label": "not wearing helmat "}, {"bbox_2d": [66, 124, 112, 198], "label": "motorcyclist", "sub_label": "not wearing helmat "}, {"bbox_2d": [5, 235, 63, 320], "label": "motorcyclist", "sub_label": "wearing helmat "} ]
Qwen2.5-VL 将 OCR 识别能力提升至一个新的水平,增强了多场景、多语言和多方向的文本识别和文本定位能力。同时,在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。
阅读图像中的所有文本,以行输出。
Qwen2.5-VL 平安喜樂 八方來財 順風順水順財神 暴富 大吉 諸事皆順 福 時來運轉 發財 如意 有錢有勢有前程 好運來
在 Qwen2.5-VL 中,设计了一种更全面的文档解析格式,称为 QwenVL HTML 格式,它既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。基于精心构建的海量数据,QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页、甚至手机截屏等等。
用户:QwenVL HTML
Qwen2.5-VL <html> <body> <h1 data-bbox="879 283 1605 348">Qwen2.5 Technical Report</h1> <p data-bbox="1124 406 1360 456"></p> <address class="author"><p>Qwen Team</p></address> <div class="image" data-bbox="778 491 850 541"><img data-bbox="778 491 850 541"/></div> <p data-bbox="885 491 1460 541">https://huggingface.co/Qwen</p> <div class="image" data-bbox="778 541 850 589"><img data-bbox="778 541 850 589"/></div> <p data-bbox="885 541 1708 589">https://modelscope.cn/organization/qwen</p> <div class="image" data-bbox="792 589 850 639"><img data-bbox="792 589 850 639"/></div> <p data-bbox="885 589 1584 639">https://github.com/QwenLM/Qwen2.5</p> <h2 data-bbox="1143 681 1344 733">Abstract</h2> <p data-bbox="434 785 2050 1252">In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. This provides a strong foundation for common sense, expert knowledge, and reasoning capabilities. In terms of post-training, we implement intricate supervised finetuning with over 1 million samples, as well as multistage reinforcement learning, including offline learning DPO and online learning GRPO. Post-training techniques significantly enhance human preference, and notably improve long text generation, structural data analysis, and instruction following.</p> <p data-bbox="434 1262 2050 1587">To handle diverse and varied use cases effectively, we present Qwen2.5 LLM series in rich configurations. The open-weight offerings include base models and instruction-tuned models in sizes of $0.5 \mathrm{~B}, 1.5 \mathrm{~B}, 3 \mathrm{~B}, 7 \mathrm{~B}, 14 \mathrm{~B}, 32 \mathrm{~B}$, and $72 \mathrm{~B}$ parameters. Quantized versions of the instruction-tuned models are also provided. Over 100 models can be accessed from Hugging Face Hub, ModelScope, and Kaggle. In addition, for hosted solutions, the proprietary models currently include two mixture-of-experts (MoE) variants: Qwen2.5-Turbo and Qwen2.5-Plus, both available from Alibaba Cloud Model Studio.</p> <p data-bbox="434 1587 2050 2052">Qwen2.5 has demonstrated top-tier performance on a wide range of benchmarks evaluating language understanding, reasoning, mathematics, coding, human preference alignment, etc. Specifically, the open-weight flagship Qwen2.5-72B-Instruct outperforms a number of open and proprietary models and demonstrates competitive performance to the state-of-the-art open-weight model, Llama-3-405B-Instruct, which is around 5 times larger. Qwen2.5-Turbo and Qwen2.5-Plus offer superior cost-effectiveness while performing competitively against GPT-4o-mini and GPT-4o respectively. Additionally, as the foundation, Qwen2.5 models have been instrumental in training specialized models such as Qwen2.5-Math (Yang et al., 2024b), Qwen2.5-Coder (Hui et al., 2024), QwQ (Qwen Team, 2024d), and multimodal models.</p> <div class="image" data-bbox="408 2275 2086 2800"><img data-bbox="408 2275 2086 2800"/></div> <p data-bbox="289 2864 2202 3058">Figure 1: In the iterative development of the Qwen series, data scaling has played a crucial role. Qwen 2.5, which leverages 18 trillion tokens for pre-training, has demonstrated the most advanced capabilities within the Qwen series, especially in terms of domain expertise, underscoring the importance of scale together with mixture in enhancing the model’s capabilities.</p> </body> </html>
Qwen2.5-VL 的视频理解能力经过全面升级,在时间处理上,引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。它不仅能够准确地理解小时级别的长视频内容,还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。
用户:观看视频,并在表格中列出论文标题。
https://qianwen-res.oss-accelerate-overseas.aliyuncs.com/Qwen2.5-VL/video_ocr.mp4
这是一张表格,列出了视频中的论文标题: 论文标题 具有时空嵌入的新顺序预测框架 NeW CRFs:用于单眼深度估计的神经窗口全连接CRF 异构推荐的深度统一表示 OFA:通过简单的序列到序列学习框架统一架构、任务和模式 KoMen:新兴场景的领域知识引导互动建议 Yiqing Xie 提升场景文本探测器的视觉语言预训练
通过利用内在的感知、解析和推理能力,Qwen2.5-VL 展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务,为创建真正的视觉代理提供了有价值的参考点。
用户:请帮我在预订应用程序中预订一张单程票。起点是重庆江北机场,终点是1月28日的北京首都机场
https://qianwen-res.oss-accelerate-overseas.aliyuncs.com/Qwen2.5-VL/agent_booking_with_log.mp4
与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。
在空间维度上,Qwen2.5-VL 不仅能够动态地将不同尺寸的图像转换为不同长度的 token,还直接使用图像的实际尺寸来表示检测框和点等坐标,而不进行传统的坐标归一化。这使得模型能够直接学习图像的尺度。在时间维度上,引入了动态 FPS (每秒帧数) 训练和绝对时间编码,将 mRoPE id 直接与时间流速对齐。这使得模型能够通过时间维度 id 的间隔来学习时间的节奏。
视觉编码器在多模态大模型中扮演着至关重要的角色。阿里从头开始训练了一个原生动态分辨率的 ViT,包括 CLIP、视觉 - 语言模型对齐和端到端训练等阶段。为了解决多模态大模型在训练和测试阶段 ViT 负载不均衡的问题,引入了窗口注意力机制,有效减少了 ViT 端的计算负担。在的 ViT 设置中,只有四层是全注意力层,其余层使用窗口注意力。最大窗口大小为 8x8,小于 8x8 的区域不需要填充,而是保持原始尺度,确保模型保持原生分辨率。此外,为了简化整体网络结构,使 ViT 架构与 LLMs 更加一致,采用了 RMSNorm 和 SwiGLU 结构。
电脑上先安装好 Git 和 Python 环境,没有的可以自行先去安装, 我用的是 Python 3.10.6 版本【点击下载】
git clone https://github.com/QwenLM/Qwen2.5-VL cd Qwen2.5-VL
pip install -r requirements_web_demo.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install -U gradio gradio_client
5. 下方是模型的下载安装,总共有 3 个选项:
较小的 3B 模型,建议在 GPU 内存有限的笔记本电脑(例如 8GB VRAM)上使用。
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"
显存高于 8G 的可以选择 7B 模型,性能更强、效果更好!
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"
如果是土豪,手里有专业级别的 GPU,那么可以直接上 72B 的最大模型,性能直冲天花板!
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"
执行命令后,首先下载模型,然后加载处理器和模型
安装完成后在浏览器上打开本地链接 http://127.0.0.1:7860 即可正常使用
Qwen2.5-VL 3 个完整开源版本已经托管在 hugging face 上,需要的可以自行去下载
开源模型:【 点击前往 】
当然如果你的电脑硬件不支持,那么可以直接使用官方的免费平台来使用,当然免费平台是共享 GPU,有额度限制。唯一的好处可以直接免费使用 Qwen 2.5 VL 最强的 78B 模型! Qwen 2.5 VL 免费官方平台 【 点击前往 】 测试效果如下:
DeepSeek:DeepSeek的出圈在时间上恰逢其时。其R1模型的推出正好填补了OpenAI不开源、不公开技术细节的市场空白。
此外,DeepSeek的低成本策略也正好契合了当时市场对算力成本的敏感度,从而迅速获得了市场的认可。
Qwen:Qwen的发布时间相对较早,但其在市场机遇的把握上不如DeepSeek敏锐。
虽然Qwen在技术上不断迭代和优化,但在关键的时间节点上未能像DeepSeek那样抓住市场痛点。
Qwen 作为阿里云开发的一系列大型语言模型,虽然在技术上追平甚至在某些指标上超过了 OpenAI 的产品,但其“出圈”和广泛关注的原因可能并不仅仅取决于核心技术指标。以下几点可能解释了为什么 Qwen 没有像 DeepSeek 那样在社交媒体和开发者社区中形成爆发式关注:
总之,技术实力只是成就产品影响力的一个方面,市场策略、用户体验、社区生态、以及宣传推广等多种因素综合作用,决定着一个产品能否在短时间内“出圈”。 Qwen 在企业级市场上的深耕和积累,可能在未来随着生态建设和市场反馈的不断完善,也会逐步赢得更广泛的关注和认同。
作为一枚一线的互联网技术人,对Qwen和DeepSeek都进行过深度体验,来聊一下我的看法。
Qwen 为什么没出圈?用户和开发者都是用脚投票的啊,谁好用就用谁呗,毫无疑问。
一切都是虚的,又快又好用永远是核心竞争力!这方面 DeepSeek 堪称王者,其他语言类AI无出其右!
Qwen2.5-Coder-32B在HumanEval评测中取得83.5%的准确率,确实超越DeepSeek Coder V2的81.2%。但开发者社区的真实反馈显示,在真实编程场景的上下文保持能力上,DeepSeek的响应稳定性评分达到4.7/5,高出Qwen的4.2分。这种"实验室精度"与"工程可用性"的落差,暴露了技术指标与用户体验的断层。
Qwen2.5-VL在MMLU多模态榜单的登顶,掩盖了其推理速度的短板。实测数据显示,处理相同规模的图文混合输入时,其响应延迟比竞品高出30%,这对于实时交互场景是致命伤。技术白皮书的精美图表背后,是开发者被迫增加缓存层带来的架构复杂性。
阿里云将Qwen深度绑定自家云计算平台,虽然确保了技术栈的统一性,却制造了三重生态隔离:
对比DeepSeek在GitHub建立的开放协作体系,其问题响应速度达到社区平均值的2.3倍。这种生态开放性差异,直接反映在开发者留存率上——Qwen社区用户的三个月活跃度仅为38%,而DeepSeek达到57%。
Qwen的技术文档保持着典型的"大厂风格":312页的PDF手册中,42%的篇幅在介绍技术原理,只有18%的内容涉及实战案例。开发者论坛的调研显示,新手需要平均7.6小时才能完成第一个可运行DEMO,这个数字在DeepSeek社区是2.3小时。
技术布道策略的差异更为显著。DeepSeek通过"72小时极速挑战赛"等活动,在大学生群体中实现裂变传播。其B站教程视频采用"代码可视化"交互模式,完播率高达78%。反观Qwen的技术分享会,仍以线下闭门会议为主,线上直播的平均观看时长仅19分钟。
阿里云在推广Qwen时,延续了其"企业服务"的惯性思维。市场物料中频繁出现的"金融级稳定""军工级安全"等表述,无形中抬高了中小开发者的心理门槛。第三方调研显示,个人开发者对Qwen的"高冷"印象分达到7.2/10,远高于行业平均的4.5分。
DeepSeek则精准切入开发者心智:
这种"开发者本位"的运营策略,使其在HackerNews等平台的自然讨论量达到Qwen的3.7倍。
Qwen选择的全模态技术路线,在战略上分散了资源投入。其视觉-语言联合训练框架需要消耗45%的算力资源,导致核心NLP模型的迭代速度滞后竞争对手2个版本周期。内部数据显示,代码模型团队获得的GPU配额仅为多模态团队的1/3。
DeepSeek的"垂直深挖"策略展现出更强的穿透力。其代码模型团队独创的AST(抽象语法树)增强训练法,使模型对编程语法的理解准确率提升27%。这种聚焦带来的技术红利,直接转化为开发者口碑。
阿里云对Qwen的商业化设计存在"场景错配":
DeepSeek构建的"梯度商业化"体系更具弹性:
这种灵活度使其商业客户数量在半年内增长400%,而Qwen同期增长仅为85%。
Qwen的社区运营延续传统IT服务模式:
DeepSeek重构了开发者关系链:
这些细节差异累积形成体验鸿沟,在Stack Overflow的开发者满意度调查中,DeepSeek以4.8分碾压Qwen的3.9分。
Qwen近期的改变已显露转机迹象。最新推出的QWQ推理框架,通过算子融合技术将推理速度提升40%,这个突破性进展开始吸引边缘计算领域的关注。其与某头部IDE厂商的合作,首次实现模型与开发环境的深度集成,安装量周环比增长170%。
在开源协议上的重大调整更具战略意义:将商业限制条款从原来的5页缩减至1页,并允许中小企业免费商用。这项政策变化直接引发GitHub星标数单周暴涨3000+,显示出技术实力需要匹配开放胸怀才能释放真正价值。
技术产品的市场穿透力从来不是单项竞赛,而是技术深度、生态温度、运营精度三位一体的综合较量。当Qwen开始卸下大厂光环,真正俯身倾听开发者的键盘敲击声时,这场追赶赛的终局或许才刚拉开序幕。
鄂公网安备 42068302000331号
温馨提示:本站所有内容均来自互联网,若有侵权请联系站长处理。联系邮箱:yangtata@vip.qq.com