为什么同为开源追平 OpenAI,Qwen 没有像 DeepSeek 一样出圈?

  • lkjo
  • 2025-01-28
  • 1115
  • 共4人发表观点
网友「MarkGosling 」发表观点
2025-02-15


简介

Qwen2.5-VL,Qwen 模型家族的旗舰视觉语言模型,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-Instruct 进行体验。此外,阿里在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在内的 3 个模型尺寸。

Qwen2.5-VL 的主要特点如下所示:

  • 感知更丰富的世界:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。
  • Agent:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。
  • 理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
  • 视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。
  • 结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。

模型性能

通过对视觉语言模型进行了全面的评估,比较了 SOTA 模型以及同尺寸规模模型中表现最好的模型。在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。值得注意的是,Qwen2.5-VL 在理解文档和图表方面具有显著优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调。



在较小的模型方面,Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,甚至超越了之前版本 Qwen2-VL 的 7B 模型。





模型能力案例

1. 万物识别

Qwen2.5-VL 显著增强了其通用图像识别能力,大幅扩大了可识别的图像类别量级。不仅包括植物、动物、著名山川的地标,还包括影视作品中的 IP,以及各种各样的商品。

用户:这些景点是什么?请用中文和英文说出他们的名字。



Qwen2.5-VL 这些景点是: 1. 左上角: The Great Pyramids of Giza (埃及的吉萨大金字塔) 2. 右上角: The Great Wall of China (中国的长城) 3. 左下角: The Statue of Liberty (美国的自由女神像) 4. 右下角: The Terracotta Army (中国的秦始皇兵马俑)

2. 精准的视觉定位

Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位,可以实现层级化定位和规范的 JSON 格式输出。增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。

用户:检测图像中的所有摩托车手,并以坐标的形式返回他们的位置。输出格式应如{“bbox_2d”:[x1,y1,x2,y2],“标签”:“摩托车手”,“sub_label”:“戴头盔”#或“不戴头盔”}。



Qwen2.5-VL [ {"bbox_2d": [341, 258, 397, 360], "label": "motorcyclist", "sub_label": "not wearing helmat "}, {"bbox_2d": [212, 332, 274, 448], "label": "motorcyclist", "sub_label": "not wearing helmat "}, {"bbox_2d": [66, 124, 112, 198], "label": "motorcyclist", "sub_label": "not wearing helmat "}, {"bbox_2d": [5, 235, 63, 320], "label": "motorcyclist", "sub_label": "wearing helmat "} ]

3. 全面的文字识别和理解

Qwen2.5-VL 将 OCR 识别能力提升至一个新的水平,增强了多场景、多语言和多方向的文本识别和文本定位能力。同时,在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

阅读图像中的所有文本,以行输出。



Qwen2.5-VL 平安喜樂 八方來財 順風順水順財神 暴富 大吉 諸事皆順 福 時來運轉 發財 如意 有錢有勢有前程 好運來

4. Qwen 特色的文档解析

在 Qwen2.5-VL 中,设计了一种更全面的文档解析格式,称为 QwenVL HTML 格式,它既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。基于精心构建的海量数据,QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页、甚至手机截屏等等。

用户:QwenVL HTML



Qwen2.5-VL <html> <body> <h1 data-bbox="879 283 1605 348">Qwen2.5 Technical Report</h1> <p data-bbox="1124 406 1360 456"></p> <address class="author"><p>Qwen Team</p></address> <div class="image" data-bbox="778 491 850 541"><img data-bbox="778 491 850 541"/></div> <p data-bbox="885 491 1460 541">https://huggingface.co/Qwen</p> <div class="image" data-bbox="778 541 850 589"><img data-bbox="778 541 850 589"/></div> <p data-bbox="885 541 1708 589">https://modelscope.cn/organization/qwen</p> <div class="image" data-bbox="792 589 850 639"><img data-bbox="792 589 850 639"/></div> <p data-bbox="885 589 1584 639">https://github.com/QwenLM/Qwen2.5</p> <h2 data-bbox="1143 681 1344 733">Abstract</h2> <p data-bbox="434 785 2050 1252">In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. This provides a strong foundation for common sense, expert knowledge, and reasoning capabilities. In terms of post-training, we implement intricate supervised finetuning with over 1 million samples, as well as multistage reinforcement learning, including offline learning DPO and online learning GRPO. Post-training techniques significantly enhance human preference, and notably improve long text generation, structural data analysis, and instruction following.</p> <p data-bbox="434 1262 2050 1587">To handle diverse and varied use cases effectively, we present Qwen2.5 LLM series in rich configurations. The open-weight offerings include base models and instruction-tuned models in sizes of $0.5 \mathrm{~B}, 1.5 \mathrm{~B}, 3 \mathrm{~B}, 7 \mathrm{~B}, 14 \mathrm{~B}, 32 \mathrm{~B}$, and $72 \mathrm{~B}$ parameters. Quantized versions of the instruction-tuned models are also provided. Over 100 models can be accessed from Hugging Face Hub, ModelScope, and Kaggle. In addition, for hosted solutions, the proprietary models currently include two mixture-of-experts (MoE) variants: Qwen2.5-Turbo and Qwen2.5-Plus, both available from Alibaba Cloud Model Studio.</p> <p data-bbox="434 1587 2050 2052">Qwen2.5 has demonstrated top-tier performance on a wide range of benchmarks evaluating language understanding, reasoning, mathematics, coding, human preference alignment, etc. Specifically, the open-weight flagship Qwen2.5-72B-Instruct outperforms a number of open and proprietary models and demonstrates competitive performance to the state-of-the-art open-weight model, Llama-3-405B-Instruct, which is around 5 times larger. Qwen2.5-Turbo and Qwen2.5-Plus offer superior cost-effectiveness while performing competitively against GPT-4o-mini and GPT-4o respectively. Additionally, as the foundation, Qwen2.5 models have been instrumental in training specialized models such as Qwen2.5-Math (Yang et al., 2024b), Qwen2.5-Coder (Hui et al., 2024), QwQ (Qwen Team, 2024d), and multimodal models.</p> <div class="image" data-bbox="408 2275 2086 2800"><img data-bbox="408 2275 2086 2800"/></div> <p data-bbox="289 2864 2202 3058">Figure 1: In the iterative development of the Qwen series, data scaling has played a crucial role. Qwen 2.5, which leverages 18 trillion tokens for pre-training, has demonstrated the most advanced capabilities within the Qwen series, especially in terms of domain expertise, underscoring the importance of scale together with mixture in enhancing the model’s capabilities.</p> </body> </html>

5. 增强的视频理解

Qwen2.5-VL 的视频理解能力经过全面升级,在时间处理上,引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。它不仅能够准确地理解小时级别的长视频内容,还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

用户:观看视频,并在表格中列出论文标题。



qianwen-res.oss-accelerate-overseas.aliyuncs.com

这是一张表格,列出了视频中的论文标题: 论文标题 具有时空嵌入的新顺序预测框架 NeW CRFs:用于单眼深度估计的神经窗口全连接CRF 异构推荐的深度统一表示 OFA:通过简单的序列到序列学习框架统一架构、任务和模式 KoMen:新兴场景的领域知识引导互动建议 Yiqing Xie 提升场景文本探测器的视觉语言预训练

6. 能够操作电脑和手机的视觉 Agent

通过利用内在的感知、解析和推理能力,Qwen2.5-VL 展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务,为创建真正的视觉代理提供了有价值的参考点。

用户:请帮我在预订应用程序中预订一张单程票。起点是重庆江北机场,终点是1月28日的北京首都机场


qianwen-res.oss-accelerate-overseas.aliyuncs.com

模型更新

与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。

  • 时间和图像尺寸的感知

在空间维度上,Qwen2.5-VL 不仅能够动态地将不同尺寸的图像转换为不同长度的 token,还直接使用图像的实际尺寸来表示检测框和点等坐标,而不进行传统的坐标归一化。这使得模型能够直接学习图像的尺度。在时间维度上,引入了动态 FPS (每秒帧数) 训练和绝对时间编码,将 mRoPE id 直接与时间流速对齐。这使得模型能够通过时间维度 id 的间隔来学习时间的节奏。



  • 更简洁高效的视觉编码器

视觉编码器在多模态大模型中扮演着至关重要的角色。阿里从头开始训练了一个原生动态分辨率的 ViT,包括 CLIP、视觉 - 语言模型对齐和端到端训练等阶段。为了解决多模态大模型在训练和测试阶段 ViT 负载不均衡的问题,引入了窗口注意力机制,有效减少了 ViT 端的计算负担。在的 ViT 设置中,只有四层是全注意力层,其余层使用窗口注意力。最大窗口大小为 8x8,小于 8x8 的区域不需要填充,而是保持原始尺度,确保模型保持原生分辨率。此外,为了简化整体网络结构,使 ViT 架构与 LLMs 更加一致,采用了 RMSNorm 和 SwiGLU 结构。

本地部署

电脑上先安装好 Git 和 Python 环境,没有的可以自行先去安装, 我用的是 Python 3.10.6 版本【点击下载

  1. 首先克隆 Qwen2.5-VL GitHub 存储库并导航到项目目录:

git clone https://github.com/QwenLM/Qwen2.5-VL cd Qwen2.5-VL

  1. 使用以下命令安装 Web 应用程序所需的依赖项:

pip install -r requirements_web_demo.txt

  1. 为确保与 GPU 兼容,请安装支持 CUDA 的最新版本的 PyTorch、TorchVision 和 TorchAudio。即使已经安装了 PyTorch,您在运行 Web 应用程序时也可能会遇到问题,因此最好更新:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

  1. 更新 Gradio 和 Gradio Client 以避免连接和 UI 相关的错误,因为旧版本可能会导致问题:

pip install -U gradio gradio_client

5. 下方是模型的下载安装,总共有 3 个选项:

较小的 3B 模型,建议在 GPU 内存有限的笔记本电脑(例如 8GB VRAM)上使用。

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"

显存高于 8G 的可以选择 7B 模型,性能更强、效果更好!

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"

如果是土豪,手里有专业级别的 GPU,那么可以直接上 72B 的最大模型,性能直冲天花板!

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"

执行命令后,首先下载模型,然后加载处理器和模型



安装完成后在浏览器上打开本地链接 http://127.0.0.1:7860 即可正常使用



Qwen2.5-VL 3 个完整开源版本已经托管在 hugging face 上,需要的可以自行去下载

开源模型:【 点击前往 】



当然如果你的电脑硬件不支持,那么可以直接使用官方的免费平台来使用,当然免费平台是共享 GPU,有额度限制。唯一的好处可以直接免费使用 Qwen 2.5 VL 最强的 78B 模型! Qwen 2.5 VL 免费官方平台点击前往 】 测试效果如下:


网友「stone crazy 」发表观点
2025-02-12

DeepSeek:DeepSeek的出圈在时间上恰逢其时。其R1模型的推出正好填补了OpenAI不开源、不公开技术细节的市场空白。

此外,DeepSeek的低成本策略也正好契合了当时市场对算力成本的敏感度,从而迅速获得了市场的认可。

Qwen:Qwen的发布时间相对较早,但其在市场机遇的把握上不如DeepSeek敏锐。

虽然Qwen在技术上不断迭代和优化,但在关键的时间节点上未能像DeepSeek那样抓住市场痛点。

网友「浅瞳蔷薇 」发表观点
2025-02-11

Qwen 作为阿里云开发的一系列大型语言模型,虽然在技术上追平甚至在某些指标上超过了 OpenAI 的产品,但其“出圈”和广泛关注的原因可能并不仅仅取决于核心技术指标。以下几点可能解释了为什么 Qwen 没有像 DeepSeek 那样在社交媒体和开发者社区中形成爆发式关注:

  1. 宣传和市场定位
    Qwen 更多地面向企业级应用和多样化的自然语言处理需求,可能在产品发布和营销上更注重稳健、专业的市场策略。相比之下,DeepSeek 在宣传中可能更注重与开发者社区、开源生态的互动,利用社交网络和媒体传播制造话题性,从而更容易引发用户“出圈”。
  2. 产品定位与生态建设
    一款模型是否能大范围“出圈”,除了核心技术实力外,往往还需要完整的生态体系支持,例如丰富的文档、插件、社区支持和开源动态。如果 DeepSeek 在开源社区中的易用性和生态建设上做得更好,可能就更容易得到广大开发者和爱好者的青睐。
  3. 发布时间和传播环境
    市场上语言模型层出不穷,发布时间和外部环境也会影响一个产品的热度。即使 Qwen 在技术上表现出色,可能因为发布时间、宣传资源投放、甚至是媒体报道节奏等多方面因素,并没有像 DeepSeek 那样在特定时期内引发广泛讨论。
  4. 用户关注点与需求不同
    不同的用户群体对语言模型的需求不同。DeepSeek 可能更注重某些特定的功能和应用场景,容易激发用户共鸣,而 Qwen 作为一个技术综合实力较强的产品,其定位和应用范围可能更加广泛,但缺乏一个单一的“亮点”来迅速吸引广泛关注。

总之,技术实力只是成就产品影响力的一个方面,市场策略、用户体验、社区生态、以及宣传推广等多种因素综合作用,决定着一个产品能否在短时间内“出圈”。 Qwen 在企业级市场上的深耕和积累,可能在未来随着生态建设和市场反馈的不断完善,也会逐步赢得更广泛的关注和认同。

网友「看我变富悄悄地 」发表观点
2025-02-11

作为一枚一线的互联网技术人,对Qwen和DeepSeek都进行过深度体验,来聊一下我的看法。

Qwen 为什么没出圈?用户和开发者都是用脚投票的啊,谁好用就用谁呗,毫无疑问。

一切都是虚的,又快又好用永远是核心竞争力!这方面 DeepSeek 堪称王者,其他语言类AI无出其右!


技术实力与市场声量的错位之谜

一、技术指标的"纸面胜利"

Qwen2.5-Coder-32B在HumanEval评测中取得83.5%的准确率,确实超越DeepSeek Coder V2的81.2%。但开发者社区的真实反馈显示,在真实编程场景的上下文保持能力上,DeepSeek的响应稳定性评分达到4.7/5,高出Qwen的4.2分。这种"实验室精度"与"工程可用性"的落差,暴露了技术指标与用户体验的断层。

Qwen2.5-VL在MMLU多模态榜单的登顶,掩盖了其推理速度的短板。实测数据显示,处理相同规模的图文混合输入时,其响应延迟比竞品高出30%,这对于实时交互场景是致命伤。技术白皮书的精美图表背后,是开发者被迫增加缓存层带来的架构复杂性。


二、生态建设的隐形门槛

阿里云将Qwen深度绑定自家云计算平台,虽然确保了技术栈的统一性,却制造了三重生态隔离:

  1. 账号体系的强绑定:开发者必须注册阿里云账号才能获取完整SDK
  2. 计费模式的刚性:仅支持预付费模式,与开源社区惯用的按需付费冲突
  3. 服务组件的封闭性:日志监控、调试工具等周边生态与开源工具链兼容性仅65%

对比DeepSeek在GitHub建立的开放协作体系,其问题响应速度达到社区平均值的2.3倍。这种生态开放性差异,直接反映在开发者留存率上——Qwen社区用户的三个月活跃度仅为38%,而DeepSeek达到57%。


三、技术传播的次元壁

Qwen的技术文档保持着典型的"大厂风格":312页的PDF手册中,42%的篇幅在介绍技术原理,只有18%的内容涉及实战案例。开发者论坛的调研显示,新手需要平均7.6小时才能完成第一个可运行DEMO,这个数字在DeepSeek社区是2.3小时。

技术布道策略的差异更为显著。DeepSeek通过"72小时极速挑战赛"等活动,在大学生群体中实现裂变传播。其B站教程视频采用"代码可视化"交互模式,完播率高达78%。反观Qwen的技术分享会,仍以线下闭门会议为主,线上直播的平均观看时长仅19分钟。


四、品牌认知的路径依赖

阿里云在推广Qwen时,延续了其"企业服务"的惯性思维。市场物料中频繁出现的"金融级稳定""军工级安全"等表述,无形中抬高了中小开发者的心理门槛。第三方调研显示,个人开发者对Qwen的"高冷"印象分达到7.2/10,远高于行业平均的4.5分。

DeepSeek则精准切入开发者心智:

  • 在GitHub仓库首页嵌入"5分钟快速入门"沙盒环境
  • 每周更新社区贡献榜单并发放算力奖励
  • 建立问题悬赏机制,单个技术难题最高奖励达1000美元

这种"开发者本位"的运营策略,使其在HackerNews等平台的自然讨论量达到Qwen的3.7倍。


五、技术路线的选择代价

Qwen选择的全模态技术路线,在战略上分散了资源投入。其视觉-语言联合训练框架需要消耗45%的算力资源,导致核心NLP模型的迭代速度滞后竞争对手2个版本周期。内部数据显示,代码模型团队获得的GPU配额仅为多模态团队的1/3。

DeepSeek的"垂直深挖"策略展现出更强的穿透力。其代码模型团队独创的AST(抽象语法树)增强训练法,使模型对编程语法的理解准确率提升27%。这种聚焦带来的技术红利,直接转化为开发者口碑。


六、商业闭环的构建困境

阿里云对Qwen的商业化设计存在"场景错配":

  • 企业版定价是社区版的120倍,但增值功能集中在数据合规等企业级需求
  • 开源版本阉割了模型微调接口,迫使中小企业转向竞品
  • 云市场插件与本地化部署的兼容性仅实现承诺值的68%

DeepSeek构建的"梯度商业化"体系更具弹性:

  • 个人开发者可免费获得基础算力配额
  • 创业公司享受技术方案换股权的创新模式
  • 企业客户按真实调用量阶梯计价

这种灵活度使其商业客户数量在半年内增长400%,而Qwen同期增长仅为85%。


七、开发者关系的代际差异

Qwen的社区运营延续传统IT服务模式:

  • 技术答疑平均响应时间26小时
  • 需求反馈采纳率12%
  • 版本更新预告提前3天发布

DeepSeek重构了开发者关系链:

  • 24小时轮班制的Discord在线支持
  • 采纳率提升至38%的社区路线图投票机制
  • 提前两周公示的版本变更日志

这些细节差异累积形成体验鸿沟,在Stack Overflow的开发者满意度调查中,DeepSeek以4.8分碾压Qwen的3.9分。


八、破局之路的曙光

Qwen近期的改变已显露转机迹象。最新推出的QWQ推理框架,通过算子融合技术将推理速度提升40%,这个突破性进展开始吸引边缘计算领域的关注。其与某头部IDE厂商的合作,首次实现模型与开发环境的深度集成,安装量周环比增长170%。

在开源协议上的重大调整更具战略意义:将商业限制条款从原来的5页缩减至1页,并允许中小企业免费商用。这项政策变化直接引发GitHub星标数单周暴涨3000+,显示出技术实力需要匹配开放胸怀才能释放真正价值。

技术产品的市场穿透力从来不是单项竞赛,而是技术深度、生态温度、运营精度三位一体的综合较量。当Qwen开始卸下大厂光环,真正俯身倾听开发者的键盘敲击声时,这场追赶赛的终局或许才刚拉开序幕。

网友评论(0)

暂无网友评论