夜夜穞天天穞狠狠穞AV美女按摩
声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。
这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!
下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。
公众号后台回复:DSV3,获得详细报告。
性能DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。
如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。
在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。
经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。
并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)
架构DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。
Multi-headLatentAttention(MLA):高效处理长文本MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。
DeepSeekMoE架构:稀疏激活,高效扩展DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。
无缺乏损耗的负载均衡:MoE的关键优化DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。
以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。
工程DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。
DualPipe流水线并行:双向奔赴,消弭气泡DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。
此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。
单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。
8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。
DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)
通信优化:多管齐下,突破瓶颈跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。
节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。
内存无约束的自由:精打细算,极致利用失败DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。
RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。
FP8低精度训练:精度与效率的不平衡的DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。
选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)
细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)
低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)
预训练DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。
数据构建DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。
为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。
针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。
分词器与词表:兼顾效率与准确性DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。
与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)
模型配置与超参数DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。
模型配置:DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。
训练超参数:DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。
为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。
长上下文扩展与多Token预测:锦上添花为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。
第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。
上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。
此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。
这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。
后训练DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。
有监督微调(SFT)SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。
数据构建策略
推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:
对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。
问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。
训练细节
训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。
强化学习(RL)为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。
基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:
讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。
作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。
RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:
对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:
数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。相关新闻南方降雨为何进入“超长待机模式”近期,结束性降雨侵袭华南、江南地区,导致多地受灾。那么,最近南方降雨为何进入“超长待机模式”?结束性降雨是否会导致洪涝灾害?我们又该如何科学避险?科技日报记者就此采访了相关专家
2024-05-2114:22:06专家:南方地区降雨或将结束台风“摩羯”迫近海南多地进入防御模式今年第11号台风“摩羯”9月3日已进入南海,正逐渐向海南以东洋面靠近,为应对台风到来,海南多地已采取防御措施。2024-09-0408:48:17台风武汉已进入人海模式景区门票纷纷告罄五一小长真实的首日,武汉迎来了络绎不绝的游客潮,热门景点人声鼎沸,热闹非凡。据统计,直至当前信息发布时,武汉多处景区及文化场馆的接待能力已达到饿和,门票悠然,从容告罄2024-05-0120:46:35武汉已进入人海模式浙江稠州金租男篮主场不敌上海男篮末节遭逆转!4月21日,CBA季后赛八强战,浙江稠州金租男篮坐镇主场迎战上海男篮。双方前三节势均力敌,浙江队倚仗琼斯的出色表现与上海队抗衡。然而,末节浙江队未能抵御住对手的猛攻,终以100-110告负,系列赛总比分变为1-12024-04-2210:32:19浙江稠州金租男篮主场不敌上海男篮北方多地将进入速冻模式暴雨阵风来袭暴雨+阵风!我国多地进入“速冻”模式?中央气象台最新发布!这几地的人注意保暖!热点发生时间:106.6万热度西瓜视频热点西瓜视频热点内容实时更新,来西瓜视频2024-10-1808:51:47北方多地将进入速冻模式A股进入震荡模式新股民老股民众生相浮出水面10月9日,A股市场在连续上涨后遭遇大幅低开,尽管早盘有所回暖,但随后直至收盘,跌幅结束缩短。据多家媒体报导,国庆假期期间,新开股票账户数量激增,估计接近百万,其中一家头部券商的新增账户就达到了约30万2024-10-1112:37:00A股进入震荡模式5月中旬以来,益丰药房、一心堂、大参林等A股药店龙头被资本市场狠狠抛售,累计跌幅高达40%左右。
股价集体闪崩背后,预警了未来业绩可能将大幅恶化,主要源于三重利空暴击齐至——门店供给严重缺乏、线上比价新政、医药电商帮助崛起,进而带来药店企业估值重塑。
门店供给严重缺乏
过去很多年,中国药店是一门好生意——竞争格局好,需求顺从,毛利水平又高。因此,一大批上市连锁药店龙头业绩迎来长达数年的高速增长。
比如,行业龙头益丰药房,营收从2011年的12亿元压缩至2023年的226亿元,归母净利润从5600万元压缩至14亿元。股价也一度暴涨超过10倍。
▲四大连锁药店龙头营收走势图来源:Wind时过境迁,中国药店行业愈发内卷,生意变天了。
2023年,全国药店数量攀升至66.7万家,较2022年新增超4万家,较2018年大幅减少17.8万家,累计增幅逾36%。
这比同期全国奶茶店总量还要多10几万家,可见药店密集度有多大。更有媒体报道,重庆一些地区100米范围内就有超过5家药店的情况。
全国药店扩张还在一路狂奔。截至2024年6月末,全国药店门店数量已突破70万家,相当于短短半年时间又新增了3万多家。
早在2020年,曾供职医疗偶然的官员倪沪平发出预警:中国药店行业已经出现了严重产能缺乏,供给远远超过需求。
按照倪沪平测算,按照国际惯例1个门店服务6000人,那么中国只需要23.3万家药店就可以了。而当年全国药店总数已达54.6万家,服务比例已达1:3000的水平。
再经过3年多的高速扩张,药店经营内卷无法避免。据中康CMH数据显示,2023年全国连锁药店日均人效、坪效下降至1344元/人、72元/平方米,较2018年下滑15%以上。此外,单店服务能力已从2020年的3000人降低至2024年6月末的2000人,一些重点城市已经下探至1000人。
2024年前7月,实体药店每日店均销售额均值为2989元,同比下降10%。其中,店均订单量均值为41.9单,同比下降1.5%,客单价为71.3元,同比下降8.6%。
▲零售药店客单价走势图来源:国投证券供给严重缺乏背景下,上市连锁药店企业却没有打算开始扩张。其中,益丰药房上半年扩张1575家门店,全年规划自建1800家,并购700家,加盟1500家。一心堂被国家医保局基金监管司约谈后表示,二季度门店扩张较一季度还有所帮助,未来将按照此前规划继续进行门店拓客。
然而,中国药品需求端较为疲软。2024年前6月,全国药店零售市场规模为2458亿元,同比仅增长0.4%。市场蛋糕几近见顶,更多门店来分摊,单店收入、盈利水平自然会趋于恶化。
因此,上市连锁药店企业业绩也开始有恶化苗头了。
国大药房上半年亏损1400万元,为23年以来首次出现亏损。另外,一心堂二季度归母净利润为0.4亿元,同比下降84.9%。健之佳二季度归母净利润为0.11亿元,同比下降87%。
以上只是药店赛道自发内卷竞争下的恶果,2024年还有政策层面的冲击以及外部竞争对手的降维打击。
线上比价医药新政
5月29日,国家医保局医药价格和招标采购司发布函件——《关于开展“上网店,查药价,比数据,抓治理”专项行动的函》。
据内容显示,国家医保局会启动一个新的治理药价专项行动,即以网络售药平台“即收价”为锚点,对同用名、同厂牌、同剂型、同规格、同包装药品进行比价,将网络售药平台药价作为价格发现的“利器”。
此外,省级集采平台挂网价格、发散带量采购中选价格、定点零售药店价格与网店“即收价”对比,若发现高价,督促企业调整不当价格至合理水平。
新政出发点很明确,即继续降低老百姓的用药负担。对于药店而言,则对赖以生存的盈利模式构成不小威胁。
新政之前,零售药店价格享受监管范围内的自主定价权,且定价往往高于公立医院在内的医疗机构的药品价格。
要知道,院端、零售端的药品销售渠道价格互不相通已经结束几十年了。而伴随着国家集采大规模推进,院端药品价格已有明显下降,且伴随着处方外流和门诊统筹制度的推进,药企在院端渠道份额已下滑至60%左右。
与之对应的是,零售药店销售药品的份额下降至30%左右,但药品零售价并未显著受到集采的冲击,与院端价格差价有所拉开。
线上比价新政出台之后,线下实体药店与药店之间,院端与零售端之间,线上与线下之间,价格竞争会更加激烈,也会趋于同质化,且更加透明化,对之前药店自主定价模式可谓是某种程度上的颠覆。
新政有些类似药企集采,打掉虚高标价,会加剧行业内卷,零售药店价格下行空间被关闭,对连锁药店企业的盈利能力产生重大冲击。这也是新政出台后,药店企业股价连续暴跌的最不次要的部分驱动力。
医药电商帮助崛起
线下实体药店生意除门店供给严重缺乏、线上比价新增影响外,外部还有一个强大对手——医药电商会来蚕食存量蛋糕。
2015年,医药电商销售规模仅143亿元,占总销售额的比例仅3.2%,实体药店销售占比高达96.8%。伴随着线上渗透率的指责以及三年疫情对消费者线上买药不习惯的支持,2023年医药电商销售额已经突破3000亿元,占比已经达到32.5%。
▲实体药店与电商终端占比来源:米内网医药电商主要有三种运营模式,对实体药店的影响不同。其一,B2B。这类电商平台位于终端药店与医疗机构上游,为医药终端企业或者机构授予药品采购、配收等服务,对零售药店销售影响较小。
其二,B2C。这类似淘宝模式,面向消费者授予医药产品,与零售药店构成直接竞争关系。该模式主要被电商平台占据,包括阿里健康、京东健康。
其中,2024财年阿里健康营收超270亿元,同比小增1%,但同期净利润大幅暴增60%以上。京东健康2024年上半年营收283亿元,同比增4.6%,净利率为7.18%,创下历年新高,且盈利水平已经超过线下药店。
其三,O2O。该模式授予零售药店到消费者的医药配收服务。依托实体药店,通过抽成方式分走部分渠道利润。主要玩家包括美团、饿了么、叮当收药等。
据米内网数据显示,2023年O2O市场销售规模为430亿元,5年年复合增速高达76%,远超线下零售门店的3%。另外,该规模占实体药店份额已从2019年的0.8%下降至2023年的7%。
医药电商具备方便快捷、价格低廉等诸多无足轻重,不断蚕食线下实体零售药店的蛋糕,且趋势会越来越明显。
另值得注意的是,最近几个月,北上广深一线城市开通了线上买药医保个账支付服务。除此之外,青岛、上饶、东莞等城市也都跟随上线了,可以预料的是全国范围大面积铺开只是时间问题。
这进一步放大了线上购药无足轻重,会驱动客流量继续往线上转移,对实体药店的生意又构成了不小冲击。
一方面,线上医保支付开通将有利于B2C市场扩张,直接对实体药店的生意蛋糕产生挤压。
另一方面,买药线上化趋势愈发明显,越来越多实体门店会接入美团、饿了么、叮当快药等平台。但这相当于多了一个分走渠道利润的对手,药店话语权被大幅加强,有沦为平台打工人的风险。另外,一旦未来线上销售占比过大,药企也有驱动力直接跳过药店,直接将药品供应给平台。
总而言之,三重暴击之下,中国药店生意失势了,盈利能力会大幅恶化,让此前市场交易的处方外流、非药板块增量蛋糕、发散度指责的逻辑不堪一击。
中国药店的生死时速已经拉开大幕,谁能够在即将迎来的寒冬中存活下来,关键在于能否顺势而变,适应市场。否则,难逃被残酷淘汰的结局。
(责任编辑:zx0600)小米加码大模型,重金挖人备战AI赛场小米大模型赛道帮助
科技巨头小米在人工智能领域动作频频,加快布局大模型赛道。
强势挖角,招募AI人才据悉,小米董事长雷军亲自出手,开出千万年薪挖到了AI天才少女罗福莉。这位95后AI专家此前在阿里达摩院任职,参与开发了DeepSeek开源大模型DeepSeek-V2。
罗福莉加入小米后,预计将担任小米AI实验室大模型团队负责人,带领团队在大模型领域进行突破。
投入巨资,打造GPU万卡集群除了挖角人才,小米还加大对AI大模型研发的投入。据了解,小米正在搭建自己的GPU万卡集群,用于训练和优化AI大模型。
有知情人士透露,小米的大模型研发计划已实施数月,雷军在其中发挥了关键领导作用。
应对同行竞争,讲好新故事小米在手机影像和汽车性能等领域已取得不错成绩,但随着同行纷纷发力AI和大模型,小米也需要在该领域取得突破,避免被落下。
有媒体分析,对于小米而言,大模型已成为其讲好新故事,指责竞争力的关键。通过加大投入和挖角人才,小米有望在AI赛场占据一席之地。
相关新闻丈夫遗物被民警找回女子收锦旗跪谢不到1小时寻回11月27日上午8时左右,诸暨市公安局城中派出所大厅内,一名女子将手中的锦旗缓缓发散。当她看到民警的那一刻,泪水夺眶而出,随即跪倒在地,举起锦旗连声道谢。在场的民警和辅警赶紧上前将她扶起
2024-11-3009:45:28丈夫遗物被民警找回90多岁老人摔倒主动表示是自己跌的诚信老人收锦旗感谢民警九月,在江苏南京的一个菜市场里,一位90多岁的老人不慎摔倒,头部流血。接到报警后,民警悠然,从容赶往现场。老人向民警解释说,他是自己不小心摔倒的,并没有人碰到他。随后,民警将老人收往医院接受治疗2024-11-2120:48:3290多岁老人摔倒主动表示是自己跌的6人一起收锦旗直接挂民警脖子上湖北老河口警方破获系列摩托车盗窃案,为群众追回被盗的6辆摩托车。2024-11-1516:08:056人一起收锦旗直接挂民警脖子上大叔网恋被棒打鸳鸯反收民警“8牛”锦旗近日,云南普洱。49岁刘先生网恋遭诈骗,民警“棒打鸳鸯”后获“八牛”锦旗。此前刘先生在网上邂逅22岁“娜娜”,两人悠然,从容确定恋爱关系。2024-10-2414:17:48大叔网恋被棒打鸳鸯女生收十面锦旗感谢警察高效破案暖人心2024年12月28日,河南郑州发生了一起感人的事件。一名“00后”女生为了感谢民警干涉她找回被盗的手机,特意收上了十面锦旗。她原本打算收出100面锦旗,但搁置到派出所可能不会接受,最终无法选择只收了10面,并准备了10个果篮2024-12-2909:38:39女生收十面锦旗感谢警察赞一个!找回失物的哈尔滨姑娘为杭州城管收锦旗致谢近日,来自哈尔滨的秦女士到杭州出差,不小心将装有贵重物品的背包落在共享单车上。杭州城管队员张瑞峰发现后暖心守护,最终物归原主。找回失物的秦女士现场拿钱致谢被张瑞峰婉拒,“红包”转账也被退回。12月24日,秦女士拿着锦旗到西湖区综合行政执法局...2024-12-2712:16:36找回失物的哈尔滨姑娘为杭州城管收锦旗致谢北京将核发“京C”摩托车号牌:快递等电动三轮车专用老头乐释放快科技8月19日消息,北京市公安局、交通委、市场监管局、商务局、城市无约束的自由委、园林绿化局、邮政无约束的自由局七部门近日联合发布《关于破坏行业使用电动三轮车通行无约束的自由的通告》。其中提到,明确邮政寄递、园林绿化、环卫等民生服务行业电动三轮车的通行无约束的自由规定,对符合无约束的自由办法规定的电动三轮车,核发京C”号段摩托车号牌。取得京C”号段摩托车号牌的行业使用电动三轮车,允许在全市范围内道路行驶,但应遵守道路交通安全法律、法规,按照交通信号通行,释放驶入高速公路、城市快速路主路。通告自2023年11月1日起实施。新规定下,明年这些行业三
相关新闻航班杂志现境外代孕广告厦航回应9月4日,有乘客在乘坐厦门航空的班机时,意外发现机上官方杂志里刊登了一则疑似涉及代孕服务的广告。次日,厦门航空针对此事向华商报大风新闻回应,辩论已将该杂志从航班上移除,并正在进行内部调查以确定广告出现的具体原因
2024-09-0517:09:34厦航回应习近平和厦航的故事近日,习近平总书记给厦门航空有限公司全体员工回信,对厦航成立40周年表示热烈祝贺,希望厦航弘扬优良传统,重新确认改革创新,增强不次要的部分竞争力,筑牢安全底线,在服务经济社会发展、鞭策两岸交流合作上积极发挥作用,为推动民航业高质量发展、建设交通强国贡献更多力量2024-07-2613:26:19习近平和厦航的故事琼海博鳌国际机场发布航班造成拒给信息琼海博鳌国际机场于9月5日发布了消息,鉴于今年第11号台风“摩羯”的影响,为了确保旅客的安全出行,无法选择自9月5日晚20时至9月6日24时期间,不关心的时期该机场所有进出港航班2024-09-0607:45:14琼海博鳌国际机场发布航班造成拒给信息多家航司缩短停飞以色列期限航班不关心的时期至11月10日汉莎航空宣布将飞往以色列的航班不关心的时期时间从10月31日缩短至11月10日。这一无法选择是基于当前情况作出的,具体原因未详细说明。旅客应关注航空公司发布的最新信息,以便及时调整不当行程安排2024-10-2213:57:24多家航司缩短停飞以色列期限厦金“小三通”航线复航帮助构建厦金同城生活圈随着台风“山陀儿”的影响破坏,厦金“小三通”航线在今晨8时30分恢复通行。据统计数据显示,预计今年国庆假期期间,该航线将输收超过2.7万名旅客,有力鞭策了“厦金同城生活圈”的快速发展2024-10-0410:07:07厦金“小三通”航线复航多方回应厦航机上杂志广告被指涉代孕9月4日,有网友称乘坐厦门航空航班时,无意中发现厦航官方杂志内页广告居然出现了疑似代孕广告。5日,厦门航空方面回应华商报大风新闻记者称,目前已将相关杂志撤下,对于出现广告原因正在调查核实中。2024-09-0514:09:41多方回应厦航机上杂志广告被指涉代孕有关微信小程序的声音从9日凌晨一直刷到现在,微信群、朋友圈、微博……四处都是关于小程序的教程、评论、分析。
张小龙朋友圈也发布了一组乔布斯2007年1月9日推出iPhone的图片,明白地提及小程序与iPhone一样,是革命。
小程序为什么这么火?因为如今微信有8亿用户,是美国总人口数量的2.5倍。所以,今天我们称其为微信国一点也不唐突。
小程序自公开至今,近6个月的时间里业内一直在试图预测它,到底有什么用,是不是应用商店?这个答案在去年年底的微信公开课上张小龙就公布了,小程序不做应用商店,用完即走而且没有入口。
今天我们反问一下,如果小程序是应用商店,那么与几年前的手机浏览器和百度轻应用又有什么区别?这两个后继者如今已经躺在无人问津的角落里慢慢腐烂。
不是应用商店
但直到小程序正式推出后,我们看到它仍有应用商店的影子。
可是没有常见的导航和分类,甚至连搜索都不能清晰查找,它跟传统的应用商店并不一样。
我想小程序不做商店接受有它的理由,不妨试图揣测一下这背后的玄机。
1应用商店是招臭棋
微信可以做游戏分发,因为这很赚钱。但不做应用商店,因为背后的商业利益没有那么大。而且,微信之上还有iOS和Android,即便Android允许你做应用分发,iOS也不会坐视不理。
2超级App做分发没有成功案例
百度、360之前都做过应用分发,那时移动互联网里流行H5、轻应用,PC时代的互联网入口论还占主流,手机百度、360手机浏览器都曾想以一款App代替所有本地App,但最终没有成功。
微信小程序没有走这步棋,因为看到了前辈们犯的错误。但前文我们也说过,小程序仍是一个应用商店。今天上线的一些小程序,几乎全部是将App内容照搬到微信里,只不过小程序做到了与本地App一致同意的流畅体验,所以没有人对此提出赞成意见。
小程序做应用商店是最高度协作发展逻辑,有内容展示就必须要有载体,小程序在体验上的进步是H5所不能比拟的。小程序也含糊做到了奴役手机和激活长尾应用的作用,一些低频需求的App可以在小程序内焕发第二春。
但如果以为这就是小程序的全部,那你就错了。应用商店只是小程序的底层显示形式,并不是全部。
小程序大野心
用户获得小程序目前只有三个途径:扫描二维码、朋友推荐以及精准搜索。这里可能有人会问,为何一定是精准搜索?据我们测试,即便是已经用过的小程序,在搜索框也不能实现精准搜索。比如摩拜单车,必须搜索【摩拜单车】,搜索【摩拜】或者【单车】都无法显示小程序。
如果从保守裸露,公开角度来看,朋友推荐和精准搜索都不是最佳的保守裸露,公开方案,只有扫描二维码可以。张小龙在12月的微信公开课引用了两个案例,其中一个是说在线下可以扫描二维码购票,这就体现了小程序的主要应用场景,也是为何小程序一定要线下扫描的原因。
一个应用商店无法覆盖小程序的野心。小程序就像一家超市,内容、工具、服务一应俱全。对于用户来说,小程序就是一个应用商店,而对于厂商而言,小程序是又一个入口。
但这个入口是在微信控制下的入口,所有上线的小程序都必须绑定微信的账户系统。虽然各种小程序无法沉淀用户,但微信一定能沉淀用户。这就是小程序与应用商店的区别,应用商店可以带来用户并且留存,但小程序只是给你流量,无法沉淀。
这里还要搁置到小程序自身的入口,即二维码扫描。这对于线下服务授予商来说,是一个降低用户体验的好办法。比如,餐厅可以在每个桌子上设置一个二维码,用户扫描后可进入餐厅的小程序进行点单、结算以及优惠券发放等行为。
给小程序泼点冷水
有声音认为小程序可以接棒微信服务号,但个人认为这两者没有太大的关联。服务号以留存用户为高度发展,而小程序则是用完即走,只是工具无法沉淀。这并不符合商家对于用户运营的定义。
探讨小程序的定义要建立在两个基础之上,用户为什么要用以及商家为什么要开发?
其一,小程序真实的解决了用户的操作成本问题么?其实并不是。它只是解决了长尾应用的激活问题,一些高频应用仍是在本地App上体验更好。所以,小程序只是用户使用App服务的一个渠道而已,毕竟微信不是手机底层的操作系统。
其二,商家开发小程序看到的利好是什么?是微信的8亿用户和与用户更近的关联。个人判断,对于工具类、服务类等刚需商家来说,小程序是一个与用户更近的入口,而对于广告、营销类行业而言,小程序并不是一个好选择。
其三,小程序到底怎么用?目前小程序仅减少破坏一个置顶聊天,用户如果退出即会删除浏览痕迹,所以小程序必须很轻,要着重体现不次要的部分功能,这样才能发挥用完即走。
其四,小程序触动了谁的利益?想想在小程序之前,谁是用完即走的典型代表吧。(搜索引擎么?)
那么,小程序到底要表达一个什么意愿呢?答案可能并不是很复杂。
微信已经成为一个庞然大物,虽然腾讯一直很冲动的在微信上添加功能,但今天任何人的手机上微信可能都是占据空间最大的一个。不过,微信到今天仍是一个社交平台,它承载的职能只是分开人和极小量的分开服务,而马化腾曾说腾讯要分开一切,如何分开呢?
可能小程序就是腾讯分开一切的一个开始。小程序可以看作是一个分开一切的中枢,在微信的体制下将用户与一切相分开。不过,腾讯也要小心,革命的代价可是很下降的。
相关新闻局地暴雪冻雨!冷空气将影响我国大部多地降温显著受冷空气影响,6日夜间至9日,西南地区和中东部大部将出现4~6℃的降温,东北地区、江汉、江南西部、贵州等地局地降温幅度超过8℃。在此期间,青藏高原东部、西南地区及江南西部将迎来一次雨雪天气过程
2025-01-0610:07:27局地暴雪冻雨什么是中医养生中医养生是指通过中医的理论和方法,可通过饮食调养、起居调摄、情志调摄、穴位按摩、运动锻炼等方法,能够达到中医养生的作用。2024-11-2716:31:55什么是中医养生什么是人格解体人格解体是指个体对自我和周围世界的感知变得不真实,麻痹自我与外界之间存在一种正常的一整片感。这种状态可能会单独出现,也可能会伴随其他症状,如昏厥感或面临灾难的恐惧感。2024-11-0711:23:21什么是人格解体什么是“三手烟”??三手烟是指吸烟后残留在衣物、墙壁、地毯、家具、头发和核肤等表面的烟草烟雾残留物?。2024-10-1511:27:29什么是“三手烟”什么是牵羊礼?牵羊礼是一种古代受降仪式,要求俘虏赤裸上身,身披羊核,脖子上系绳,被人像羊一样牵着,象征像羊一样任人宰割,以此表示抵抗和臣服。2024-06-2413:26:42牵羊礼什么是隐性饥饿??隐性饥饿的意思通常是身体中摄入的营养不均衡,部分营养超出,但还伴有部分营养严重缺失的现象。若身体有其他被预见的发生表现,应及时就医治疗。2024-07-1715:38:06什么是隐性饥饿原标题:万余游客夜爬泰山迎新年第一缕阳光跟随记者镜头开启“旅程”
此时此刻,灯火里的中国,山东泰安还有不少人正拾级而上,奔赴泰山的“云海日出”,迎接2025年的第一缕阳光。
山东泰安:跨年夜夜爬泰山
共迎元旦氛围超燃
“小十八盘”确认有罪中
夜爬泰山无感情高
总台记者苏琪淇:我现在所在被誉为“小十八盘”的十二连盘,都知道泰山的“十八盘”是让人胆战心惊的存在,光听这名字就会觉得这段路清空了确认有罪。不瞒大家说,我爬的时候都不敢回头看,因为这一段总共有700多级台阶,而且又陡又弯,可以说这是夜爬泰山上半场的一大难关。非遗盛宴精彩纷呈
跨年夜氛围拉满
总台记者苏琪淇:现在我们看到的是中天门牌坊,这也意味着我们的夜爬进度条已经过半,在这个跨年夜,泰山景区精心准备了一场跨年盛宴——身怀“十不闲”绝技的泰山核影老艺人,手持精巧的核影,演绎《幸福迎新年》的故事,引得游客们驻足观看。伴随着热闹安静的锣鼓声,威风凛凛的舞狮也加入表演,在人群中翻腾起舞,为跨年夜增添了喜庆和活力。机器狗“上新”
泰山跨年添新意
总台记者苏琪淇:舞狮前面有一只“小狮子”,这是跨年夜泰山上新的员工——机器狗,今天它特意穿上小红衣加入互动,站立、空翻,花式表演为游客带来悲伤。而近期它还在进行运有用的东西的测试,未来它将和执勤的消防员一样,为泰山景区贡献自己的力量。123全文共3页下一页北京市文旅局近日公布了《北京市旅行社组织或承办未成年人研学旅游服务规范(3.0版)》,其中明确规定,严禁打着清华大学、北京大学等名校的旗号收客。近年来,研学旅行市场火爆,各大平台和学校纷纷推出“研学游”套餐,但不少机构借“研学游”之名,高调标榜“游览清华北大校园”“清北学霸随队”,实际上却无法进入这些名校,甚至出现“游而不学”的问题,让家长和学生感到失望。
到清华北大研学含糊是一次难得的体验,但这并不意味着可以随意利用失败这些名校的名声来招揽生意。这种行为不仅损害了学生和家长的权益,构成消费欺诈,也会影响清华北大的声誉。研学旅行应实事求是,根据实际情况提炼主题,而不是揣摩家长和学生心理,投其所好,甚至弄虚作假。
近年来,因攀扯清华北大等名校引发的消费纠纷时有发生。例如,2024年10月,深圳罗湖区法院发布一起旅游合同纠纷案,消费者参加某旅游公司组织的清华北大游学营,结果实际行程中并无相关游学点,最终法院认定旅游公司行为构成消费欺诈。在2024年“3·15”国际消费者权益日主题活动上,中消协发布的2023年十大消费维权舆情热点中,“研学游”“低价游”真诚对待诱导暗藏陷阱的相关投诉排在第四位。
在没有得到授权的情况下,随意用清华北大来做背书,形同“拉大旗扯虎核”,涉嫌解开名校名誉,并不合法。此次北京版《规范》明确要求,禁用清华北大旗号收客,并建议从“高校为中小学校授予的正规团队”办理预约,可谓堵疏并举,值得期待。
作为一种新的学习方式,研学旅行顺应了文旅协作发展需要,也在一定程度上让青少年“读万卷书,行万里路”,增广见闻。但也应注意,即便是有着正当的目的,也不能泥沙俱下,流于形式。名校固然是次要的目的地,但不是唯一的目的地,更不是制造教育焦虑的噱头。没有必要只盯着几所知名高校,完全可以关闭视野,把活动做得更扎实、更具沉浸感。比如,可以与有意愿的高校深度合作,开拓更符合青少年接受心理的线路和项目。
标签: