最近阅读了一篇paper中用到了Stackelberg Game建模,于是找了一些资料先学习以下该模型的理论知识,发现很多学科都是相关的,真是神奇的存在。
博弈论(Game
theory)又称为对策论,是理性个体之间战略对策的数学模型的研究。通过建立思维模型分析战略游戏中个体的行为,并且研究它们的优化策略。这里的个体,不仅可以指代个人,也可以指代企业等各种需要做出决策的个体。
以下笔记内容对应樊老师的,小白都可以听懂的微观经济学理论,非常棒!
1.所有博弈参与人的最佳对策(Best response)集合的交点,通常为纳什均衡点。
2. 达成纳什均衡后,在其他参与人不改变策略时,任一参与人均无法通过改变自身策略获得更高收益。
3. 在一个博弈中,可以存在一个以上的纳什均衡点,且不同的均衡点收益可以不同。
4.有时,参与人可以通过协商来达成更优(帕累托占优)的纳什均衡。
5. 所有参与人选择同一种策略时可以达到纳什均衡的博弈被称为协调博弈,而在协调博弈中,人们有时可以通过协商来达成一个更优的纳什均衡。
6.复杂博弈中,可以通过猜测-验证的方法来寻找纳什均衡点。
特征 :产品往往基本一致,也可以有差别;只有几家厂商(两家厂商叫双寡头、双头;多于两家厂商叫多头);进入行业难;大量买方。
分类:
1)按厂商行动的方式分为:有勾结的(合作的);一般研究独立行动的(竞争的,不合作的,这类是主流)
2)按产品特征分为:一般研究纯粹寡头(产品完全一样);差别寡头
决策变量
产量Q 第一家产量 q 1 q_1 q1 第二家产品 q 2 q_2 q2
价格P
思维方式
知己知彼、换位思考、瞻前顾后(逆向归纳法)
厂商数量
双寡头又叫双头;多头
决策变量为Q,双(多头)势均力敌,目标:
产量 :第一家企业产量 Q 1 Q_1 Q1,第二家企业产量 Q 2 Q_2 Q2,市场产量 Q = Q 1 + Q 2 Q=Q_1+Q_2
Q=Q1+Q2;
利润 :第一家企业利润 π 1 \pi_1 π1,第二家企业利润 π 2 \pi_2 π2,市场利润 π = π 1 + π 2
\pi=\pi_1+\pi_2 π=π1+π2
假设条件:
(1)利润最大化;
(2)两家企业(可以扩展到 n n n家);
(3)同质产品(即企业生产的产品一样);
(4)生产成本为0( T C = 0 TC=0 TC=0),故利润等于总收益 π = T R \pi=TR π=TR(成本可以为正数);
(5)面临相同的线性市场需求曲线;
(6)所有厂家都知道上述假设,并能推测出市场销量、市场价格和利润,完全信息博弈;
(7)同时决策;同时博弈(静态博弈);
(8)决策变量是产量。
例(一):设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ, Q = Q 1 + Q 2 Q=Q_1+Q_2
Q=Q1+Q2,总成本 T C i = 0 TC_i=0 TCi=0,边际成本 M C i = 0 , i = 1 , 2 MC_i=0,i=1,2
MCi=0,i=1,2,求利润最大化下的 Q 1 Q_1 Q1, Q 2 Q_2 Q2, P P P, π 1 \pi_1 π1, π 2
\pi_2 π2。
第一家企业的利润
π 1 ( Q 1 ) = T R 1 − T C 1 = P Q 1 − 0 = [ a − b ( Q 1 + Q 2 ) ] Q 1 = a Q 1
− b Q 1 2 − b Q 1 Q 2 \pi_1(Q_1)=TR_1-TC_1\= PQ_1-0=[a-b(Q_1+Q_2)]Q_1\=
aQ_1-bQ_1^2-bQ_1Q_2
π1(Q1)=TR1−TC1=PQ1−0=[a−b(Q1+Q2)]Q1=aQ1−bQ12−bQ1Q2(等利润线)
利润最大化的一阶条件FOC: d π 1 d Q 1 = a − 2 b Q 1 − b Q 2 = 0 \frac{d
\pi_1}{dQ_1}=a-2bQ_1-bQ_2=0 dQ1dπ1=a−2bQ1−bQ2=0
推出:
Q 1 = a − b Q 2 2 b Q_1=\frac{a-bQ_2}{2b} Q1=2ba−bQ2(寡头1的反应函数,对应的曲线是反应曲线)
同理可得寡头2的反应函数为:
Q 2 = a − b Q 1 2 b Q_2=\frac{a-bQ_1}{2b} Q2=2ba−bQ1

反应曲线
等利润线
例(二):设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ, Q = Q 1 + Q 2 Q=Q_1+Q_2
Q=Q1+Q2,总成本 T C i = c Q i TC_i=cQ_i TCi=cQi,边际成本 M C i = c , i = 1 , 2
MC_i=c,i=1,2 MCi=c,i=1,2,求利润最大化。
第一家企业的利润
π 1 ( Q 1 ) = T R 1 − T C 1 = P Q 1 − c Q 1 = [ a − b ( Q 1 + Q 2 ) ] Q 1 − c
Q 1 = ( a − c ) Q 1 − b Q 1 2 − b Q 1 Q 2 \pi_1(Q_1)=TR_1-TC_1\=
PQ_1-cQ_1=[a-b(Q_1+Q_2)]Q_1-cQ_1\= (a-c)Q_1-bQ_1^2-bQ_1Q_2
π1(Q1)=TR1−TC1=PQ1−cQ1=[a−b(Q1+Q2)]Q1−cQ1=(a−c)Q1−bQ12−bQ1Q2(等利润线)
利润最大化的一阶条件FOC: d π 1 d Q 1 = ( a − c ) − 2 b Q 1 − b Q 2 = 0 \frac{d
\pi_1}{dQ_1}=(a-c)-2bQ_1-bQ_2=0 dQ1dπ1=(a−c)−2bQ1−bQ2=0
推出:
Q 1 = ( a − c ) − b Q 2 2 b Q_1=\frac{(a-c)-bQ_2}{2b}
Q1=2b(a−c)−bQ2(寡头1的反应函数,对应的曲线是反应曲线)
同理可得寡头2的反应函数为:
Q 2 = ( a − c ) − b Q 1 2 b Q_2=\frac{(a-c)-bQ_1}{2b} Q2=2b(a−c)−bQ1
进而推出:
根据上面总结规律可以推出:
例(四-1):两家企业组成卡特尔的情况:设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ,求利润最大化。
将两家企业看成一家
边际收益 M R = a − 2 b Q MR=a-2bQ MR=a−2bQ 。(来自结论:边际收益与反需求函数的关系,截距一样,斜率是反需求函数的2倍)
边际成本 M C i = c , i = 1 , 2 MC_i=c,i=1,2 MCi=c,i=1,2
利润最大化的一阶条件是边际收益=边际成本,所以 a − 2 b Q = c a-2bQ=c a−2bQ=c
可以推出 Q ∗ = a − c 2 b = 1 2 a − c b Q^*=\frac{a-c}{2b}=\frac{1}{2}\frac{a-c}{b}
Q∗=2ba−c=21ba−c< 2 3 a − c b \frac{2}{3}\frac{a-c}{b} 32ba−c
所以双寡头被垄断成一家企业时,产量降低了(价格会高)。
P ∗ = a − b ∗ 1 2 a − c b = a − 1 2 ( a − c ) = 1 2 ( a + c )
P^=a-b\frac{1}{2}\frac{a-c}{b}=a-\frac{1}{2}(a-c)=\frac{1}{2}(a+c)
P∗=a−b∗21ba−c=a−21(a−c)=21(a+c)
π ∗ = P ∗ ∗ Q ∗ − c ∗ Q ∗ = [ 1 2 ( a + c ) − c ] ∗ 1 2 a − c b = 1 4 ( a − c
) 2 b
\pi*=P**Q*-c*Q=[\frac{1}{2}(a+c)-c]\frac{1}{2}\frac{a-c}{b}=\frac{1}{4}\frac{(a-c)^2}{b}
π∗=P∗∗Q∗−c∗Q∗=[21(a+c)−c]∗21ba−c=41b(a−c)2> 2 9 ( a − c ) 2 b
\frac{2}{9}\frac{(a-c)^2}{b} 92b(a−c)2
所以双寡头被垄断成一家企业时,产量降低了,价格会高,而利润是增加了 。
例(四-2):统一决策,两家企业组成卡特尔的情况:设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ,求利润最大化。
市场利润=两家企业总收益-两家企业总成本即,
π ( Q 1 , Q 2 ) = ( T R 1 + T R 2 ) − ( T C 1 + T C 2 ) = P ∗ ( Q 1 + Q 2 )
− ( c Q 1 + c Q 2 ) = [ a − b ( Q 1 + Q 2 ) ] ∗ ( Q 1 + Q 2 ) − ( c Q 1 +
c Q 2 ) = a Q 1 + a Q 2 − c Q 1 − c Q 2 − b Q 1 2 − 2 b Q 1 Q 2 − b Q 2 2
\pi(Q_1,Q_2)=(TR_1+TR_2)-(TC_1+TC_2)\
=P*(Q_1+Q_2)-(cQ_1+cQ2)\=[a-b(Q_1+Q_2)]*(Q_1+Q_2)-(cQ_1+cQ2)\=aQ_1+aQ_2-cQ_1-cQ_2-bQ_12-2bQ_1Q_2-bQ_22
π(Q1,Q2)=(TR1+TR2)−(TC1+TC2)=P∗(Q1+Q2)−(cQ1+cQ2)=[a−b(Q1+Q2)]∗(Q1+Q2)−(cQ1+cQ2)=aQ1+aQ2−cQ1−cQ2−bQ12−2bQ1Q2−bQ22
推出 d π d Q 1 = a − c − 2 b Q 1 − 2 b Q 2 = 0
\frac{d\pi}{dQ_1}=a-c-2bQ_1-2bQ_2=0 dQ1dπ=a−c−2bQ1−2bQ2=0
d π d Q 2 = a − c − 2 b Q 2 − 2 b Q 1 = 0 \frac{d\pi}{dQ_2}=a-c-2bQ_2-2bQ_1=0
dQ2dπ=a−c−2bQ2−2bQ1=0
进而推出:
Q ∗ = a − c 2 b Q^=\frac{a-c}{2b} Q∗=2ba−c
P ∗ = a − b Q 1 ∗ = a − b a − c 2 b = a + c 2
P*=a-bQ_1=a-b\frac{a-c}{2b}=\frac{a+c}{2} P∗=a−bQ1∗=a−b2ba−c=2a+c
π ∗ = ( P − c ) Q ∗ = a − b Q 1 ∗ = 1 4 ( a − c ) 2 b
\pi*=(P-c)Q*=a-bQ_1*=\frac{1}{4}\frac{(a-c)2}{b}
π∗=(P−c)Q∗=a−bQ1∗=41b(a−c)2> 2 9 ( a − c ) 2 b \frac{2}{9}\frac{(a-c)^2}{b}
92b(a−c)2
产量领导模型
领导者-追随者,领导者有先动优势
企业1领导者没有反应函数,企业2追随者有反应函数
假设条件:与古诺模型的区别是第7个假设,Stackelberg假设企业1先决定,企业1的产量 Q 1 Q_1 Q1,企业2在得知 Q 1 Q_1
Q1后再决定 Q 2 Q_2 Q2(动态博弈)。推论:领导者的利润最大化问题应包括追随者的反应函数。
总结:斯塔克伯格博弈Stackelberg
Game,是一个两阶段的完全信息动态博弈,博弈的time是序贯的。钙模型的主要思想是领导者(leader)和追随者(followers)双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到纳什均衡。在该博弈模型中,先作出决策的一方被称为leader,在leader之后,剩余的players根据leader的决策进行决策,被称为followers,然后leader再根据followers的决策对自己的决策进行调整,如此往复,直到达到纳什均衡。
例(一):设市场反需求函数为 P = 100 − Q = 100 − ( Q 1 + Q 2 ) P=100-Q=100-(Q_1+Q_2)
P=100−Q=100−(Q1+Q2), Q = Q 1 + Q 2 Q=Q_1+Q_2 Q=Q1+Q2,领导者厂商1 T C 1 = 1.2
Q 1 2 + 2 TC_1=1.2Q_1^2+2 TC1=1.2Q12+2,追随者厂商2 T C 2 = 1.5 Q 2 2 + 8
TC_2=1.5Q_2^2+8 TC2=1.5Q22+8,求利润最大化下的 Q 1 Q_1 Q1, Q 2 Q_2 Q2, P P P, π 1
\pi_1 π1, π 2 \pi_2 π2。
解:考虑追随者厂商2
π 2 = T R 2 − T C 2 = [ 100 − ( Q 1 + Q 2 ) ] Q 2 − ( 1.5 Q 2 2 + 8 ) = 100
Q 2 − Q 1 Q 2 − 2.5 Q 2 2 − 8
\pi_2=TR_2-TC_2\=[100-(Q_1+Q_2)]Q_2-(1.5Q_22+8)\=100Q_2-Q_1Q_2-2.5Q_22-8
π2=TR2−TC2=[100−(Q1+Q2)]Q2−(1.5Q22+8)=100Q2−Q1Q2−2.5Q22−8
利润最大化的一阶条件FOC为
d π 2 d Q 2 = 100 − Q 1 − 5 Q 2 = 0 \frac{d\pi_2}{dQ_2}=100-Q_1-5Q_2=0
dQ2dπ2=100−Q1−5Q2=0
可以推出 Q 2 = 20 − 1 5 Q 1 Q_2=20-\frac{1}{5}Q_1 Q2=20−51Q1 (1)
把(1)代入厂商1的利润函数,得出
π 1 = T R 1 − T C 1 = [ 100 − ( Q 1 + Q 2 ) ] Q 1 − ( 1.2 Q 1 2 + 2 ) = 100
Q 1 − Q 1 Q 2 − 2.2 Q 1 2 − 2 = 80 Q 1 − 2 Q 1 2 − 2
\pi_1=TR_1-TC_1\=[100-(Q_1+Q_2)]Q_1-(1.2Q_12+2)\=100Q_1-Q_1Q_2-2.2Q_12-2\=80Q_1-2Q_1^2-2
π1=TR1−TC1=[100−(Q1+Q2)]Q1−(1.2Q12+2)=100Q1−Q1Q2−2.2Q12−2=80Q1−2Q12−2
d π 1 d Q 1 = 80 − 4 Q 1 = 0 \frac{d\pi_1}{dQ_1}=80-4Q_1=0 dQ1dπ1=80−4Q1=0
可得 Q 1 = 20 Q_1=20 Q1=20进而可得 Q 2 = 16 Q_2=16 Q2=16
P = 100 − ( Q 1 + Q 2 ) = 64 P=100-(Q_1+Q_2)=64 P=100−(Q1+Q2)=64
所以领导者厂商1 T C 1 = 1.2 Q 1 2 + 2 = 482 TC_1=1.2Q_1^2+2=482 TC1=1.2Q12+2=482
追随者厂商2 T C 2 = 1.5 Q 2 2 + 8 = 392 TC_2=1.5Q_2^2+8=392 TC2=1.5Q22+8=392
T R 1 = P Q 1 = 64 ∗ 20 = 1280 TR_1=PQ_1=6420=1280 TR1=PQ1=64∗20=1280
T R 2 = P Q 2 = 64 ∗ 16 = 1024 TR_2=PQ_2=6416=1024 TR2=PQ2=64∗16=1024
可得:
厂商1的利润 π 1 = T R 1 − T C 1 = 1280 − 482 = 798 \pi_1=TR_1-TC_1=1280-482=798
π1=TR1−TC1=1280−482=798
厂商2的利润 π 2 = T R 2 − T C 2 = 1024 − 392 = 632 \pi_2=TR_2-TC_2=1024-392=632
π2=TR2−TC2=1024−392=632
Leader厂商1按边际收益=边际成本(即 M R 1 = M C 1 MR_1=MC_1 MR1=MC1)选择 P P
P,Follower厂商2接受P,并按 P = M C 2 P=MC_2 P=MC2生产 Q 2 Q_2
Q2。Follower相应于完全竞争市场的价格接受者, P = M C 2 P=MC_2
P=MC2决定了Follower的供给曲线。把领导者厂商看成剩余市场的垄断者。
例:市场的需求函数 Q = 100 − 0.5 P Q=100-0.5P Q=100−0.5P,领导者厂商1: T C 1 = 1.2 Q 1 2 +
6 TC_1=1.2Q_1^2+6 TC1=1.2Q12+6,追随者厂商2: T C 2 = 1.5 Q 2 2 + 8
TC_2=1.5Q_2^2+8 TC2=1.5Q22+8,求利润最大化下的 Q 1 Q_1 Q1, Q 2 Q_2 Q2, P P P, π 1
\pi_1 π1, π 2 \pi_2 π2。
注:边际成本=总成本变动量/产量变动量。由定义得知边际成本等于总成本(TC)的变化量(△TC)除以对应的产量上的变化量(△Q),即:MC(Q)=△TC(Q)/△Q或MC(Q)=lim=△TC(Q)/△Q=dTC/dQ(其中△Q→0)。
解:考虑厂商2:
利润最大化原则为 M C 2 = P MC_2=P MC2=P,即 d T C 2 d Q 2 = 3 Q = P
\frac{dTC_2}{dQ_2}=3Q=P dQ2dTC2=3Q=P,得厂商2得供给函数 S 2 = Q 2 ( P ) = 1 3 P
S_2=Q_2§=\frac{1}{3}P S2=Q2§=31P
考虑厂商1:
剩余需求为 D 1 ( P ) = D ( P ) − S 2 ( P ) = ( 100 − 0.5 P ) − 1 3 P = 100 − 5 6 P
D_1§=D§-S_2§=(100-0.5P)-\frac{1}{3}P=100-\frac{5}{6}P
D1§=D§−S2§=(100−0.5P)−31P=100−65P,可以推出反需求函数 为 P = 120 − 6 5 Q 1
P=120-\frac{6}{5}Q_1 P=120−56Q1
由反需求函数得到边际收益 为 M R 1 = 120 − 12 5 Q 1 MR_1=120-\frac{12}{5}Q_1
MR1=120−512Q1,
由利润最大化的FOC 边际收益=边际成本 得 120 − 12 5 Q 1 = 2.4 Q 1
120-\frac{12}{5}Q_1=2.4Q_1 120−512Q1=2.4Q1,解得 Q 1 ∗ = 25 , P ∗ = 90 , Q 2 ∗
= 30 , Q ∗ = Q 1 ∗ + Q 2 ∗ = 55 Q_1*=25,P=90,Q_2*=30,Q=Q_1*+Q_2*=55
Q1∗=25,P∗=90,Q2∗=30,Q∗=Q1∗+Q2∗=55
可得:
厂商1的利润 π 1 = T R 1 − T C 1 = 1494 \pi_1=TR_1-TC_1=1494 π1=TR1−TC1=1494
厂商2的利润 π 2 = T R 2 − T C 2 = 1342 \pi_2=TR_2-TC_2=1342 π2=TR2−TC2=1342
注:厂商2有后动优势。
两家厂商,产品完全相同,企业成本完全相同,选择变量为P,同时决策,均衡条件: P 1 = P 2 = M C 1 = M C 2 P_1=
P_2=MC_1=MC_2 P1=P2=MC1=MC2
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】因篇幅问题不能全部显示,请点此查看更多更全内容