成片伦一区二区三区视频,日韩精品无码毛片一级,91视频精品

首頁(yè)家居家電手機(jī)數(shù)碼 IT互聯(lián)網(wǎng)電商零售汽車出行游戲娛樂半導(dǎo)體新基建酷品評(píng)測(cè)

2023-07-11 14:59:10

來(lái)源：丁科技網(wǎng)??

7 月 11 日，騰訊宣布自研棋牌類 AI “絕藝LuckyJ” 在國(guó)際知名麻將平臺(tái)“天鳳”上達(dá)到十段水平，刷新了 AI 在麻將領(lǐng)域的最好成績(jī)?！敖^藝LuckyJ” 展現(xiàn)了在非完美信息博弈游戲中的優(yōu)秀決策水平，進(jìn)一步提升了AI解決現(xiàn)實(shí)世界問題的能力。

日本在線麻將競(jìng)技平臺(tái)“天鳳”創(chuàng)建于 2006 年，擁有體系化的競(jìng)技規(guī)則和專業(yè)段位規(guī)則，受到職業(yè)麻將界的廣泛認(rèn)可。截至目前，天鳳平臺(tái)活躍人數(shù) 23.8萬(wàn)，而能達(dá)到十段的僅 27 人（含AI），不到萬(wàn)分之一。

相比其他麻將AI和人類玩家，“絕藝 LuckyJ”不僅穩(wěn)定段位更高，從零開始達(dá)到十段所需的對(duì)戰(zhàn)局?jǐn)?shù)也明顯更少，僅需要 1321 局。這體現(xiàn)了騰訊 AI Lab 在決策AI方向上世界領(lǐng)先的技術(shù)實(shí)力。

統(tǒng)計(jì)意義上看天鳳穩(wěn)定段位bootstrap的分布，絕藝LuckyJ顯著強(qiáng)于之前最強(qiáng)的兩個(gè)日本麻將AI（Suphx，NAGA）：LuckyJ vs Suphx p value=0.02883；LuckyJ vs NAGA p value=3e-05。

騰訊 AI Lab 研究員表示，現(xiàn)實(shí)世界中充滿了需要在非完美信息狀態(tài)下做決策的場(chǎng)景，比如金融交易、自動(dòng)駕駛、交通物流、拍賣系統(tǒng)等。在游戲環(huán)境中推進(jìn)決策AI的能力，最終是希望AI能從虛擬走向現(xiàn)實(shí)，解決真實(shí)世界的復(fù)雜問題。

過(guò)去半個(gè)世紀(jì)以來(lái)，游戲在人工智能技術(shù)的演進(jìn)中發(fā)揮了重要的作用。游戲多樣化的情境為AI的訓(xùn)練和學(xué)習(xí)提供了便利的研究場(chǎng)景，從國(guó)際象棋到圍棋，再到德州撲克、王者榮耀等游戲，AI 不斷在游戲場(chǎng)景中拓展能力邊界。

圍棋、象棋都屬于完美信息博弈，參與競(jìng)技雙方的每次決策，都可以看到全局的信息。AI能夠通過(guò)強(qiáng)大的計(jì)算力來(lái)枚舉各種可能性，從而找到致勝策略。而麻將無(wú)法看到對(duì)手的手牌，加上還有大量未揭開的牌，存在大量的隱藏信息，是典型的非完美信息博弈。

據(jù)介紹，麻將一共有136張牌，每一位玩家只能看到很少的牌，包括自己的13張手牌和所有人打出來(lái)的牌。牌局開始時(shí)，另外三位玩家的手牌以及墻牌都是看不到的，面對(duì)如此多的隱藏未知信息，麻將玩家的每一個(gè)決策都需要兼顧進(jìn)攻和防守。

此外，在麻將的對(duì)戰(zhàn)中，除了正常的摸牌、打牌之外，還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會(huì)改變摸牌的順序，這一過(guò)程也涉及了大量的決策。

如上圖所示，橫坐標(biāo)信息集數(shù)目表示可觀察狀態(tài)的多少，即牌面的信息?？v坐標(biāo)信息集平均大小表示隱藏信息的多少，即其他所有對(duì)手的手牌的可能性。麻將所包含的隱藏信息要遠(yuǎn)遠(yuǎn)大于德州撲克。

為了更好地解決麻將游戲中存在的大量隱藏信息的難題，提升AI的決策能力，騰訊 AI Lab基于強(qiáng)化學(xué)習(xí)和遺憾值最小化的自我博弈技術(shù)，使得AI能從零開始自我學(xué)習(xí)和提高，并最終收斂到一個(gè)最強(qiáng)的混合策略，讓AI在實(shí)際對(duì)戰(zhàn)的過(guò)程中擁有更加平衡的策略能力。

同時(shí)，考慮到傳統(tǒng)的非完美信息搜索算法在麻將面前很難發(fā)揮太大的作用，騰訊 AI Lab基于樂觀價(jià)值估計(jì)的思想，提出了一種高效的非完美搜索方法，使得AI在有海量隱藏信息的游戲狀態(tài)中，仍可以實(shí)時(shí)調(diào)整當(dāng)前策略，從而更好地應(yīng)對(duì)多變的戰(zhàn)局。

相比人類，“絕藝 LuckyJ“在麻將游戲中，擁有更加平衡的策略，對(duì)局勢(shì)的計(jì)算更精確，其中包括打每張牌的期望收益、未來(lái)可能胡哪些番型等等，通過(guò)這樣的“策略”訓(xùn)練，也為AI走入更多行業(yè)打下了基礎(chǔ)。

天鳳平臺(tái)開發(fā)公司C-EGG的CEO角田真吾表示：“這是麻將AI的又一次突破，LuckyJ進(jìn)一步拓寬了麻將AI的能力邊界。令人感到興奮的是，在特上房包括人類玩家在內(nèi)的對(duì)戰(zhàn)1000局以上的所有玩家中，LuckJ的穩(wěn)定段位排名第一”。

在網(wǎng)上對(duì)LuckyJ歷史對(duì)局有深入研究的天鳳十段玩家、日本麻將戰(zhàn)術(shù)研究家yousei評(píng)價(jià)，LuckyJ給人的印象是在每張牌上看到“攻擊、防守的參數(shù)”，總體上，LuckyJ看起來(lái)“完全沒有漏洞”，一方面通過(guò)保留安全牌等策略降低事故率。另一方面，即使手牌中同時(shí)存在多個(gè)和牌方向，LuckyJ也可以在這些復(fù)雜的分支中順利進(jìn)行下去。

值得一提的是，“絕藝LuckyJ“在國(guó)標(biāo)麻將中也有亮眼表現(xiàn)，在線下職業(yè)選手邀請(qǐng)賽中擊敗六位職業(yè)選手，成為首個(gè)戰(zhàn)勝國(guó)標(biāo)麻將頂尖職業(yè)選手的麻將AI。

圖注：對(duì)戰(zhàn)數(shù)據(jù)顯示，在近2000 場(chǎng)對(duì)局中，絕藝LuckyJ 的平均贏番達(dá)到 1.76番，這里番為國(guó)標(biāo)麻將的結(jié)算單位，數(shù)值越大，說(shuō)明贏得越多。

曾與絕藝LuckyJ對(duì)局的棋手們，也對(duì)它做出了高度評(píng)價(jià)?！叭赣驯?014年世界麻將大師邀請(qǐng)賽冠軍，騰訊麻將錦標(biāo)賽年度總決賽（2018，2019）冠軍成海華提到，AI在攻防兩端都表現(xiàn)得都十分出色，充分體現(xiàn)了計(jì)算上的優(yōu)勢(shì)，讓他刮目相看。

國(guó)標(biāo)麻將職業(yè)選手，標(biāo)榜麻將運(yùn)動(dòng)協(xié)會(huì)會(huì)長(zhǎng)楊磊也有相同的感受：“經(jīng)過(guò)數(shù)月與騰訊麻將AI的對(duì)抗測(cè)試，通過(guò)分析AI對(duì)局，AI無(wú)論在進(jìn)攻還是防守都讓我印象深刻。我們通常所謂的妙手、靈光一現(xiàn)，甚至基于經(jīng)驗(yàn)和感覺做出的置之死地而后生的選擇，對(duì)于AI來(lái)說(shuō)可能算是常規(guī)操作?！?nbsp;

國(guó)標(biāo)麻將及日本麻將職業(yè)選手黃林說(shuō)，在與AI的上千次對(duì)戰(zhàn)中，他一直驚嘆于AI強(qiáng)大的牌效和精準(zhǔn)的讀牌，形容它“在攻防兩端都做到了極致”。

決策與生成是當(dāng)前人工智能發(fā)展的兩大主線，也是研究通用人工智能的必由之路。在模擬真實(shí)世界的虛擬游戲中，AI學(xué)會(huì)快速分析、決策與行動(dòng)，就能執(zhí)行更困難復(fù)雜的任務(wù)并發(fā)揮更大作用。從 2017 年開始，騰訊AI Lab自研的絕藝、絕悟兩款決策AI，借助棋牌、MOBA等多類游戲場(chǎng)景，探索用AI解決現(xiàn)實(shí)中的復(fù)雜問題。

現(xiàn)實(shí)生活中存在大量的隱藏信息和不確定的因素，麻將游戲中復(fù)雜的決策過(guò)程和帶有隨機(jī)性的博弈，比圍棋這樣的完美信息游戲更加接近真實(shí)的現(xiàn)實(shí)生活。“絕藝 LuckyJ” 在專業(yè)領(lǐng)域的突破，體現(xiàn)了騰訊 AI Lab 的深度強(qiáng)化學(xué)習(xí)智能體不斷進(jìn)化，正逐漸向解決更復(fù)雜更多樣化的問題遷移。對(duì)非完美信息游戲的研究，將有助于我們開發(fā)出適用于真實(shí)生活場(chǎng)景的更加“智能”的AI系統(tǒng)。

原創(chuàng)文章

彩電618前半程“高增”：MiniLED最暢銷，98寸、100寸價(jià)格“倒掛”

線上空調(diào)市場(chǎng)價(jià)格戰(zhàn)：小米均價(jià)不降反升，美的系海爾系降價(jià)猛

創(chuàng)維壁紙電視618“屠榜”背后：全鏈路創(chuàng)新讓對(duì)手“抄不了”

明星代言難解松下家電困局

開源66項(xiàng)“三筒”核心專利，海信洗衣機(jī)的“陽(yáng)謀”打懵對(duì)手

新玩家難越家電紅海？方洪波斷言“戰(zhàn)略已輸”背后的產(chǎn)業(yè)真相

“國(guó)寶國(guó)貨國(guó)補(bǔ)”加持，四川長(zhǎng)虹618演繹“科技+文化”敘事新邏輯

小米空調(diào)找長(zhǎng)虹代工生產(chǎn)，怎么看？