一種虛擬對象的決策方法、模型構建方法和裝置與流程

文檔序號:17988172發布日期:2019-06-22 00:34
一種虛擬對象的決策方法、模型構建方法和裝置與流程

本發明涉及游戲技術領域,特別是涉及一種虛擬對象的決策方法、一種虛擬對象的決策模型構建方法、一種虛擬對象的決策裝置、一種虛擬對象的決策控制模型構建裝置、電子設備和存儲介質。



背景技術:

許多電子游戲中,都會設置有NPC(Non-Player Character,非玩家角色),并為NPC設置對應的AI(Non-Player Character,非玩家角色),以提高用戶的游戲體驗。而NPC的行為邏輯則稱為游戲AI。在一個游戲中,一般設置有不同的游戲AI控制對應的NPC與玩家進行交互。

在MOBA(Multiplayer Online Battle Arena,多人在線戰術競技游戲)中,游戲地圖較為復雜,需要游戲AI需要具備一定的決策。

在現有技術在中,一般采用有限狀態機,或者行為樹,或者深度學習設計游戲AI,使得游戲AI具備一定的決策。但是,基于有限狀態機或者行為樹設計游戲AI,會存在表現效果差,以及開發、執行、維護效率低的問題;而如果基于強化學習設計游戲AI,則會存在樣本難以獲取,部分函數需要認為定義,以及訓練不穩定的問題。



技術實現要素:

鑒于上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種虛擬對象的決策方法、一種虛擬對象的決策模型構建方法、一種虛擬對象的決策裝置、一種虛擬對象的決策控制模型構建裝置、電子設備和存儲介質。

為了解決上述問題,本發明實施例公開了一種虛擬對象的決策方法,包括:

獲取當前游戲數據;所述當前游戲數據包括第一陣營中虛擬對象和第二陣營虛擬對象;

確定至少一個第二陣營虛擬對象為目標虛擬對象;

生成與所述當前游戲數據對應的待預測模型特征;

將所述待預測模型特征輸入至預設的決策模型中;

接收所述決策模型返回的目標轉移數據;

將所述目標虛擬對象移動至與所述目標轉移數據對應的位置。

優選地,所述當前游戲數據還包括游戲地圖,所述游戲地圖包括多個地理區域;所述決策模型包括多個與所述地理區域和預設時間區間對應的子模型;所述待預測模型特征包括目標位置,所述目標位置為所述目標虛擬對象當前所處的位置;

所述決策模型用于采用當前時間對應的時間區間和所述目標位置對應的地理區域確定目標子模型,并將所述待預測模型特征輸入至所述目標子模型;所述目標子模型用于采用所述待預測模型特征生成所述目標轉移數據。

優選地,所述決策模型通過如下方法生成:

獲取歷史游戲數據,以及初始模型;

采用所述歷史游戲數據,生成模型特征;

采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

采用所述模型特征和所述特征標簽訓練所述初始模型;

采用已訓練的初始模型,生成決策模型。

本發明實施例還公開了一種虛擬對象的決策模型構建方法,包括:

獲取歷史游戲數據,以及初始模型;

采用所述歷史游戲數據,生成模型特征;

采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

采用所述模型特征和所述特征標簽訓練所述初始模型;

采用已訓練的初始模型,生成決策模型。

優選地,所述采用所述歷史游戲數據,生成模型特征的步驟,包括:

確定所述歷史游戲數據中的多個虛擬對象、游戲地圖和游戲時間;

采用所述游戲時間,確定多個采樣時間點;

確定虛擬對象的歷史位置;所述歷史位置為虛擬對象在所述采樣時間點處于所述游戲地圖的位置;

采用所述歷史位置,生成與所述采樣時間對應的模型特征;所述模型特征與虛擬對象的一種特征信息對應。

優選地,所述虛擬對象包括:第一陣營虛擬對象和第二陣營虛擬對象;

所述特征信息包括:虛擬對象的血量值、虛擬對象的虛擬貨幣值、虛擬對象的經驗值、虛擬對象的數量值中的一種。

優選地,所述采用所述歷史游戲數據,提取特征標簽的步驟,包括:

將所述游戲地圖劃分為多個地理區域;

確定第一陣營虛擬對象中的目標虛擬對象;

確定目標虛擬對象在所述采樣時間點所處的地理區域;

若目標虛擬對象在當前采樣時間點以及前一個采樣時點所處的地理區域一致,則確定目標虛擬對象在當前采樣時間點所處的地理區域為與前一個采樣時點對應的特征標簽。

優選地,所述初始模型包括多個子模型;所述子模型與所述地理區域和預設的時間區間唯一對應;所述采用所述模型特征和所述特征標簽訓練所述初始模型的步驟,包括:

確定與當前模型特征對應的目標采樣時間點和目標地理區域;

確定與所述目標采樣時間點所處的目標時間區間;

確定與所述目標時間區間和目標地理區域對應的目標子模型;

將所述當前模型特征和與所述當前模型特征對應的特征標簽輸入至所述目標子模型。

優選地,所述初始模型的網絡結構為全卷積層結構。

本發明實施例還公開了一種虛擬對象的決策裝置,包括:

當前數據獲取模塊,用于獲取當前游戲數據;所述當前游戲數據包括第一陣營中虛擬對象和第二陣營虛擬對象;

目標確定模塊,用于確定至少一個第二陣營虛擬對象為目標虛擬對象;

待預測特征生成模塊,用于生成與所述當前游戲數據對應的待預測模型特征;

特征輸入模塊,用于將所述待預測模型特征輸入至預設的決策模型中;

數據接收模塊,用于接收所述決策模型返回的目標轉移數據;

移動模塊,用于將所述目標虛擬對象移動至與所述目標轉移數據對應的位置。

本發明實施例還公開了一種虛擬對象的決策模型構建裝置,包括:

歷史數據獲取模塊,用于獲取歷史游戲數據,以及初始模型;

模型特征生成模塊,用于采用所述歷史游戲數據,生成模型特征;

特征標簽生成模塊,用于采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

模型訓練模塊,用于采用所述模型特征和所述特征標簽訓練所述初始模型;

模型生成模塊,用于采用已訓練的初始模型,生成決策模型。

本發明實施例還公開了一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現如上所述的虛擬對象的決策方法的步驟,和/或如上所述的虛擬對象的決策模型構建方法的步驟。

本發明實施例還公開了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執行時實現如上所述的虛擬對象的決策方法的步驟,和/或如上所述的虛擬對象的決策模型構建方法的步驟。

本發明實施例包括以下優點:

在獲取包括有第一陣營中虛擬對象和第二陣營虛擬對象當前游戲數據后,確定至少一個第二陣營虛擬對象為目標虛擬對象并生成與所述當前游戲數據對應的待預測模型特征,將所述待預測模型特征輸入至預設的決策模型中。在決策模型采用待預測模型特征生成目標轉移數據之后,接收所述決策模型返回的目標轉移數據,其中,目標轉移數據為預測的目標虛擬對象的轉移目的地。然后將所述目標虛擬對象移動至與所述目標轉移數據對應的位置。而決策模型由用戶的歷史游戲數據生成,從而模擬用戶在當前游戲數據時的移動目的地,以及將目標虛擬對象移動至該轉移目的地,實現控制目標虛擬對象模擬用戶操作進行策略轉移,提高游戲中虛擬對象的智能程度,提高用戶在游戲過程中與虛擬對象的博弈體驗。

附圖說明

圖1是本發明的一種虛擬對象的決策模型構建方法實施例的步驟流程圖;

圖2是本發明的一種虛擬對象的決策方法實施例的步驟流程圖;

圖3是本發明的一種虛擬對象的決策模型構建裝置實施例的結構框圖;

圖4是本發明的一種虛擬對象的決策裝置實施例的結構框圖。

具體實施方式

為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。

參照圖1,示出了本發明的一種虛擬對象的決策模型構建方法實施例的步驟流程圖,具體可以包括如下步驟:

步驟101,獲取歷史游戲數據,以及初始模型;

在預置的存儲介質(例如:硬盤、磁盤、閃存盤)中存儲有歷史游戲數據,歷史游戲數據為用戶在運行游戲程序時,游戲程序時生成和/或調用的數據。例如,歷史游戲數據可以包括但不限于:虛擬對象的特征信息、游戲時長、游戲地圖。其中,虛擬對象的特征信息可以包括但不限于位置信息、屬性信息(攻擊力、血量等)、狀態信息(減速、眩暈等)。

在一種示例中,所述初始模型包括多個子模型;所述子模型與所述地理區域和預設的時間區間唯一對應。可以按照預設規則將游戲地圖劃分為多個地理區域,以及將游戲時長劃分為多個時間區間。子模型與地理區域和時間區間對應,則子模型數量等于地理區域數量與時間區間數量的乘積。

例如:可以將游戲地圖劃分為14個區域,包括:第一高地、第一上路、第一中路、第一下路、第一上野、第一下野、第一河道、第二高地、第二上路、第二中路、第二下路、第二上野、第二下野、第二河道。歷史游戲數據包括一局或多局游戲,將每一局游戲的游戲時間劃分為7個時間區間,包括:0~45秒(不含45秒)、45~240秒(不含240秒)、240~480秒(不含480秒)、480~720秒(不含720秒)、720~960秒(不含960秒)、960~1200秒(不含1200秒)以及1200秒字后。則子模型與其中一個地理區域和一個時間區間對應,子模型數量為98。

可以理解的是,在獲取歷史游戲數據后,可以對歷史游戲數據進行預處理,篩選出符合自定義條件的歷史游戲數據。例如:指定用戶群體的歷史游戲數據、指定游戲時間的歷史游戲數據、玩家一直處于游戲狀態的歷史游戲數據。

步驟102,采用所述歷史游戲數據,生成模型特征;

可以采用歷史游戲數據中的虛擬對象、游戲地圖和游戲時間,生成模型特征,模型特征為子模型的模型輸入特征。

步驟103,采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

可以根據歷史游戲數據中游戲地圖、用戶控制的虛擬對象在不同時間所處的位置,提取出歷史游戲數據對應的特征標簽。特征標簽為用戶控制的虛擬對象的轉移目的地。

步驟104,采用所述模型特征和所述特征標簽訓練所述初始模型;

初始模型設置有預測函數和對應的評估函數,預測函數可以采用模型特征生成預測結果。預測函數包括有至少一個預測參數,訓練初始函數即為調整預測參數的過程。

評估函數用于對比預測結果與特征標簽的誤差,從而判斷經過正在訓練的初始模型的訓練好壞。例如:預測結果與特征標簽的誤差越小,則表示初始模型訓練得越好。

步驟105,采用已訓練的初始模型,生成決策模型。

當評估函數滿足預設條件(例如:達到一定閾值)時,停止訓練初始模型。采用停止訓練后的初始模型為決策模型。

在本發明的一種優選實施例中,步驟102可以包括:

子步驟S11,確定所述歷史游戲數據中的多個虛擬對象、游戲地圖和游戲時間;

以MOBA(Multiplayer Online Battle Arena,多人在線戰術競技)游戲為例,歷史游戲數據可以包括多盤游戲,任意兩盤游戲中可能包括有不同虛擬對象(用戶控制不同虛擬對象或者用戶對陣不同虛擬對象)、游戲地圖和游戲時間。

在本發明的一種優選實施例中,所述虛擬對象包括:第一陣營虛擬對象和第二陣營虛擬對象;

在游戲中,用戶可以控制有一定數量的虛擬對象,第一陣營虛擬對象為與用戶控制的虛擬對象處于同一陣營的虛擬對象(例如:第一陣營虛擬對象可以包括用戶控制的虛擬角色,以及與用戶控制的虛擬角色處于同一陣營的NPC。用戶控制的虛擬對象可以包括英雄角色,NPC可以包括小兵、防御塔、水晶等);第二陣營對象為與用戶控制的虛擬對象處于敵對陣營的虛擬對象(例如:與用戶控制的虛擬角色處于敵對的英雄角色、小兵、防御塔、水晶等)。

在一種示例中,虛擬對象還可以包括第三陣營虛擬對象,第三陣營虛擬對象為中立陣營對象。例如:野外區域的NPC,野外區域的NPC包括但不限于小怪、BOSS。

可以理解的是,游戲中還可以包括與第一陣營虛擬對象、第二陣營虛擬對象均敵對的其他陣營虛擬對象,發明實施例對虛擬對象的陣營數量不作限定。

子步驟S12,采用所述游戲時間,確定多個采樣時間點;

可以從每一局游戲的開始時間起,按照一定頻次確定多個采樣時間點。例如:確定采樣時間點之間的時間間隔為5秒,即采樣時間點可以為0秒、5秒、10秒、15秒等并以此類推至游戲結束。

在本發明實施例中,只是以5秒為間隔對采樣時間點進行解釋說明,本發明實施例對具體的采樣時間點的間隔做限制。

子步驟S13,確定虛擬對象的歷史位置;所述歷史位置為虛擬對象在所述采樣時間點處于所述游戲地圖的位置;

游戲地圖可以劃分為多個地理區域,歷史位置可以是指虛擬對象在采樣時間點所處的地理區域。

在一種示例中,游戲地圖可以包含多個地理坐標,歷史位置可以是指虛擬對象在采樣時間點所處的地理坐標。

子步驟S14,采用所述歷史位置,生成與所述采樣時間對應的模型特征;所述模型特征與虛擬對象的一種特征信息對應。

在本發明的一種優選實施例中,所述特征信息包括:虛擬對象的血量值、虛擬對象的虛擬貨幣值、虛擬對象的經驗值、虛擬對象的數量值中至少的一種。

模型特征可以是一個二維的矩陣,不同模型特征與不同的特征信息或者與不同的虛擬對象的同一特征信息對應。矩陣中的元素位置與游戲地圖中的位置對應,矩陣中紅的元素的大小為對應的特征信息的值。例如:矩陣A與第一陣營虛擬對象的血量值對應、矩陣B與第二陣營虛擬對象的血量值對應、矩陣C與第一陣營虛擬對象的經驗值對應。則矩陣A和矩陣B對應與不同的虛擬對象,矩陣A和矩陣C對應于同一虛擬對象的不同特征信息。

在實際應用中,在訓練初始模型時,可以將多個模型特征組成一個三維矩陣,并將該三維矩陣輸入至初始模型。例如:在子步驟S14中總共生成了N個二維矩陣,且每一個二維矩陣均包括I行J列的元素,則可以采用上述的N個二維矩陣生成一個I*J*N的三維矩陣,并將該三維矩陣同時輸入至初始模型中,從而訓練初始模型。

在一種示例中,模型特征為正方形矩陣,即I=J。

在本發明的一種優選實施例中,步驟103可以包括:

子步驟S21,將所述游戲地圖劃分為多個地理區域;

在同一款游戲中,可能會存在不用的游戲地圖供用戶選擇,針對不同的游戲地圖可以設置有不同的劃分規則,將游戲地圖劃分為多個地理區域。

子步驟S22,確定第一陣營虛擬對象中的目標虛擬對象;

目標虛擬對象為第一陣營中用戶控制的虛擬對象。

子步驟S23,確定目標虛擬對象在所述采樣時間點所處的地理區域;

依次確定目標虛擬對象對應于各個采樣時間點所處的地理區域,從而可以判斷目標虛擬對象在相鄰的兩個時間采樣時間點所處的地理區域是否相同,以實現判斷目標虛擬對象是否在進行轉移。

子步驟S24,若目標虛擬對象在當前采樣時間點以及前一個采樣時點所處的地理區域一致,則確定目標虛擬對象在當前采樣時間點所處的地理區域為與前一個采樣時點對應的特征標簽。

當目標虛擬對象在當前采樣時間點以及前一個采樣時點所處的地理區域一致時,則表示目標虛擬對象已經轉移至目的地,并且當前位置為目標虛擬對象在前一個采樣時間點的轉移目的地,則可以確定目標虛擬對象在當前采樣時間點所處的地理區域為與前一個采樣時點對應的特征標簽。

由于目標虛擬對象可以能在同一個地理區域進行停留,則在獲取特征標簽后,可以對相同的特征標簽進行合并,以減少訓練初始模型時計算資源和存儲資源的占用比例。

另外,由于相鄰的采樣時間點具有一定的時間間隔,所以不同特征標簽對應于一定的時間間隔。可以在獲取特征標簽后對特征標簽進行平滑處理,從而可以對目標虛擬對象移動至轉移目的地之間的路徑。

在本發明的一種優選實施例中,步驟104可以包括:

子步驟S31,確定與當前模型特征對應的目標采樣時間點和目標地理區域;

由于模型特征對應于虛擬對象,模型特征中元素的位置與虛擬對象在游戲地圖中的位置對應,使得可以通過當前模型特征中的元素確定其對應目標地理區域。

子步驟S32,確定與所述目標采樣時間點所處的目標時間區間;

將游戲時間劃分為多個時間區間后,不同的采樣時間點可以對應不同的時間區間。例如:采樣時間點為5秒,則目標時間區間為0~45秒(不含45秒);采樣時間點為60秒,則目標時間區間為45~240秒(不含240秒)。

子步驟S33,確定與所述目標時間區間和所述目標地理區域對應的目標子模型;

由于子模型與地理區域和時間區間唯一對應,則可以通過當前模型特征對應的目標時間區間和目標地理區域,確定與當前模型特征匹配的目標子模型。

其中,若當前模型特征中對應多個虛擬對象時,則分別為多個虛擬對象確定對應的目標子模型。

子步驟S34,將所述當前模型特征和與所述當前模型特征對應的特征標簽輸入至所述目標子模型。

目標子模型設置有預測函數和對應的評估函數,預測函數可以采用當前模型特征生成預測結果。預測函數包括有至少一個預測參數,訓練初始函數即為調整預測參數的過程。

評估函數用于對比根據當前模型特征生成預測結果與當前模型特征對應的特征標簽的誤差(例如:均方根誤差、平均絕對百分誤差、平均絕對誤差),從而判斷經過正在訓練的初始模型的訓練好壞。

在本發明的一種優選實施例中,所述初始模型的網絡結構為全卷積層結構。

與現有技術中采用卷積層和全連接層組合生成預測模型的方式不同,本發明實施例采用的是全卷積層結構生成初始模型。

具體的,初始模型中的各個子模型均為全卷積層結構。具體的,子模型可以包括有輸入層、卷積層、池化層、和輸出層。輸入層用于獲取模型特征。卷積層和池化層用于將輸入層獲取的模型特征進行轉化后,發送至輸出層。輸出層設置有分類器,分類器采用輸出層發送的數據進行分類判別后,輸出預測結果。其中,卷積層可以設置有激活函數,以及通過加入Regularization(正則化)方法和Dropout(隨機失活)方法強化子模型的泛化能力。

在本發明實施例中,通過在獲取歷史游戲數據后,采用歷史游戲數據生成模型特征以及特征標簽,將模型特征和特征標簽輸入至初始模型,使得訓練后的初始模型能夠根據輸入的模型特征,生成預測的特征標簽。其中,游戲包括虛擬對象,特征標簽為虛擬對象的轉移目的地。從而實現決策模型能夠根據輸入的模型特征,預測虛擬對象的轉移目的地。

進一步的,初始模型包括多個子模型,子模型與游戲地圖和時間區間唯一對應,根據當前模型特征對應的采樣時間區間和地理區域確定目標子模型,并將當前模型特征和當前模型特征對應的特征標簽輸入至目標子模型,子模型采用當前模型特征生成預測結果,并采用預測結果和特征標簽進行對比,根據對比情況不斷挑戰子模型的參數,從而訓練目標子模型。從而實現采用不同的子模型處理不同的模型特征,避免采用單一模型處理全部模型特征,提高決策模型輸出結果的準確性。

參照圖2,示出了本發明的一種虛擬對象的決策方法實施例的步驟流程圖;具體可以包括如下步驟:

步驟201,獲取當前游戲數據;所述當前游戲數據包括第一陣營中虛擬對象和第二陣營虛擬對象;

當用戶在正在運行游戲程序時,可以直接從預置服務器中獲取當前游戲數據。在游戲中,用戶可以控制有一定數量的虛擬對象,第一陣營虛擬對象為與用戶控制的虛擬對象處于同一陣營的虛擬對象(例如:第一陣營虛擬對象可以包括用戶控制的虛擬角色,以及與用戶控制的虛擬角色處于同一陣營的NPC。用戶控制的虛擬對象可以包括英雄角色,NPC可以包括小兵、防御塔、水晶等);第二陣營對象為與用戶控制的虛擬對象處于敵對陣營的虛擬對象(例如:與用戶控制的虛擬角色處于敵對的英雄角色、小兵、防御塔、水晶等)。即當前游戲數據可以包括第一陣營中虛擬對象和第二陣營虛擬對象。

在一種示例中,當前游戲數據還可以包括第三陣營虛擬對象,第三陣營虛擬對象為中立陣營對象,例如:野外區域的NPC,野外區域的NPC包括但不限于小怪、BOSS。

步驟202,確定至少一個第二陣營虛擬對象為目標虛擬對象;

在一種示例中,可以采用預設規則,將第二陣營對象中的一個或多個虛擬對象為目標虛擬對象,并執行步驟203~步驟206。在另一種示例中,每一次只將第二陣營中的一個虛擬對象為目標虛擬對象,然后執行步驟203~206。并通過依次確定目標虛擬對象,從而實現控制多個第二陣營中的虛擬對象模擬用戶進行策略轉移。

步驟203,生成與所述當前游戲數據對應的待預測模型特征;

可以采用當前游戲數據,生成待預測模型特征。所述待預測模型特征可以包括當前時間的不同虛擬對象的特征信息,所述特征信息包括:虛擬對象的血量值、虛擬對象的虛擬貨幣值、虛擬對象的經驗值、虛擬對象的數量值中至少的一種。

步驟204,將所述待預測模型特征輸入至預設的決策模型中;

將待預測模型特征輸入至已完成訓練的決策模型中,決策模型用于采用待預測模型特征生成目標轉移數據。其中,決策模型由歷史游戲數據訓練生成。

待預測模型特征可以是一個由多個二維矩陣組合的三維矩陣,三維矩陣中的每一個二維矩陣對應不同的特征信息或者不同虛擬對象的同一特征信息。

步驟205,接收所述決策模型返回的目標轉移數據;

所述目標轉移數據與目標虛擬對象對應。

在接收到決策模型返回的目標轉移數據后,確定目標轉移數據為目標虛擬對象的轉移目的地。

步驟206,將所述目標虛擬對象移動至與所述目標轉移數據對應的位置。

決策模型由用戶的歷史游戲數據訓練生成,能夠預測出用戶在當前游戲數據的情況下的轉移目的地。而轉移數據與目標虛擬對象對應,通過控制目標虛擬對象移動至預測得到的轉移目的地,從而使得目標虛擬對象能夠模擬用戶操作。進一步的,控制目標虛擬對象模擬用戶進行轉移策略。實現提高游戲中虛擬對象的智能程度,提高用戶游戲過程中與敵對虛擬對象的博弈體驗。

在本發明的一種優選實施例中,所述當前游戲數據包括游戲地圖,所述游戲地圖包括多個地理區域;所述決策模型包括多個與所述地理區域和預設時間區間對應的子模型;所述待預測模型特征包括目標位置,所述目標位置為所述目標虛擬對象當前所處的位置;

所述決策模型用于采用當前時間對應的時間區間和所述目標位置對應的地理區域確定目標子模型,并將所述待預測模型特征輸入至所述目標子模型;所述目標子模型用于采用所述待預測模型特征生成所述目標轉移數據。

決策模型可以包括多個已訓練的子模型,每一個子模型分別對應不同的時間區間和/或地理區域。決策模型用于確定與當前時間和目標位置對應的地理區域均匹配的子模型為目標子模型,并將待預測模型圖特征發送至目標子模型。已訓練的目標子模型能夠采用待預測模型特征進行計算,生成目標轉移數據。

決策模型設置多個有與時間區間和地理區域對應的子模型,每一個子模型預先采用不同的數據進行訓練。決策模型在獲取待預測模型后,在多個子模型中確定目標子模型。目標子模型能夠采用接收到的待預測模型特征進行計算,生成目標轉移數據。從而使得決策模型能夠針對不同的待預測模型特征,采用不同的子模型生成目標轉移數據,避免采用單一模型處理全部待預測模型特征而導致計算結果不準確的問題,提高了目標轉移數據的準確性。

在本發明的一種優選實施例中,所述決策模型通過如下方法生成:

獲取歷史游戲數據,以及初始模型;

采用所述歷史游戲數據,生成模型特征;

采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

采用所述模型特征和所述特征標簽訓練所述初始模型;

采用已訓練的初始模型,生成決策模型。

在本發明的一種優選實施例中,所述采用所述歷史游戲數據,生成模型特征的步驟,包括:

確定所述歷史游戲數據中的多個虛擬對象、游戲地圖和游戲時間;

采用所述游戲時間,確定多個采樣時間點;

確定虛擬對象的歷史位置;所述歷史位置為虛擬對象在所述采樣時間點處于所述游戲地圖的位置;

采用所述歷史位置,生成與所述采樣時間對應的模型特征;所述模型特征與虛擬對象的一種特征信息對應。

在本發明的一種優選實施例中,所述虛擬對象包括:第一陣營虛擬對象和第二陣營虛擬對象;

所述特征信息包括:虛擬對象的血量值、虛擬對象的虛擬貨幣值、虛擬對象的經驗值、虛擬對象的數量值中的一種。

在本發明的一種優選實施例中,所述采用所述歷史游戲數據,提取特征標簽的步驟,包括:

將所述游戲地圖劃分為多個地理區域;

確定第一陣營虛擬對象中的目標虛擬對象;

確定目標虛擬對象在所述采樣時間點所處的地理區域;

若目標虛擬對象在當前采樣時間點以及前一個采樣時點所處的地理區域一致,則確定目標虛擬對象在當前采樣時間點所處的地理區域為與前一個采樣時點對應的特征標簽。

在本發明的一種優選實施例中,所述初始模型包括多個子模型;所述子模型與所述地理區域和預設的時間區間唯一對應;所述采用所述模型特征和所述特征標簽訓練所述初始模型的步驟,包括:

確定與當前模型特征對應的目標采樣時間點和目標地理區域;

確定與所述目標采樣時間點所處的目標時間區間;

確定與所述目標時間區間和目標地理區域對應的目標子模型;

將所述當前模型特征和與所述當前模型特征對應的特征標簽輸入至所述目標子模型。

在本發明的一種優選實施例中,所述初始模型的網絡結構為全卷積層結構。

由于虛擬對象的決策方法實施例中的決策模型生成方法,與一種虛擬對象的決策模型構建方法實施例的內容基本相似,所以描述較為簡單,相關之處參見一種虛擬對象的決策模型構建方法實施例的說明即可,在此不在贅述。

在本發明實施例中,在獲取包括有第一陣營中虛擬對象和第二陣營虛擬對象當前游戲數據后,確定至少一個第二陣營虛擬對象為目標虛擬對象并生成與所述當前游戲數據對應的待預測模型特征,將所述待預測模型特征輸入至預設的決策模型中。在決策模型采用待預測模型特征生成目標轉移數據之后,接收所述決策模型返回的目標轉移數據,其中,目標轉移數據為預測的目標虛擬對象的轉移目的地。然后將所述目標虛擬對象移動至與所述目標轉移數據對應的位置。而決策模型由用戶的歷史游戲數據生成,從而模擬用戶在當前游戲數據時的移動目的地,以及將目標虛擬對象移動至該轉移目的地,實現控制目標虛擬對象模擬用戶操作進行策略轉移,提高游戲中虛擬對象的智能程度,提高用戶在游戲過程中與虛擬對象的博弈體驗。

進一步的,待預測模型特征包括目標位置,所述目標位置為所述目標虛擬對象當前所處的位置。決策模型設置多個有與時間區間和地理區域對應的子模型,每一個子模型預先采用不同的數據進行訓練。決策模型能夠針對不同的待預測模型特征,采用不同的子模型生成目標轉移數據,避免采用單一模型處理全部待預測模型特征而導致計算結果不準確的問題,提高了目標轉移數據的準確性。

需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例并不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作并不一定是本發明實施例所必須的。

參照圖3,示出了本發明的一種虛擬對象的決策模型構建裝置實施例的結構框圖,具體可以包括如下模塊:

歷史數據獲取模塊301,用于獲取歷史游戲數據,以及初始模型;

模型特征生成模塊302,用于采用所述歷史游戲數據,生成模型特征;

特征標簽生成模塊303,用于采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

模型訓練模塊304,用于采用所述模型特征和所述特征標簽訓練所述初始模型;

模型生成模塊305,用于采用已訓練的初始模型,生成決策模型。

在本發明的一種優選實施例中,所述模型特征生成模塊302包括:

確定單元,用于確定所述歷史游戲數據中的多個虛擬對象、游戲地圖和游戲時間;

采用單元,用于采用所述游戲時間,確定多個采樣時間點;

位置單元,用于確定虛擬對象的歷史位置;所述歷史位置為虛擬對象在所述采樣時間點處于所述游戲地圖的位置;

特征單元,用于采用所述歷史位置,生成與所述采樣時間對應的模型特征;所述模型特征與虛擬對象的一種特征信息對應。

在本發明的一種優選實施例中,所述虛擬對象包括:第一陣營虛擬對象和第二陣營虛擬對象;

所述特征信息包括:虛擬對象的血量值、虛擬對象的虛擬貨幣值、虛擬對象的經驗值、虛擬對象的數量值中的一種。

在本發明的一種優選實施例中,所述特征標簽生成模塊303包括:

劃分單元,用于將所述游戲地圖劃分為多個地理區域;

目標單元,用于確定第一陣營虛擬對象中的目標虛擬對象;

地理單元,用于確定目標虛擬對象在所述采樣時間點所處的地理區域;

標簽單元,用于若目標虛擬對象在當前采樣時間點以及前一個采樣時點所處的地理區域一致,則確定目標虛擬對象在當前采樣時間點所處的地理區域為與前一個采樣時點對應的特征標簽。

在本發明的一種優選實施例中,所述初始模型包括多個子模型;所述子模型與所述地理區域和預設的時間區間唯一對應;所模型訓練模塊304包括:

子模型對應單元,用于確定與當前模型特征對應的目標采樣時間點和目標地理區域;

時間區間單元,用于確定與所述目標采樣時間點所處的目標時間區間;

子模型選擇單元,用于確定與所述目標時間區間和目標地理區域對應的目標子模型;

特征輸入單元,用于將所述當前模型特征和與所述當前模型特征對應的特征標簽輸入至所述目標子模型。

在本發明的一種優選實施例中,所述初始模型的網絡結構為全卷積層結構。

參照圖4,示出了本發明的一種虛擬對象的決策裝置實施例的結構框圖,具體可以包括如下模塊:

當前數據獲取模塊401,用于獲取當前游戲數據;所述當前游戲數據包括第一陣營中虛擬對象和第二陣營虛擬對象;

目標確定模塊402,用于確定至少一個第二陣營虛擬對象為目標虛擬對象;

待預測特征生成模塊403,用于生成與所述當前游戲數對應的待預測模型特征;

特征輸入模塊404,用于將所述待預測模型特征輸入至預設的決策模型中;

數據接收模塊405,用于接收所述決策模型返回的目標轉移數據;

移動模塊406,用于將所述目標虛擬對象移動至與所述目標轉移數據對應的位置。

在本發明的一種優選實施例中,所述當前游戲數據包括游戲地圖,所述游戲地圖包括多個地理區域;所述決策模型包括多個與所述地理區域和預設時間區間對應的子模型;所述待預測模型特征包括目標位置,所述目標位置為所述目標虛擬對象當前所處的位置;

所述決策模型用于采用當前時間對應的時間區間和所述目標位置對應的地理區域確定目標子模型,并將所述待預測模型特征輸入至所述目標子模型;所述目標子模型用于采用所述待預測模型特征生成所述目標轉移數據。

在本發明的一種優選實施例中,所述決策模型通過如下模塊生成:

歷史數據獲取模塊,用于獲取歷史游戲數據,以及初始模型;

模型特征生成模塊,用于采用所述歷史游戲數據,生成模型特征;

特征標簽生成模塊,用于采用所述歷史游戲數據,提取特征標簽;所述特征標簽為轉移目的地;

模型訓練模塊,用于采用所述模型特征和所述特征標簽訓練所述初始模型;

模型生成模塊,用于采用已訓練的初始模型,生成決策模型。

在本發明的一種優選實施例中,所述模型特征生成模塊包括:

確定單元,用于確定所述歷史游戲數據中的多個虛擬對象、游戲地圖和游戲時間;

采用單元,用于采用所述游戲時間,確定多個采樣時間點;

位置單元,用于確定虛擬對象的歷史位置;所述歷史位置為虛擬對象在所述采樣時間點處于所述游戲地圖的位置;

特征單元,用于采用所述歷史位置,生成與所述采樣時間對應的模型特征;所述模型特征與虛擬對象的一種特征信息對應。

在本發明的一種優選實施例中,所述虛擬對象包括:第一陣營虛擬對象和第二陣營虛擬對象;

所述特征信息包括:虛擬對象的血量值、虛擬對象的虛擬貨幣值、虛擬對象的經驗值、虛擬對象的數量值中的一種。

在本發明的一種優選實施例中,所述特征標簽生成模塊包括:

劃分單元,用于將所述游戲地圖劃分為多個地理區域;

目標單元,用于確定第一陣營虛擬對象中的目標虛擬對象;

地理單元,用于確定目標虛擬對象在所述采樣時間點所處的地理區域;

標簽單元,用于若目標虛擬對象在當前采樣時間點以及前一個采樣時點所處的地理區域一致,則確定目標虛擬對象在當前采樣時間點所處的地理區域為與前一個采樣時點對應的特征標簽。

在本發明的一種優選實施例中,所述初始模型包括多個子模型;所述子模型與所述地理區域和預設的時間區間唯一對應;所模型訓練模塊包括:

子模型對應單元,用于確定與當前模型特征對應的目標采樣時間點和目標地理區域;

時間區間單元,用于確定與所述目標采樣時間點所處的目標時間區間;

子模型選擇單元,用于確定與所述目標時間區間和目標地理區域對應的目標子模型;

特征輸入單元,用于將所述當前模型特征和與所述當前模型特征對應的特征標簽輸入至所述目標子模型。

在本發明的一種優選實施例中,所述初始模型的網絡結構為全卷積層結構。

對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。

本發明實施例還公開了一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現如上所述的虛擬對象的決策方法的步驟,和/或如上所述的虛擬對象的決策模型構建方法的步驟。

本發明實施例還公開了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執行時實現如上述的虛擬對象的決策方法的步驟,和/或如上所述的虛擬對象的決策模型構建方法的步驟。

本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或計算機程序產品。因此,本發明實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。

本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理終端設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數據處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發明實施例的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本發明實施例范圍的所有變更和修改。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本發明所提供的一種虛擬對象的決策方法、一種虛擬對象的決策模型構建方法、一種虛擬對象的決策裝置、一種虛擬對象的決策控制模型構建裝置、電子設備和存儲介質,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

再多了解一些
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
极速pk10 常德 | 绍兴 | 益阳 | 日照 | 抚顺 | 扬州 | 怀化 | 滁州 | 东方 | 红河 | 瓦房店 | 大理 | 江苏苏州 | 延安 | 包头 | 迁安市 | 简阳 | 石嘴山 | 日喀则 | 涿州 | 鞍山 | 内江 | 安顺 | 咸阳 | 白沙 | 儋州 | 高雄 | 阿拉尔 | 白城 | 绵阳 | 烟台 | 三亚 | 黔东南 | 临海 | 巢湖 | 日喀则 | 三明 | 燕郊 | 灌云 | 澄迈 | 株洲 | 云浮 | 石狮 | 天水 | 宿迁 | 庆阳 | 简阳 | 天水 | 宝应县 | 铁岭 | 德州 | 海北 | 大连 | 喀什 | 章丘 | 池州 | 鹤壁 | 朝阳 | 台州 | 昆山 | 镇江 | 襄阳 | 甘孜 | 招远 | 厦门 | 佳木斯 | 吕梁 | 延安 | 天门 | 通辽 | 龙岩 | 屯昌 | 本溪 | 甘肃兰州 | 万宁 | 海北 | 晋中 | 五家渠 | 喀什 | 迪庆 | 遵义 | 益阳 | 辽阳 | 江西南昌 | 海宁 | 云南昆明 | 任丘 | 潍坊 | 伊春 | 济南 | 柳州 | 南阳 | 文山 | 仁怀 | 日土 | 保定 | 蚌埠 | 海安 | 白山 | 武威 | 招远 | 桐城 | 金昌 | 咸宁 | 枣阳 | 石狮 | 高密 | 安庆 | 海南 | 洛阳 | 宝应县 | 上饶 | 包头 |