直接觀看文章

神魔之塔伺服器事故說明與今後應變


q34235435

首先,請容我們為伺服器問題帶來不愉快的遊戲體驗向所有召喚師致歉。

在列出背後原因及解決的方案前,先說明一下近期發生的伺服器狀況。

我們的伺服器自 9 月份以來發生過 8 次事故 (未計畫 18.1 版本更新停機維護) ,大部份事故原因為伺服器「數據傳輸不完整」所導致,和以往因人流眾多而引起的問題不同。
在經過一個多月來的修復過程,我們竭力解決伺服器的各種問題,以避免出現影響玩家遊玩神魔之塔的情況。

伺服器事故時間:
1) 2019 年 9 月 11 日 11:08 至 2019 年 9 月 12 日 07:00 ( 包括 20 小時伺服器維護 )
2) 2019 年 9 月 13 日 10:54 至 2019 年 9 月 13 日 23:10 ( 包括 12 小時伺服器維護 )
3) 2019 年 9 月 17 日 06:00 至 2019 年 9 月 17 日 23:12 ( 包括 15 小時伺服器維護 )
4) 2019 年 9 月 29 日 07:28 至 2019 年 9 月 29 日 08:30
5) 2019 年 10 月 02 日 22:10 至 2019 年 10 月 02 日 23:43
6) 2019 年 10 月 08 日 11:05 至 2019 年 10 月 08 日 14:00
7) 2019 年 10 月 13 日 18:42 至 2019 年 10 月 13 日 18:43
8) 2019 年 10 月 14 日 23:40 至 2019 年 10 月 15 日 00:40


1) 伺服器出現了什麼問題?原因為何?
當玩家進入遊戲時,伺服器會索取玩家帳戶資料及遊戲核心資料,伺服器向數據庫或快取伺服器索取或儲存資料時,傳輸的資料必須完整才能確保玩家能正常遊玩。
在最近數次事中,伺服器在進行資料傳輸的過程中出現數據不完整,當中包括部份玩家的個人帳戶資料及遊戲核心資料,該批玩家由於個人帳戶資料缺失而導致無法連接伺服器;而其他玩家則由於遊戲核心資料缺失問題,所以在進入遊戲後會出現各種異常問題。

對於伺服器事故,我們設想了數個原因:
i. 內部系統邏輯出錯
我們於事故出現時最先懷疑的,是內部系統邏輯上是否出現錯誤導致問題,但經過詳細的檢查後已經排除了這個可能性。

ii. 第三方伺服器服務供應商問題
另一個有可能的原因,則是第三方伺服器服務供應商在進行傳輸時出現錯誤,導致數據出現缺失及異常。

iii. 伺服器作業系統問題
我們亦查找過其他公司有否發生相近情況,經調查發現,其他公司的服務也曾因伺服器作業系統的核心出現問題,發生類似事件。


2) 為什麼維護時間都這麼臨時?
異常情況都是無預警及隨機的狀況,當我們發現部份玩家數據有異常時,我們需要即時進行臨時維護,以免影響到其他正常玩家的數據。

其中一個情況是,我們曾公告並安排在 9 月 17 日 09:00 停機維護,然而在當天 06:00 我們發現異常問題發生,所以提早在 08:48 進行維護。對於未有及時發佈緊急維護消息,我們在此誠懇地致歉。


3) 伺服器出現問題後至今,神魔之塔官方人員實施了哪些修正及預防措施?
有關問題發生後,我們在多次伺服器維護中進行以下工作措施,加強對我們伺服器的保護,盡力令系統正常運作。

  • 為數據資料受損的玩家進行修復工作
  • 將系統版本升級,加強修復系統漏洞及安全問題
  • 在不同地方的數據讀取及存入時加強校對及保護機制
  • 把整個伺服器結構及設置重建,好讓系統在全新的操作環境下運行
  • 伺服器系統會因應負載情況而自動新增或減少伺服器的數量,我們發現「數據傳輸不完整」的問題隨機發生在這些剛剛自動新增的伺服器上。針對這情況,我們加強了對新增的伺服器的檢測,當其中一台伺服器發生類似問題,會即時自動地從系統脫離,停止運作,從而不會影響當下玩家;同時系統亦會立即自動通知工程師,以檢查情況。我們相信這做法能有效地防止類似事件影響玩家遊玩神魔之塔。

4) 神魔有增設伺服器嗎?
我們採用雲端伺服器服務,伺服器可以隨時增加數量以應付當時的需求。過往遇到人流眾多的活動時,伺服器不單是自動添加數量,工程師也會提早增加伺服器。可是,最近數次的事件和以往因人流眾多而引起的問題不同。


5) 最近數次的伺服器問題和以往的有什麼不同?
以往的情況大多是遇到人流過多情況,當下的伺服器未能應付負荷時會造成分流,我們會預早加設伺服器數目,預先應付當下的人流負荷。而最近數次的事件不是伺服器負荷過重,而是系統數據隨機地在網絡傳輸中出現缺憾,增加伺服器這方法並未能解決這個問題,所以期間在多次伺服器維護中進行各項預防問題的工作措施,加強對伺服器的保護。我們同時亦正跟第三方伺服器服務供應商溝通,尋求完全解決的方案。


6) 18.1版本更新當天 (10 月 21 日) 伺服器停機維護是因為什麼原因?
第一次維護:10 月 21 日 09:00 – 17:15
除了原定的版本更新維護工作外,為進一步排除伺服器網絡會產生傳輸時出現數據缺失及異常問題,在更新維護當天,我們再次重整伺服器結構及設置到新的伺服器網絡中,維護時間比我們預估的為長,延遲了 15 分鐘,在此我們再次致歉。

第二次維護:10 月 21 日 19:15 – 23:00
開放伺服器後,新建的伺服器有設置問題,令機能運作處理比平常慢,出現效能問題,所以在當天 19:15 時決定停機維護以解決問題,並於 23:00 確保所有玩家能進入遊戲。


7) 官方在第二次停機維護做了什麼措施嗎?
我們當晚進行了緊急停機維護修正新建伺服器的設置,設置完成並重新開服配合分流後,目前伺服器已確保正常運作。


8) 工程師的話
對於最近發生的伺服器問題為大家帶來不愉快的遊戲體驗,我們在此致上最高的歉意。
團隊不斷有新的工程師及測試員加入,並持續招聘合適的人選,致力改善遊戲內的 Bug 問題,加強伺服器保護措施及穩定性,以避免出現影響玩家遊玩神魔之塔的情況。感謝召喚師的體諒,請大家繼續支持神魔之塔。

分類

公告