上海曠信信息科技有限公司成立于2015年,設立有北京、廣深分公司,公司自創立起便以“技術匠心、客戶為本、共享價值”為服務理念、以“IT咨詢領域最值得信賴的企業”為愿景,專注于基礎架構建設,數據庫服務;并為企業數據中心的業務連續性,提供永續保障的咨詢、集成等服務。
服務產品范圍以及擴展服務
數據庫產品 | 中間件產品 | ||
名稱 | 服務類型 | 名稱 | 類型 |
Oracle | 原廠標準服務、 高級人天服務、自有服務 | Weblogic | 原廠標準服務、 高級人天服務、自有服務 |
MySQL | 原廠自有服務、自有服務 | WebSphere | 自有服務 |
SQL Server | 自有服務 | Apache Tomcat | 自有服務、開源 |
DB2 | 自有服務 | Jboss | 自有服務、開源 |
上海曠信信息科技有限公司(以下簡稱K-TRUST公司)結合自身多年IT服務經驗,對當前的IT數據庫服務市場進行了分析,認為目前在數據庫維保方面上市場上普遍存在著以下幾種現象:
1、 沒有完善的數據庫工程師團隊;
目前在國內企業數據庫市場占比較大的有Oracle數據庫、MySQL、SQL Server、DB2等,企業內部也存在多種數據庫并行情況,由于數據庫工程師成本高昂而造成許多IT服務公司無法完全覆蓋企業內部的數據庫服務。而多數服務公司僅提供單一產品服務,一旦遇到綜合性問題,產生推諉、配合度不高、溝通不暢等現象,問題無法及時解決,給客戶的業務連續性造成不同程度的影響。
2、 高昂的服務價格和機械性的服務條款執行
許多IT服務商在與客戶簽訂數據庫服務合同后,對服務條款僅僅是機械性的執行,對于數據庫的健康巡檢工作浮于表面、流于形式;停留在指標數據收集、給出巡檢報告的狀態,對于整體性能的優化無對比、無量化。
3、 無原廠級技術資源
Oracle原廠工程師技術支持是Oracle數據庫服務的重要保障,但由于Oracle原廠的服務分為標準服務和高級人天服務,高級人天服務價格高昂,需要在購買Oracle標準服務的基礎上才可以購買高級人天服務,且必須在有限期限內使用完畢,無法做到完全的按需使用;目前行業內僅有特殊需求的客戶會購買原廠高級人天服務,故是否有原廠級別的工程師、是否能協調原廠資源做為IT服務商在數據庫服務的表現能力上顯得尤為重要,而目前非專注于數據庫服務的IT服務商很少或無法提供原廠級別的技術支持;
基于以上幾種現象,我們依據多年技術和IT咨詢服務經驗,不斷加大工程師的數量、形成了可覆蓋主流數據庫、并具備原廠級的數據庫工程師團隊,并結合用戶需求和自身優勢,有針對性、總結性的提出一整套數據庫服務方法論應用于實際,并推出數據庫運維監控產品來提高服務價值,形成了具有K-TRUST特色的、能滿足用戶對服務高質量、高性價比要求的服務體系。
K-TRUST將數據庫服務整體分為六部分,分別為
(一) 數據庫(中間件)全面深入的健康巡檢;
(二) 數據庫整體性能優化;
(三) 緊急故障解決;
(四) 文檔輸出;
(五) 服務內容、服務SLA標準;
(六) 數據庫監控產品;
健康巡檢主要涵蓋4部分,分別為系統基線管理與系統基本信息、配置基線、性能基線、服務記錄;
(一) 系統基線管理與系統基本信息
對系統基線管理(信息采集、分析),主要包含SGA內存、OS內核、QUERY/API、ALERT LOG、APP信息等;
其巡檢報告中主要包含以下信息:
1) 系統編號
2) 系統維護主要聯系人
3) 次要聯系人
4) 服務經理
5) 業務系統類型
6) 主要業務描述
7) 系統架構圖
8) 系統可用性要求等
(二) 配置基線
主要對指標數據分析,涵蓋多實例整合監視、性能數據收集以及存檔、無負荷實時診斷分析等;
其巡檢報告中包含以下信息:
1) 安裝環境信息
2) 版本以及補丁信息
3) 實例與集群信息
4) 用戶與權限信息
5) 部署應用信息
6) 系統屬性
7) 參數配置
8) 表空間信息
9) 備份配置等;
(三) 性能基線
主要對指標基線進行數據分析,并進行性能診斷和優化分析,如歷史性能故障區間分析、性能趨勢分析、性能基線分析、性能自動診斷分析等;
其巡檢報告相對應以下信息:
1) 系統CPU負載
2) 系統內存負載
3) 系統IO負載
4) 業務用戶數
5) 連接數/活動連接數
6) 每秒事務數
7) 每秒調用
8) 命中率
9) 等待事件等;
(四) 服務記錄以及調優;
在診斷分析的基礎上進行性能調優,主要包括SQL編輯調試、執行計劃分析、歷史數據分析、TRACE文件分析、基線指標偏離分析、服務記錄等;
其巡檢報告相對應以下信息:
1) 服務編號
2) 健康檢查記錄
3) 配置變更記錄
4) 問題處理記錄
5) 優化記錄
6) 其它服務記錄等;
在數據收集基礎上進行分析,對數據庫、中間件的性能進行調整,根據客戶現有環境,設立目標和提出書面建議。整體優化基于短板原則、2/8原則進行綜合優化,
其中分析優化部分包含
1) 業務需求分析
2) 業務邏輯設計優化
3) 數據模型優化
4) 應用流程優化
5) 技術實現方法優化
6) SQL語句優化
7) 數據庫中間件參數優化
8) 磁盤I/O系統設計和優化
9) 系統資源競爭優化
曠信科技對于緊急故障的處理,其基本原則為“問題解決、根源追溯、防治結合”。在出現緊急故障時,首先進行問題的處理,其次進行原因分析,提出預防措施,最后進行問題記錄。
具體實施如下:
1) 客戶郵件或電話說明故障現象,工程師到達現場
2) 進行故障診斷、處理、恢復
3) 深入分析故障的根本原因
4) 提供故障預防措施,并提供二次故障的快速解決方法
5) 記錄故障描述并提供故障處理報告
6) 故障信息歸檔便于故障回溯及潛在故障恢復跟蹤確認;
年度運維 | 專項服務 | 數據庫監控產品 |
客戶服務計劃 專人工程師支持 全天候值守電話 遠程故障診斷和支持 現場服務 定期巡檢 軟件升級 系統性能分析優化 疑難問題升級處理 文檔交付 輔助故障定位 應急預案制定 專題培訓 補丁風險分析
| 系統性能分析優化 歷史數據管理 數據庫統一管理 機房搬遷服務 數據遷移 版本升級 產品安裝 數據庫擴展性評估 MySQL落地實施 DB2故障處理 補丁安裝
|
故障級別的一般定義原則如下:
嚴重程度 1 -問題導致客戶的業務系統完全喪失服務功能,對業務至關重要的工作無法繼續進行,情況緊急。其具有如下特點:
1) 數據丟失
2) 關鍵功能喪失
3) 系統不正常掛起
4) 系統崩潰,并且在重新啟動后重復崩潰
嚴重程度 2 -問題導致客戶的業務系統喪失部分重要的服務功能。沒有可以接受的替代解決方案;但業務系統可以有限地繼續運行。
嚴重程度 3 -問題導致客戶的業務系統喪失較少的服務功能。對業務系統影響較小,需要提供解決方案以恢復功能。
嚴重程度 4 -問題導致客戶的業務系統沒有喪失服務功能。一般是較小的錯誤信息、不正確的結果或文檔錯誤, 對業務系統運行沒有影響。
我們將按照下述的目標來為您提供響應時間,其中對嚴重程度為1的問題將24小時連續處理,直到問題解決或取得有效進展。
1) 嚴重程度 =1: 在 15 分鐘內響應
2) 嚴重程度 =2: 在 30 分鐘內響應
3) 嚴重程度 =3: 在 1 個工作日內
4) 嚴重程度 =4: 在 1 個工作日內
對于無法保證通過遠程支持解決的問題,在與用戶協商之后,工程師將使用最快交通工具,趕到現場,盡可能減少系統故障對用戶的損失。