揚州恒大食品有限公司
阿明調查|一個企業用戶的存儲困惑
發布日期 2020-06-16
這個周末,阿明獨立自媒體的一位粉絲朋友在號上留言,希望尋求阿明的幫助。
這位粉絲是一個有采購需求的某企業用戶,應他要求不透露其具體企業名字和姓名。
某企業用戶留言如下:
系統運行環境是WIN2003+SQL2005,存儲環境是2臺菊花S5300,已用賽門鐵克Veritas-Storage-Foundation做存儲熱備,實現同步讀寫。服務器環境是利用Veritas Cluster Server,實現服務器雙機熱備。
因存儲設備使用年限已久(總共使用5年了),時常出現硬件故障。為不影響業務連續性,想新增一臺存儲服務器,加入使用。
若采購一臺存儲支持異構同步,SQL Server高可用性,是否得到保證?
新存儲與舊存儲間數據是否完全一致?
讀寫性能是否局限在舊存儲,舊存儲可能是“拖油瓶”?
或者新增一臺存儲后,可以改變現有架構,是否有更優的解決方案?
在看到這個問題之后,阿明特別問了該企業用戶為什么不找菊花存儲的人幫忙呢?
該企業用戶說:“菊花存儲S5300很坑爹,BBU電池是有壽命的,更坑爹的是,快到生命周期了。要知道幾塊電池,也付出高成本的?!彼南敕ǚ浅V苯?,不能一步到位那就逐步去替換掉菊花存儲S5300。
對于BBU電池方面的問題,該用戶做了詳細的介紹:
后期,這幾個BBU給我們帶來不少困擾,BBU到期及損壞,對存儲陣列會造成讀寫影響;若BBU失效、損壞、失電,以及與UPS同時斷開,緩存的數據無法寫入到硬盤,特別擔心出現丟失數據,甚至擔心會對數據庫產生災難性破壞。
實際使用過程中,Veritas-Storage-Foundation(VSF)層面的存儲同步遇到過兩次不能讀寫的問題。某臺S5300掉電和UPS同時斷開,BBU開啟保護模式,把緩存的數據寫入到硬盤,此時VSF檢測到2臺存儲均在線,但是某臺存儲陣列狀態未知,這個時候VSF不能繼續讀和寫。
BBU知識大普及:
BBU英文全稱是Battery Backup Unit,即:電池備份單元。幾乎所有存儲廠會對自己的存儲陣列產品采取掉電保護的設計,所以所有存儲陣列都會配備BBU。
存儲陣列BBU普遍設計邏輯,在電源供應出現問題時,為RAID控制器緩存提供電源。當陣列斷電時,BBU電力可以使控制器內緩存中的數據保存一定時間,具體情況根據廠商配置的BBU型號而決定。
存儲用戶只需要在BBU電力耗盡之前恢復正常供電,緩存中的數據即可被完整的寫回RAID中,避免掉電導致數據丟失。
因此,也有網友這樣理解BBU的功能和作用。BBU可以理解為電池,作用就是掉電后保證緩存中的數據寫到硬盤,但是BBU電池電量有限,供電時間有限,只要可以陣列掉電后將數據成功寫入硬盤就OK了。
同時服務器也有BBU保護,配置RAID卡同時配一個電池,在系統掉電后,保證內存中的數據不丟失,但供電時間只能維持12個小時,超過12小時服務器沒有恢復電力,內存數據必然丟失。也有配置超級電容,在服務器掉電后把緩存中的數據寫入到電容中,而且會永久保存,類似存儲陣列寫入硬盤,超級電容可以保證服務器掉電12個小時以后內存數據依然不丟失。
總的來看,不管是存儲陣列的BBU還是服務器BBU,采用電池類型常見的就是鋰電池,壽命通常3-5年左右,其次就是超級電容可以擁有10年左右壽命,但超級電容對溫度要求很高,但也面臨著對溫度的要求。目前業內耐溫性最好的法拉電容(超級電容)耐溫區間在-45℃-+85℃。
對于BBU的問題,阿明還同時請教了多位業內專家,他們分析認為:
一是,存儲陣列BBU一般壽命都是3年,也要看不同廠商的承諾。BBU主要是保證當系統外部供電出現異常時,在一段時間內保證寫緩存的供電以防止數據丟失。
二是,如果BBU異常的話,陣列一般會進入直寫模式,就是上層的數據寫入陣列時會直接寫到磁盤上而非寫緩存中,這時候系統的性能就是底層磁盤的性能,較之寫緩存會有明顯的下降。
三是,一般情況下BBU出問題對于讀操作影響較小,不過也依不同系統有所不同。
四是,如果外部供電出問題后,BBU隨后出問題,很可能造成數據丟失或損壞。
可見,對于BBU電池備份單元設計與管理不科學,定會造成企業用戶存儲數據出現大問題。
于是,阿明將該醫院用戶的痛點與需求發到了技術群和朋友圈,尋求業內技術大拿幫忙。
針對這個企業用戶的特點和遇到的問題,業內專家輝哥、吳總、華哥、浙江王總、T哥等多位朋友給出了各自的建議。
該企業用戶主要為HIS應用,數據庫為sql server2005版本(300g左右)。
輝哥建議:因為存儲異構熱備已經由軟件實現了,所以新購存儲就沒啥限制了。不過最好新購兩臺,滾動升級,否則性能受限于舊存儲。先替換一臺,同步后再替換一臺。不過要確認新存儲是否支持Veritas的該版本軟件。
可能軟件版本要升級因為這些當前的軟件版本估計都EOS(服務終止)了,這些才是系統架構最大的隱患。
他最終的建議是:如果軟件搞不定,還不如遷移到虛擬化平臺。反正數據量和性能壓力都不大。畢竟虛擬化和存儲不是競爭關系,只是為了降低架構復雜度,在軟硬件之間實現解耦合。
浙江王總現身說法:300g數據庫應用采用虛擬化來實現,完全沒有問題,Oracle數據庫都運行得不錯。
T哥也同樣建議該醫院用戶先考量一下:能否P2V將物理機遷移到虛擬機。
在得到這些業內專家建議之后,該企業用戶再次明確了自己的痛點和想法:
我們生產環境采用的存儲熱備軟件,優缺點都很明顯。優點是確實實現了存儲間數據同步,也支持異構存儲同步。但是缺點也很明顯,若一臺存儲非鏈路中斷且在未知狀態,熱備軟件都不能進行讀寫,且處于存儲檢測狀態。由于資金有限,不能同時申購2臺存儲。
我們想法的初衷是,新購置一臺中高端存儲,運行業務。但要考慮業務的連續性,想把舊存儲利用起來。按照大神的回復,要么上虛擬化,要么同時申購2臺同型號存儲。
問題又來了:上虛擬化,VMware可以保證業務的高可用性。但是考慮到VMware要么是使用共享存儲,若共享存儲,則存在存儲單點故障。VSAN的話,需要新購置服務器成本、萬兆交換機等,費用是否能與中端存儲相仿?還有共享存儲的話,是否支持2臺存儲,數據能否同步?貌似又可能回到原點了。而且之前有主備機房,屬于異地容災,因此,一旦部署虛擬化,我們就要上2套新存儲系統。再說虛擬化用于生產環境,肯定要買版權,而且還有后續維保等,成本核算下來,我們還是可能吃不消。
在眾多技術大拿建議下,該用戶最終鎖定了自己的問題:
簡單可以這樣子理解:
1.因為跑是的核心業務,要求很高,業務不能中斷。
2.異構存儲同步,存儲間數據差異是客觀存在的。
3.新舊存儲設備讀寫性能是有差異,若要數據實時同步,最終讀寫性能,遵循木桶原理,局限在舊存儲。
若我升級構建服務器操作系統,升級到WIN2008+SQL2008并組建故障轉移集群。新存儲運行SQL業務,舊存儲運行鏡像SQL。
1.若存儲正常,一臺服務器有故障;
2.服務器正常,新存儲出現故障。
上述兩種情況,能否保障業務連續性,數據是否會有丟失發生?
最終,該企業用戶說出了制約一次性替換菊花存儲S5300方案的原因,在于采購預算資金不夠充足,不能一次性采購兩臺新存儲將舊存儲替換。
阿明問及為什么不可以考慮以下國內的宏杉科技、浪潮等廠商,他說也考慮過,只是被菊花存儲坑了這5年多,對國產存儲還是非常擔憂。
“預算有限,可選擇方案雖然有,但心里沒有底?!睘榇?,在考慮到該醫院用戶具體應用特點和以往存在的痛點與問題下,結合其預算情況,阿明推薦給他兩個選擇,一個是HPE的低端存儲如新發布的入門級產品,一個是戴爾入門級的SCv2000系列產品。
在這之前,阿明也曾寫過HPE和戴爾的中低端存儲的文章,一并推薦給該醫院用戶閱讀。
有關HPE存儲文章如下:
搞存儲:兩手抓兩手都要硬,這才叫入門!
(請搜此標題)
有關戴爾存儲文章如下:
小個子,親民范兒,戴爾存儲到底在憋什么大招呢?(請搜此標題)
隨后,他表示:“我們局限在新舊存儲的矛盾中,似乎走進了一個死胡同。在看到這么多建議和行業分析,以及產品推薦介紹之后,困惑一個多月的事情解決了?!?/p>
從這個企業用戶咨詢阿明有關存儲采購替換的問題來看,對于用戶的關愛和關照,某些存儲廠商做得遠遠不夠好。
針對以上的故事,下面,阿明給出幾個建議:
1)每個存儲廠必要加強對于新老用戶的存儲應用咨詢,開通免費技術咨詢平臺。
2)倡導用戶服務100%滿意的存儲廠商,千萬別遺忘了你們的老用戶。
3)可以為舊存儲用戶進行定期的上門技術咨詢與拜訪。
4)有必要形成一個存儲用戶應用的社群組織,加強用戶之間的技術交流。
5)對于可能存在問題的舊存儲設備用戶,要敢于并主動提供更優惠的升級迭代方案,而不是乘機挖坑。
版權所有,侵權必究,
- 這個游戲把你用過的游戲機都做成了萌妹子,讓她們去大戰邪惡的燒錄卡
2020-12-03
- 仲基老公的高顏值,關分布式存儲啥事?
2020-06-16
- 科技感:十年后的相機是什么樣你猜到了嗎?
2020-06-16
- 什么是高格式音頻耳機?它們聽起來真的聲音就好嗎
2020-06-16
- Kindle生態鏈中的中國出版業
2020-06-16
- iPhone因它如此安靜 揭開耳機降噪的秘密
2020-06-16
- 阿明調查|一個企業用戶的存儲困惑
2020-06-16
- 【行業動態】智能云存儲將成城市有力“武器”
2020-06-16