李志濤

導航

統計

2020年4月9日 #

工程師技能圖譜

摘要:軟素質提升 有效溝通 《關鍵對話》 團隊合作 《六頂思考帽》 文檔寫作 《麥肯錫寫作武器》 《結構思考力叢書》 《金字塔原理》 工作匯報 《向上管理的藝術:如何正確匯報工作》 技術規劃 參考《OKR工作法》 《工作計劃》 項目管理 《最后期限》 《項目管理知識體系指南》 《項目管理融會貫通》 《軟件 閱讀全文

posted @ 2020-04-09 12:45 李志濤 閱讀 (7) 評論 (0) 編輯

2020年4月8日 #

caseStudy-xxx-push kafka集群高峰期寫入超時

摘要:問題描述 5月底到6月初期間,一旦push kafka集群流量到達高峰,Kafka Producer就會出現寫入超時,會丟失部分消息。解決此問題周期比較長,是個循序漸進的過程影響范圍:部分topics的推送消息丟失故障處理人:xxx 處理過程 05月29日 16:00 xxx組織push超時討論會議 閱讀全文

posted @ 2020-04-08 18:09 李志濤 閱讀 (5) 評論 (0) 編輯

滴滴基于RocketMQ架構演變調研

摘要:業務問題 據滴滴介紹2014年使用的Kafka-0.8.2,一個核心業務在使用Kafka的時候,出現了集群數據寫入抖動非常嚴重的情況,經常會有數據寫失敗。 ? 隨著業務增長,Topic的數據增多,集群負載增大,性能下降? 有個文件讀寫鎖bug,會導致副本重新復制,復制的時候有大量的讀,我們存儲盤用的 閱讀全文

posted @ 2020-04-08 16:37 李志濤 閱讀 (23) 評論 (0) 編輯

網易音樂消息隊列實踐調研

摘要:業務背景 網易云音樂從13年4月上線以來,業務和用戶突飛猛進。后臺技術也從傳統的 Tomcat 集群到分布式微服務快速演進和迭代,在業務的不斷催生下,誕生了云音樂的 RPC,API 網關和鏈路跟蹤等多種服務,消息隊列也從 RabbitMQ 集群遷移到 Kafka集群。對于消息隊列,更多處于使用階段, 閱讀全文

posted @ 2020-04-08 14:42 李志濤 閱讀 (357) 評論 (2) 編輯

2020年4月7日 #

奇虎360的Kafka實踐調研

摘要:業務問題 跨IDC讀寫導致帶寬壓力大問題。多個業務還可能有重復consume和produce,造成跨IDC網絡的極大浪費, 另外跨IDC網絡并不穩定,經常遇到一些異常 業務直接使用官方裸客戶端有困難,要進行二次封裝 異常情況會catch不全 使用好kafka對業務有較高要求 客戶端容錯不能完全cov 閱讀全文

posted @ 2020-04-07 22:46 李志濤 閱讀 (27) 評論 (0) 編輯

Apache RocketMQ調研

摘要:一、發展歷程 早期淘寶內部有兩套消息中間件系統:Notify和Napoli。 先有的Notify(至今12歷史),后來因有序場景需求,且恰好當時Kafka開源(2011年),所以參照Kafka的設計理念自研了RocketMQ。 目前Notify和RocketMQ二者的定位如下: RocketQ 主要 閱讀全文

posted @ 2020-04-07 21:43 李志濤 閱讀 (201) 評論 (3) 編輯

2020年4月6日 #

caseStudy-20180913-Kafka進程掛掉&解決辦法

摘要:問題描述 2018年xx月xx日 下午4點20分左右 xxx無意中看到xxx正在排查線上Kafka集群遇到的問題,隨后問明情況,有一臺機器上Kafka進程掛了,當時他正在lark平臺上查看錯誤日志信息,隨后我一起加入排查問題。事故起止時間:2018年xx月xx日 16時30分~2018年9月13日 閱讀全文

posted @ 2020-04-06 22:42 李志濤 閱讀 (12) 評論 (0) 編輯

大流量大負載的Kafka集群優化實戰

摘要:前言背景 算法優化改版有大需求要上線,在線特征dump數據逐步放量,最終達到現有Kafka集群5倍的流量,預計峰值達到萬兆網卡80%左右(集群有幾十個物理節點,有幾PB的容量,網卡峰值流出流量會達到800MB左右/sec、寫入消息QPS為100w+ msgs/sec)。上下游服務需要做擴容評估,提前 閱讀全文

posted @ 2020-04-06 20:53 李志濤 閱讀 (191) 評論 (0) 編輯

caseStudy-20181216-Kafka(xxx)集群故障&解決辦法

摘要:1.問題描述 2018-12-16 23:53起,因10.120.14.1節點出現問題,已經無法ssh上去,導致xxx lag延遲上升,在17日凌晨1:43掉線,落在該節點但leader partition無法轉移,凌晨3點磁盤故障,恢復后集群大面積不可用,直至凌晨7:30以后集群逐漸恢復起止時間: 閱讀全文

posted @ 2020-04-06 15:32 李志濤 閱讀 (12) 評論 (0) 編輯

caseStudy-20190312 xxx kafka集群因文件描述符超閥值引起集群不可用

摘要:1.問題描述 事故起止時間:第一次 2019年03月05日 20時30分~ 21時20分第二次 2019年03月06日 17時43分~ 18時21分第三次 2019年03月10日 17時43分~ 03月11日10時21分事故影響:客戶端生產消費不可用,機器學習訓練暫停負責人:xxx、xxx、xxx 閱讀全文

posted @ 2020-04-06 15:12 李志濤 閱讀 (11) 評論 (0) 編輯

Kafka客戶端二次封裝擴展總體設計

摘要:前言背景 消息系統經過多年使用和運維管理平臺開發迭代,能較好支持支撐業務發展,公司主流語言為java,但缺乏一個基于Kafka二次封裝簡單好用的java客戶端。遇到問題如下所示: 使用好kafka客戶端對業務要求高,非專業技術方向很難有精力全面掌握 異常情況會catch不全 客戶端生產消息及雙活機房 閱讀全文

posted @ 2020-04-06 14:33 李志濤 閱讀 (12) 評論 (0) 編輯

2018年工作規劃-Kafka方向OKR

摘要:1.資源優化與提升 資源利用率提升10%,再下線至少8臺機器 用戶使用收集與優化 2.kafka客戶端重構 支持雙活機房 優雅重啟 安全性加強(訪問認證/授權/隔離) 調度調配多集群間訪問 API接口簡化,達到開箱即用 發送消息容災、容錯、降級支持 消息軌跡跟蹤支持,幫助業務排查異常 消息發送耗時, 閱讀全文

posted @ 2020-04-06 14:09 李志濤 閱讀 (13) 評論 (0) 編輯

針對Kafka的centos系統參數優化

摘要:TCP網絡優化 sudo vim /etc/sysctl.conf vm.max_map_count=655360net.core.rmem_default=262144net.core.rmem_max=2097152net.core.wmem_default=262144net.core.wme 閱讀全文

posted @ 2020-04-06 13:54 李志濤 閱讀 (19) 評論 (0) 編輯

2020年2月7日 #

腳本kafka-configs.sh用法解析

摘要:引用博客來自李志濤:http://www.jsfhjj.com/lizherui/p/12275193.html 前言介紹 網絡上針對腳本kafka-configs.sh用法,也有一些各種文章,但都不系統不全面,介紹的內容是有缺失的,總讓人看起來很懂,用起來難,例如:動態配置內部關系不清晰、有些 閱讀全文

posted @ 2020-02-07 23:57 李志濤 閱讀 (181) 評論 (0) 編輯

Kafka動態配置實現原理解析

摘要:引用博客來自李志濤:http://www.jsfhjj.com/lizherui/p/12271285.html 問題導讀 Apache Kafka在全球包括世界500強及互聯網公司在內廣泛使用,得益于它強大的功能和不斷完善的生態。作者帶領團隊及從事Kafka一線工作有幾年時間了,所思所想及實踐 閱讀全文

posted @ 2020-02-07 23:28 李志濤 閱讀 (381) 評論 (0) 編輯

2019年12月17日 #

動態配置實現原理解析參考資料

摘要:Release Notes - Kafka - Version 0.8.1:https://archive.apache.org/dist/kafka/0.8.1/RELEASE_NOTES.htmlRelease Notes - Kafka - Version 0.10.1.0:https://a 閱讀全文

posted @ 2019-12-17 21:11 李志濤 閱讀 (27) 評論 (0) 編輯

Topics類型配置

摘要:配置項 備注 segment.bytes 分段文件大小,最大2GB segment.ms 強制新建段文件間隔閥值時間 segment.jitter.ms 段文件抖動時間 segment.index.bytes 段索引文件大小 flush.messages 此項配置指定時間間隔:強制進行fsync日志 閱讀全文

posted @ 2019-12-17 20:53 李志濤 閱讀 (19) 評論 (0) 編輯

Brokers類型配置

摘要:引用博客來自李志濤:https:////www.jsfhjj.com/lizherui/p/12056760.html 模塊 配置項 作用域 備注 DynamicConnectionQuota max.connectionsmax.connections.per.ipmax.connections 閱讀全文

posted @ 2019-12-17 20:48 李志濤 閱讀 (30) 評論 (0) 編輯

2019年10月19日 #

故障處理流程和規范

摘要:背景 大數據團隊負責很多公司核心服務,包括olap查詢、隊列、日志搜索、數據傳輸、存儲、計算等等服務,作為公司數據傳輸和存儲及計算的中樞,服務的穩定性直接影響用戶口碑和體驗,間接影響著公司的營收,線上服務的穩定性是每位同學需要重點關注的事情。當然線上服務發生故障,做技術每位同學幾乎都會遇到,也是作為 閱讀全文

posted @ 2019-10-19 17:21 李志濤 閱讀 (737) 評論 (0) 編輯

2018年4月30日 #

Kafka源碼工程examples項目配置log4j

摘要:examples項目啟動想知道有哪些錯誤,通過日志了解代碼執行邏輯,但是啟動SimpleConsumerDemo了報錯如下: log4j.proproties也配置了 log4j.proproties配置如下: No appenders could be found for logger,意思是lo 閱讀全文

posted @ 2018-04-30 14:24 李志濤 閱讀 (77) 評論 (0) 編輯

最新chease0ldman老人