ทุกวันนี้ แค่เปิด Bloomberg หรือดู TechCrunch ข่าวก็น่าเบื่อหน่ายไปหมด มีแต่เรื่องซอฟต์แวร์และซิลิคอน ทุกคนกำลังพูดถึงความเคลื่อนไหวล่าสุดของ Sam Altman ความสามารถอันน่าทึ่งของ LLM และแน่นอน ราคาหุ้นของ Nvidia
แต่ในโรงงานผลิตที่ การผลิตอย่างรวดเร็วเราเห็นความเป็นจริงที่แตกต่างออกไป สิ่งที่เราเห็นในโรงงานไม่ใช่โค้ด แต่มันคือ ความร้อน.
เรากำลังเผชิญกับวิกฤตการณ์ทางอุณหพลศาสตร์ในโครงสร้างพื้นฐานศูนย์ข้อมูลทั่วโลก ด้วยการเปิดตัวซีรีส์ Nvidia Blackwell B200 และ H100 เราต้องเผชิญกับความจริงที่ว่า Thermal Design Power (TDP) ของชิปตัวเดียวเกิน 1,000 วัตต์ ทศวรรษที่แล้ว แร็คเซิร์ฟเวอร์มาตรฐานใช้พลังงาน 5 กิโลวัตต์ แต่ปัจจุบัน แร็คสำหรับฝึกอบรม AI ตัวเดียวสามารถใช้พลังงานได้มากกว่า 100kW.
ยุคแห่งการระบายความร้อนด้วยอากาศสิ้นสุดลงแล้ว กฎฟิสิกส์กำหนดว่าไม่ว่าพัดลมจะหมุนเร็วแค่ไหน ก็ไม่สามารถบรรลุข้อกำหนดความหนาแน่นในการระบายความร้อนของ AI สมัยใหม่ได้
อุตสาหกรรมทั้งหมดกำลังเปลี่ยนแปลงอย่างรุนแรงไปสู่ ระบบระบายความร้อนด้วยของเหลวแบบ Direct-to-Chip (DTC)การเปลี่ยนแปลงครั้งนี้ได้สร้างแรงกดดันที่ไม่เคยมีมาก่อนต่อจุดเชื่อมโยงที่เฉพาะเจาะจงในห่วงโซ่อุปทานทั่วโลก: ความแม่นยำ เครื่องจักรกลซีเอ็นซี
ฉันเขียนสิ่งนี้ไม่ใช่เพื่อพูดคุย "การผลิต ชิ้นส่วน” แต่เพื่ออธิบายความเป็นจริงทางวิศวกรรมเบื้องหลังการปฏิวัติ AI ความสำเร็จของยุค Zettascale ไม่ได้ขึ้นอยู่กับเครื่องพิมพ์หินของไต้หวันเพียงอย่างเดียว แต่ยังขึ้นอยู่กับความแม่นยำระดับไมครอนด้วย ทองแดง แผ่นเย็นที่เราดำเนินการที่นี่
เพราะเหตุใดเครื่องจักร “ธรรมดา” จึงไม่สามารถจัดการได้?
ผู้จัดการฝ่ายจัดซื้อซึ่งเป็นคนฉลาดภายใต้แรงกดดันด้านงบประมาณมักถามฉันว่า: “ไคลฟ์ นี่มันแค่บล็อกทองแดงมีร่องไม่ใช่เหรอ? ทำไมราคาถึงสูงกว่าอลูมิเนียมมาตรฐาน แผ่นระบายความร้อน? เราไม่สามารถรันสิ่งนี้บนเครื่องกัด 3 แกนมาตรฐานได้หรือ?”
นี่เป็นคำถามที่สมเหตุสมผล แต่โดยพื้นฐานแล้วเป็นการตีความความเสี่ยงด้านวิศวกรรมที่ผิด
เขาวงกต “ไมโครแชนเนล”
ประสิทธิภาพของแผ่นระบายความร้อนด้วยของเหลว (LCP) ขึ้นอยู่กับพื้นที่ผิว เพื่อเพิ่มการถ่ายเทความร้อนจาก ซิลิคอน เวเฟอร์กับส่วนผสมไกลคอล เราต้องกลึงไมโครแชนเนลและครีบที่ซับซ้อนมาก เรากำลังพูดถึงแชนเนล กว้าง 0.2 มม. ถึง 0.5 มม.ด้วยอัตราส่วนความลึกต่อความกว้างที่ช่างเครื่องธรรมดาๆ ก็ต้องเหงื่อแตกพลั่ก

- ความเป็นจริงในร้านค้ามาตรฐาน: หากคุณพยายามที่จะตัด C11000 ทองแดงปราศจากออกซิเจน (มาตรฐานอุตสาหกรรม) ด้วยพารามิเตอร์มาตรฐาน ทองแดงจะ "เหนียว" ขึ้น ความร้อนจะอ่อนตัวลง และเกาะติดกับเครื่องมือ สิ่งนี้จะสร้าง ขรุขระ ภายในช่องลึกมีขอบฟันเลื่อยโลหะเล็กๆ
- ความเป็นจริงของการผลิตอย่างรวดเร็ว: ในระบบระบายความร้อนแบบวงปิด เศษเสี้ยนที่หลวมๆ เปรียบเสมือนกระสุนปืน หากเศษทองแดงขนาด 0.5 มม. แตกออก เศษทองแดงจะไหลไปตามปลายน้ำและทำลายใบพัดของปั๊มหรืออุดตันตัวกรองขนาดเล็ก สารหล่อเย็นจะหยุดทำงาน เศษทองแดงจะร้อนจัด และตู้ทั้งหมดจะพังทลายลง
เราไม่เพียงแต่กลึงโลหะเท่านั้น แต่เรายังกลึง ความเชื่อถือได้เราใช้แกนหมุนความเร็วสูง (20,000+ RPM) ร่วมกับเครื่องมือไมโครคาร์ไบด์ที่สมดุลเพื่อตัดทองแดงอย่างหมดจด โดยขจัดเสี้ยนในระดับจุลภาค
ทองแดง อะลูมิเนียม และต้นทุนของความแม่นยำ
เมื่อราคาทองแดงพุ่งสูงสุดเป็นประวัติการณ์ กลยุทธ์ด้านวัสดุจึงกลายเป็นประเด็นร้อนในที่ประชุม แต่คุณสมบัติทางกายภาพสำคัญกว่าราคา
ความท้าทายของทองแดง (C1020 / C11000)
ทองแดงเป็นมาตรฐานทองคำสำหรับ การนำความร้อน (~390 W/mK) แต่สำหรับพวกเราช่างเครื่อง มันเป็นวัสดุที่มี "ชีวิต"
- การชุบแข็งงาน: ความร้อนและความเครียดทางกายภาพระหว่างการตัดเฉือน ทำให้ผิวทองแดงแข็งตัว ทำให้การตัดในภายหลังไม่มั่นคง
- บรรเทาความเครียด: ผมเคยเห็นร้านที่ไม่มีประสบการณ์ผลิตแผ่นทองแดงที่แบนเรียบอย่างสมบูรณ์แบบ แต่กลับม้วนงอเหมือนมันฝรั่งทอดหลังจากผ่านไป 24 ชั่วโมง ทำไมน่ะเหรอ? พวกเขาลอกวัสดุออกเร็วเกินไป ทำให้แรงเค้นภายในคลายลง

โปรโตคอลของเรา: เราปฏิบัติตามวงจรการคลายความเครียดที่เป็นกรรมสิทธิ์ของเรา เครื่องหยาบ -> "พัก" (บางครั้งถึงขั้นอบชุบ) -> เครื่องตกแต่งผิว ใช้เวลานานขึ้น แต่เมื่อเราบอกว่าชิ้นส่วนเรียบ ก็ยังคงเรียบอยู่

ทางเลือกอลูมิเนียม (6061 / 7075)
อะลูมิเนียมราคาถูกกว่าและตัดง่ายกว่า อย่างไรก็ตาม การผสมแผ่นอะลูมิเนียมเย็นกับท่อทองแดงในศูนย์ข้อมูลจะสร้างแบตเตอรี่ขึ้นมาจริงๆ การกัดกร่อนของกัลวานิก จะกัดกินอลูมิเนียมจากภายในสู่ภายนอก
โซลูชันของเรา: หากคุณจำเป็นต้องใช้อะลูมิเนียม เรากำหนดให้ใช้การชุบอโนไดซ์เฉพาะ (ประเภท II หรือ III) หรือการชุบนิกเกิลแบบไม่ใช้ไฟฟ้า เราไม่ได้แค่ส่งมอบชิ้นส่วน แต่เรายังนำเสนอกลยุทธ์ป้องกันการกัดกร่อนอีกด้วย
“มาตรฐานรวดเร็ว” เทียบกับค่าเฉลี่ยของอุตสาหกรรม
ร้าน CNC ส่วนใหญ่เสนอราคาตาม ISO 2768 (ความคลาดเคลื่อนทั่วไป)ในโลกของการประมวลผล AI ความหนาแน่นสูง ISO 2768 ถือเป็นสูตรแห่งความล้มเหลว
ที่ Rapid Manufacturing เราใช้เวลาสามปีในการรวบรวมข้อมูลชิ้นส่วนทองแดงที่ผ่านการกลึงกว่า 50,000 ชิ้นเพื่อสร้าง โปรโตคอลการทำความเย็น RM.
| เมตริกที่สำคัญ | มาตรฐานอุตสาหกรรม (CNC ทั่วไป) | มาตรฐานการผลิตอย่างรวดเร็ว (โปรโตคอล RM) | เหตุใดจึงสำคัญ (หมายเหตุของไคลฟ์) |
|---|---|---|---|
| การติดต่อแบบแบนราบ | 0.03 มม. - 0.05 มม | 0.005 มม. - 0.01 มม | ช่องว่าง 0.01 มม. อาจทำให้อุณหภูมิบริเวณรอยต่อเพิ่มขึ้น 3°C ความเรียบช่วยประหยัดเศษโลหะ |
| ความขรุขระของพื้นผิว | Ra 1.6 (กลึงมาตรฐาน) | Ra 0.2 – 0.4 (Fly-Cut) | พื้นผิวที่ขรุขระทำให้เกิดช่องอากาศใน วางความร้อน, การฆ่าประสิทธิภาพ |
| ผนังไมโครแชนเนล | 0.8 มม. (เสี่ยงต่อการบิดเบี้ยว) | 0.3mm | ผนังบางกว่า = ช่องระบายอากาศมากขึ้น = การระบายความร้อนที่ดีขึ้น |
| ความคลาดเคลื่อนของเสี้ยน | ตรวจสอบด้วยสายตา | ครีบแยกศูนย์ (กล้อง 50x) | เราลบสิ่งที่กล้องจุลทรรศน์มองเห็น ไม่ใช่แค่สิ่งที่ตาเห็น |
| การทดสอบการรั่วไหล | การทดสอบฟองอากาศ | เครื่องดมฮีเลียม (1×10⁻⁶) | โมเลกุลของน้ำมีขนาดใหญ่มาก หากฮีเลียมไม่สามารถออกไปได้ สารหล่อเย็นก็จะไม่สามารถออกไปได้ |
กรณีศึกษา: โครงการไฮดรา
(หมายเหตุ: ชื่อโครงการเปลี่ยนแปลงเพื่อให้เป็นไปตาม NDA)
ลูกค้า: ผู้ผลิตระดับ 1 ของตู้เซิร์ฟเวอร์สำหรับศูนย์ข้อมูลระดับไฮเปอร์สเกล
วิกฤตการณ์: วงจรระบายความร้อนด้วยของเหลว H100 ของพวกเขามีปัญหา ซัพพลายเออร์รายก่อนส่งแผ่นทองแดงมาให้ มอง ดีแต่ล้มเหลวในระหว่างการรวมระบบ
- การรั่วไหล: น้ำหล่อเย็นรั่วจากร่องโอริงที่แรงดัน 4 บาร์
- ความร้อนสูงเกินไป: ประสิทธิภาพความร้อนแย่กว่าการจำลอง 15%
- ค่าใช้จ่าย: ค่าปรับ 50,000 เหรียญสหรัฐฯ ต่อวันสำหรับการจัดส่งล่าช้า
การวิเคราะห์ของฉัน:
ฉันนำชิ้นส่วนที่ชำรุดของพวกเขามาที่ห้องปฏิบัติการมาตรวิทยาของเรา
- ความเรียบ: พื้นที่สัมผัสเบี่ยงเบนไป 0.05 มม. วัสดุเชื่อมต่อทางความร้อน (TIM) จะต้องเติมเต็มช่องว่างขนาดใหญ่ ทำหน้าที่เป็นฉนวน
- เสร็จสิ้น: เมื่อส่องดูภายใต้กล้องจุลทรรศน์ ร่องโอริงแสดงให้เห็น "รอยสั่น" ซึ่งก็คือแรงสั่นสะเทือนจากเครื่องมือ มองไม่เห็นด้วยตาเปล่า แต่เปรียบเสมือนเส้นทางสู่ของเหลวแรงดันสูง

วิธีแก้ปัญหาอย่างรวดเร็ว:
เราเริ่มดำเนินการผลิตโดยปรับปรุงใหม่สามขั้นตอน:
- เครื่องมือ: เปลี่ยนไปใช้เครื่องกัดปลายเคลือบ DLC (Diamond-Like Carbon) เพื่อป้องกันการยึดเกาะของทองแดง
- การตัดแมลงวัน: ใช้เครื่องตัดหญ้าขนาดเส้นผ่านศูนย์กลางใหญ่สำหรับพื้นผิวสัมผัสเพื่อให้ได้ ความเรียบ 0.005 มม.—ดีขึ้นกว่าส่วนก่อนหน้า 10 เท่า
- การทดสอบ: อัพเกรดจากการแช่น้ำเป็นการตรวจจับการรั่วไหลของฮีเลียม
ผลลัพธ์:
- เดลต้า ที: ความแตกต่างของอุณหภูมิลดลง 4°C (จำลองการตี)
- อัตราความล้มเหลว: 0% สำหรับสินค้าล็อตแรกจำนวน 1,000 หน่วย
- ผล: ลูกค้าส่งมอบตรงเวลาและช่วยประหยัดค่าปรับที่อาจเกิดขึ้นได้เป็นล้าน
การเชื่อมด้วยแรงเสียดทานแบบกวน (FSW): อนาคตของการประกอบ
ซีลไมโครแชนเนลทำอย่างไร? โอริงแบบดั้งเดิมจะเสื่อมสภาพไปตามกาลเวลา การบัดกรีทำให้โลหะบิดเบี้ยว.
เรากำลังลงทุนอย่างหนักใน การเชื่อมด้วยแรงเสียดทาน (FSW)นี่คือกระบวนการเชื่อมต่อแบบโซลิดสเตต ซึ่งใช้แรงเสียดทานเพื่อ พลาสติก โลหะผสมระหว่างฝาและตัวเข้าด้วยกันโดยไม่ทำให้ละลาย

- ไม่ละลาย = ไม่บิดเบี้ยว ความแม่นยำก็ยังคงแม่นยำ
- พันธะเกรดการตีขึ้นรูป: ข้อต่อมีความแข็งแรงมากกว่าวัสดุเดิม
หากคุณกำลังออกแบบระบบระบายความร้อนด้วยของเหลวสำหรับปี 2025 และปีต่อๆ ไป คุณจะต้องออกแบบสำหรับ FSW
คำถามที่พบบ่อย: คำถามจากสนามเพลาะทางวิศวกรรม
ข้ามขั้นตอนการขายไปและมาพูดถึงข้อกังวลที่แท้จริงที่ฉันได้ยินในการประชุมกันดีกว่า
ถาม: “ไคลฟ์ ราคาทองแดงพุ่งสูงขึ้น เราจะ ลดต้นทุน BOM โดยไม่ทำให้ประสิทธิภาพลดลงใช่ไหม?”
ไคลฟ์: ต้นทุนที่ใหญ่ที่สุดไม่ใช่วัสดุ แต่เป็น เสีย. ถ้าคุณ กลึงแผ่นเย็นจากบล็อกหนาแล้วบด เอาไป 80% เลย คุณจ่ายค่าชิป ให้เรามีส่วนร่วมในขั้นตอน DFM (ออกแบบเพื่อการผลิต) เราอาจแนะนำ FSW เพื่อเชื่อมแผ่นบางสองแผ่นเข้าด้วยกัน หรือเพิ่มประสิทธิภาพการเรียงซ้อนเพื่อให้ได้ 12 ชิ้นต่อแผ่น แทนที่จะเป็น 10 ชิ้น ประสิทธิภาพดีกว่าเงินเฟ้อ
ถาม: “เรากลัวการรั่วไหลมาก คุณจะรับประกันความน่าเชื่อถือได้อย่างไร”
ไคลฟ์: “การรับประกัน” เป็นคำทางการตลาด เรานำเสนอ ความแน่นอนทางสถิติเราใช้การตรวจจับการรั่วไหลของฮีเลียมและการทดสอบการสลายตัวของแรงดันที่ความดันใช้งาน 1.5 เท่า ที่สำคัญยิ่งกว่านั้น เรานำเสนอ ตรวจสอบย้อนกลับหากชิ้นส่วน #054 ล้มเหลว เราสามารถติดตามชุดวัตถุดิบที่เฉพาะเจาะจงได้ เครื่อง CNCและผู้ปฏิบัติงาน
ถาม: “คุณช่วยจัดการเรื่องขนาดได้ไหม เราต้องการ 50 ต้นแบบ ตอนนี้ แต่ 10,000 ในไตรมาสหน้า”
ไคลฟ์: นี่คือ “กับดักการขยายขนาด” ร้านค้าหลายแห่งสามารถผลิตชิ้นส่วนที่สมบูรณ์แบบได้ 5 ชิ้น แต่มีเพียงไม่กี่แห่งเท่านั้นที่สามารถผลิตได้ 5,000 ชิ้น สำหรับต้นแบบ เราใช้เครื่องจักร 5 แกนที่ยืดหยุ่นได้ การผลิตเป็นกลุ่มเราสร้างอุปกรณ์ยึดแบบกำหนดเองและย้ายไปยังศูนย์เครื่องจักรกลแนวนอน (HMC) พร้อมเครื่องเปลี่ยนพาเลท เราปรับขนาด กระบวนการไม่ใช่แค่คนเท่านั้น
ถาม: “ทำไมระยะเวลาดำเนินการของคุณจึงนานกว่าร้านที่อยู่ถัดไป?”
ไคลฟ์: เพราะเรามีวงจรการบรรเทาความเครียดและรายงานมาตรวิทยาฉบับเต็ม ร้านอื่นอาจจัดส่งภายใน 5 วัน แต่เมื่อชิ้นส่วนนั้นบิดเบี้ยวไป 0.05 มม. และบีบ GPU ราคา 30,000 ดอลลาร์ของคุณ การจัดส่งที่ "รวดเร็ว" ดังกล่าวจะกลายเป็นความผิดพลาดที่แพงที่สุดที่คุณจะเคยทำ เราจึงขอใช้เวลาเพิ่มอีก 2 วันเพื่อให้แน่ใจว่าผลลัพธ์จะออกมาดี น่าเบื่อและคาดเดาได้.
บทสรุป: วิศวกรรมแห่งอนาคต
การปฏิวัติ AI ไม่ใช่แค่โค้ดเท่านั้น ทางกายภาพแล้ว มันดูเหมือนแถวของเซิร์ฟเวอร์ที่สร้างความร้อนมหาศาล และวงจรของเหลวที่นำความร้อนนั้นออกไป
เมื่อเราก้าวเข้าสู่ยุค Zettascale เส้นแบ่งระหว่าง “การผลิต” และ “เทคโนโลยีขั้นสูง” กำลังเลือนลางลง โรงกลึงในปัจจุบันกลายเป็นส่วนขยายของห้องปฏิบัติการเซมิคอนดักเตอร์
At การผลิตอย่างรวดเร็วเราพร้อมแล้ว เรามีเครื่องจักร เครื่องวัด และที่สำคัญที่สุดคือ แนวคิดในการรับมือกับความร้อน เราไม่ใช่ผู้ให้บริการที่ถูกที่สุดในรายการ แต่เรามีความเสี่ยงต่ำที่สุด
คุณกำลังออกแบบโครงสร้างพื้นฐาน AI รุ่นถัดไปหรือไม่?
อย่ารอจนถึงขั้นตอนการสร้างต้นแบบแล้วพบว่าแบบของคุณไม่สามารถผลิตได้ ส่งไฟล์ CAD ของคุณมาให้ทีมของเราวันนี้เลย มาวิเคราะห์ DFM และสร้างโซลูชันระบายความร้อนที่ล้ำหน้าเทียบเท่ากับชิปที่ปกป้องมันกันเถอะ

