NVIDIA TESLA P100

شتاب دهنده گرافیکی Tesla P100 نخستین کارت گرافیکی بر پایه مهندسی هوش مصنوعی مخصوص سوپر کامپیوتر ها و دیتا سنتر های پردازش سنگین مانند هوش مصنوعی ، آزمایشات مولکولی ، پردازش های سرور در بخش های محاسبات اعداد ، یادگیری عمیق و ماشین ، پردازش های ابری و… در  جهان .

 

 

 

درباره ی عرضه ی تسلا

مجموعه ی پردازشگرهای “تسلا” متعلق به برند انویدیا هستند.تسلا که عموما با نام کارت محاسباتی و یا شتاب دهنده های گرافیکی از آن یاد می شود،شامل شتاب دهنده های گرافیکی،پردازشگرهای CUDA و پلتفرم های نرم افزار و میان افزاری است.سخت افزارهای تسلا به طور معمول برای پردازش های سنگین در سطح سرور،شبکه،محاسبات سنگین و…به خدمت گرفته می شوند.به عبارت ساده تسلا را می توان یک سخت افزار مجتمع و توانمند دانست.پردازنده های گرافیکی تنها برای محاسبه ی دیتاهای گرافیکی نیستند.

 

 

 

NVIDIA Tesla P100

طراحی شده برای قویترین سیستم های محاسبه گر


Tesla P100 با استفاده از فناوری NVIDIA NVLink، بالا ترین حد سرعت ارتباط بین گره ها را ارائه می دهد تا از لحاظ زمانبندی برای برنامه های کاربردی در مقیاس بزرگ، سرعت را به طور چشمگیر افزایش دهند. یک گره سرور با NVLink میتواند تا هشت تسلا P100 را در پهنای باند 5X PCIe متصل کند. این سیستم برای کمک به حل مهم ترین چالش های جهان که نیاز به محاسبه بی نهایت در HPC و یادگیری عمیق دارد طراحی شده است .

 

 

 

 

 

NVIDIA Tesla P100

مخصوص استفاده در ایستگاه های کاری

نوع دیگر Tesla P100 برای استفاده در PCIe معمولی ، ایستگاه های کاری را قادر می سازد تا همزمان با صرفه جویی در هزینه، پرشی قابل توجه در توان تولید انجام شود. به عنوان مثال، استفاده از یک شتاب دهنده ی P100 سرعتی بیش از یک سرور با دو پردازنده Intel Xeon E5-2698 V3 را در اختیار سامانه قرار می دهد. همچنین 4 کارت گرافیک Tesla P100 در مسیر PCIe 3.0 می تواند جایگزین 32 گره CPU شده و تا 70% باعث صرفه جویی اقتصادی می گردد.

 

 

کارت گرافیک Tesla P100 در دو نمونه مبتنی بر PCIe و NVLink تولید می شوند .

  P100 for PCIe-Based
Servers
P100 for NVLink-Optimized Servers
Double-Precision Performance 4.7 TeraFLOPS 5.3 TeraFLOPS
Single-Precision Performance 9.3 TeraFLOPS 10.6 TeraFLOPS
Half-Precision Performance 18.7 TeraFLOPS 21.2 TeraFLOPS
NVIDIA NVLink™ Interconnect Bandwidth - 160 GB/s
PCIe x16 Interconnect Bandwidth 32 GB/s 32 GB/s
CoWoS HBM2 Stacked Memory Capacity 16 GB or 12 GB 16 GB
CoWoS HBM2 Stacked Memory Bandwidth 732 GB/s or 549 GB/s 732 GB/s
Enhanced Programmability with Page Migration Engine Yes Yes
ECC Protection for Reliability Yes Yes
Server-Optimized for Data Center Deployment Yes Yes

 

 

 

پردازنده گرافیکی GP100 مجهز به 4 مگابایت حافظه کش سطح دو و 14 مگابایت حافظه اشتراکی جهت ثبت اطلاعات می‌باشد. Tesla P100 مجهز به 16 گیگابایت حافظه پر سرعت HBM2 است که پهنای باندی برابر با 750 گیابایت بر ثانیه را برای این کارت گرافیک فراهم می‌آورد. پردازنده گرافیکی GP100 مجهز به 3840 هسته کودا و 224 واحد بافت گذاری است که در 6 خوشه پردازشی جای گرفته‌اند. تعداد SMها در این تراشه قدرتمند به 56 عدد افزایش یافته، به عبارت دیگر چیزی بیش از دو برابر پردازنده گرافیکی GM100 رشد داشته است. تعداد هسته‌های کودای 32 بیتی نسبت به واحدهای SM کاهش و در کل GPU افزایش داشته است. اما تعداد هسته‌های 64 بیتی نسبت به دو کارت نسل قبل انویدیا یعنی ماکسول و کپلر افزایش قابل ملاحظه‌ای را تجربه کرده است. موضوع بیان شده به معنای افزایش قدرت محاسباتی خام تراشه جهت رندرینگ و محاسبات ریاضی می‌باشد. فرکانس پایه GPU برابر با 1328 مگاهرتز بوده که در حالت Boost به 1480 مگاهرتز می‌رسد. این فرکانس بیشترین مقداری است که کمپانی انویدیا تا کنون برای یک کارت گرافیک تعیین کرده است. حداکثر توان مصرفی Tesla P100 حدود 300 وات اعلام شده است.

 

 

 

 

 

درگاه NVLink 

این متصل‌کننده‌ی داخلی که دستاورد بومی شرکت Nvidia است، موجب می‌شود تا کارت‌گرافیک‌های چندگانه (مولتی جی‌پی‌یو ستاپ)، همانند یک سیستم چند سوکته مدرن (چندین پردازنده بصورت همزمان در یک سیستم) کار کنند. در این شیوه، لینک‌های QPI (شرکت اینتل) یا HyperTransport (شرکت AMD) بزرگراه‌های ارتباطی را بین سوکت‌های همسایه ارائه می‌دهند. هر درگاه NVLink سرعتی حدود 80 گیگابایت بر ثانیه را در اختیار دارد و امر مجازی سازی واقعی حافظه را بین چندین جی‌پی‌یو ممکن می‌کند. این قابلیت می‌تواند در سیستم‌های شتاب دهنده HPC GPU توانایی خود را به رخ بکشد که در آن، یک جی‌پی‌یو  می‌تواند به حافظه‌های کنترل شده توسط جی‌پی‌یو همسایه دسترسی داشته باشد که در نهایت، نرم‌افزار نیز مجموع حافظه‌های موجود در هردو جی‌پی‌یو را بعنوان یک بلاک مشترک و پیوسته تشخیص و نمایش خواهد داد. سیستم متحد حافظه Nvidia به مدل‌های برنامه نویسی شده مثل CUDA 8 حافظه‌ی بیشتر از حد انتظار و بیشتر از حد توان یک GPU که بتواند آنرا کنترل کند را در دسترس قرار می‌دهد و در نهایت، حافظه‌ی سیستم را افزایش می‌دهد.

 

 

Tesla P100 Tesla K80 Tesla K40 Tesla M40
پردازنده جریانی ۳۵۸۴ ۲x2496 ۲۸۸۰ ۳۰۷۲
کلاک هسته ۱۳۲۸ مگاهرتز ۵۶۲ مگاهرتز ۷۴۵ مگاهرتز ۹۴۸ مگاهرتز
بوست کلاک ۱۴۸۰ مگاهرتز ۸۷۵ مگاهرتز ۸۱۰/۸۷۵ مگاهرتز ۱۱۴ مگاهرتز
کلاک حافظه ۱.۴Gbps HBM2 ۵GHz GDDR5 ۶GHz GDDR5 ۶GHz GDDR5
گذرگاه حافظه ۴۰۹۶ بیت دو تا ۳۸۴ بیت ۳۸۴ بیت ۳۸۴ بیت
پهنای باند حافظه ۷۲۰ گیگابایت بر ثانیه ۲ تا ۲۴۰ گیگابایت بر ثانیه ۲۸۸ گیگابایت بر ثانیه ۲۸۸ گیگابایت بر ثانیه
حافظه ویدئویی ۱۶ گیگابایت ۲ تا ۱۲ گیگابایت ۱۲ گیگابایت ۱۲ گیگابایت
Half Precision ۲۱.۲ ترافلاپس ۸.۷۴ ترافلاپس ۴.۲۹ ترافلاپس ۶.۸ ترافلاپس
Single Precision ۱۰.۶ ترافلاپس ۸.۷۴ ترافلاپس ۴.۲۹ ترافلاپس ۶.۸ ترافلاپس
Double Precision ۵.۳ ترافلاپس (۱/۲ ریت) ۲.۹۱ ترافلاپس (۱/۳ ریت) ۱.۴۳ ترافلاپس (۱/۳ ریت) ۲۱۳ ترافلاپس (۱/۳۲ ریت)
هسته گرافیکی GP100 GK210 GK110B GM200
تعداد ترانزیستورها ۱۵.۳ بیلیون ۲ تا ۷.۱ بیلیون ۷.۱ بیلیون ۸ بیلیون
توان مصرفی ۳۰۰ وات ۳۰۰ وات ۲۳۵ وات ۲۵۰ وات
خنک کننده مشخص نیست Passive Active/Passive Passive
لیتوگرافی TSMC 16nm FinFET TSMC 28nm TSMC 28nm TSMC 28nm
معماری پاسکال «Pascal» کپلر «Kepler» کپلر «Kepler» نسل دوم معماری ماکسول

ویژگی های Tesla P100

طراحی تراشه این کارت بسیار شبیه به AMD “Fiji است، یک پردازنده گرافیکی متشکل از 15 میلیارد ترانزیستور بر روی ویفر قرار دارد و از طریق رابط حافظه عریض 4096 بیتی، با چهار تراشه حافظه 3D HBM2 پشته سازی شده در ارتباط است. با احتساب تراشه های حافظه، P100  در مجموع از 150 میلیارد ترانزیستور ساخته شده است.

تراشه های گرافیکی انویدیا GP100  از ۱۶ گیگابایت حافظه ویدئویی «VRAM» نسل جدید HBM2 استفاده میکنند که  به ۴ پُشته ۴ گیگابایتی تقسیم شده اند و روی یکدیگر قرار گرفته اند تا در مجموع ۱۶ گیگابایت حافظه تشکیل شود. تراشه P100 میتواند ۷۲۰۰ گیگابایت پهنای باند حافظه را ارائه دهد که میتواند یک کلاک حافظه ۱.۴۴ گیگاهرتزی را برای هر ماژول حافظه ویدئویی همراه داشته باشد.

از FP32 برای پردازش های بدون دقت استفاده میشود و در مقابل از FP64 یا دقت مضاعف یا دو برابر یا double precision (برای هر عدد ۶۴ بیت) برای پردازش های با دقت بالا استفاده میشود. بنابراین محاسبه‌ی اعشاری می‌تواند به صورت ۳۲ بیتی یا ۶۴ بیتی باشد و البته یک مدل ۱۶ بیتی هم برای گوشی‌ها وجود دارد که برای کاربردهای سبک تر مورد استفاده قرار میگیرد. اما در نوع پردازش محاسبات اعشاری ۶۴ بیتی «FP64» کافی است تخمینی از تمام موارد لحاظ شود و در نهایت تصویر نهایی ساخته شود.

این همان چیزی است که ما در انویدیا GP100 و Tesla P100 با آن رو به رو هستیم! یعنی استفاده از هر دو نوع پردازش محاسبات اعشاری ۳۲ و ۶۴ بیتی در کنار هم! از مهمترین کاربردهای پردازش ۶۴۴ بیتی میتوان به محسابه دقیق Ray Tracing یا محاسبه‌ی مسیر پرتوی نور اشاره کرد که تا پیش از این فقط توسط کارت های قدرتمند «کوآدرو انویدیا» و یا توسط «فایرپروهای ای‌ام‌دی» صورت میگرفت.

P100 بر روی برد کوچکی نصب شده که بسیار به برد کارت های گرافیک شباهت دارد اما در حقیقت یک ماژول قابل نصب در خوشه های با تعداد بسیار بالا در ابر کامپیوترها است. P100 قدرت محاسباتی FP64 نزدیک به 5.3 ترافلاپس، و قدرت FP32 نزدیک به 10.6 ترافلاپس بر ثانیه را را ارائه می کند. قدرت محاسباتی FP16 این پردازنده گرافیکی به 12.2 ترافلاپس بر ثانیه می رسد. این تراشه دارای ثبات هایی (رجیستر) با ظرفیت بسیار بالای 14.2 مگابایت و 4 مگابایت حافظه کش سطح دوم است.

افزون بر رابط PCI-Express، به ازای هر تراشه P100، یک رابط NVLink با پهنای باند 80 گیگابیت بر ثانیه به ازای هر طرف (رفت-برگشت) (160 گیگابیت دو طرفه) وجود خواهد داشت.

این محصول را سفارش دهید