سخنرانیهای«داده»
سخنرانیهای «داده» ، ارائههایی در دانشکده مهندسی کامپیوتر می باشند تا اعضای دانشکده، اعم از دانشجویان و اساتید، هرچه بیشتر با مسائل فنی شرکت ها، حوزه های مختلف تحقیقاتی و پژوهشهای در حال انجام در دانشگاه ها آشنا شوند. شرکت در این برنامه برای عموم آزاد است. اگر به عنوان یک ارائهای کننده می خواهید در این جلسات شرکت نمایید با kharrazi(at)sharif(dot)edu تماس حاصل فرمایید. |
|
تحلیل ترافیک جادهها بر اساس اطلاعات مکانی کاربران دال دوشنبه،۷ مرداد ۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     اسلایدها چکیده: یکی از ملزومات سامانههای مسیریابی، داشتن تخمینی مناسب از میزان ترافیک لحظهای جادهها است. برای یک اپلیکیشن تلفن همراه، وقتی تعداد کاربران زیاد باشد، میتوان با استفاده از اطلاعات مکانی کاربران برخط، تخمینهای مناسبی به دست آورد. اما زمانی که تعداد کاربران کم است، مسائل مهمی از جمله تشخیص دادههای پرت و انتخاب مدل مناسب برای تخمین ترافیک جادهها به وجود میآید. همچنین وقتی تعداد کاربران کم است، استفاده از اطلاعات محدود موجود از سایر سامانهها در مورد ترافیک برخی از جادهها میتواند به بهبود تخمین ترافیک کمک کند. اما با توجه به محدودیتهایی که در این اطلاعات وجود دارد، استفاده از آنها نیز نیازمند انتخاب روشهای مناسبی است. در این ارائه به چالشهایی که تیم تخمین ترافیک اپلیکیشن دال در این زمینه با آنها مواجه بوده، و روشهای مورد استفادهی آنها خواهیم پرداخت ارائه دهنده: احمد خواجه نژاد، khajenezhad(at)ce(dot)sharif(dot)edu، دارندهی مدال طلای کشوری المپیاد کامپیوتر، فارغ التحصیل کارشناسی و کارشناسی ارشد مهندسی کامپیوتر از دانشگاه شریف، و هماکنون دانشجوی دکترای هوش مصنوعی در دانشگاه شریف است. زمینهی تحقیقاتی او یادگیری با مدلهای احتمالاتی گرافی و مدلهای احتمالاتی ژرف است. او از زمستان ۹۶ به تیم دال پیوست و به مدت یک سال به عنوان مسئول تیم تحلیل ترافیک با دال همکاری کرد. |
معماریهای نوظهور ذخیرهساز داده برای زیرساخت آتی فناوری اطلاعات دوشنبه، ۱۴ مرداد۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     اسلایدها چکیده: در عصري كه دادهها ارزشمندترين دارايي صاحبان صنايع و سازمانها هستند، كارايي، دسترسپذيري و اجتناب از فقدان داده بسيار حائز اهميت است. براي رسيدن به اين هدف، سامانههاي ذخيرهسازي داده طراحي شدهاند كه با استفاده از فناوريهايي مانند حافظهي نهان، رده بندي داده و افزونگي، كارايي بالا را تضمين ميكنند و احتمال عدم دسترسپذيري و فقدان داده را كاهش ميدهند. اين نيازمنديها طراحي سامانههاي ذخيرهسازي داده را با سه چالش اتكاپذيري، كارايي و هزينه تمام شده مواجه ميكند. مطالعات میدانی نشان میدهد که کارایی و اتکاپذیری همچنان دو مساله جدی در بسترهای ذخیرهسازی داده است و با ظهور حجم عظیم داده در سالهای اخیر، موسوم به دادههای بزرگ، این مشکل دو چندان شده است. پیدایش دادههای بزرگ انقلابی در صنعت ذخیرهسازی داده ایجاد کرده است و نیاز به فضا و کارایی ذخیرهسازی را سالانه به طور نمایی افزایش میدهد. با این افزایش نیاز و به تبع آن افزایش تعداد رسانههای ذخیرهسازی، افزایش پیچیدگیهای طراحی و پیدایش رسانههای جدید، نمیتوان کارایی و اتکاپذیری بالا را همچنان با روشهای قدیمی تضمین نمود. در این ارائه سامانه های ذخیره سازی داده، مشخصه های پیشرفته این سامانه ها و چالش های پیش رو در طراحی این سامانه ها معرفی خواهد شد. همچنین معماری های نوظهور ذخیرهساز داده و حافظههای نوظهور معرفی شده و مباحث قابل طرح برای کار تحقیقاتی و مهندسی ارائه خواهد شد. ارائه دهنده: مصطفی کیشانی، kishani(at)hpds(dot)ir، مدرک کارشناسی خود را در سال 1387 در زمینه مهندسی کامپیوتر از دانشگاه فردوسی مشهد، مدرک کارشناسی ارشد را در سال 1389 در زمینه مهندسی کامپیوتر از دانشگاه صنعتی امیرکبیر، و مدرک دکتری را در سال 1397 از دانشگاه صنعتی شریف دریافت نموده است. در سال های 1389 تا 1391 ایشان به عنوان مهندس سخت افزار در سازمان فضایی ایران مشغول به کار بوده است. در سال 1390 ایشان همچنین در تیم Memocode پژوهشگاه دانش های بنیادی (IPM) عضویت داشتند. در سال 1394 ایشان به عنوان دستیار پژوهشی در دانشکده مهندسی کامپیوتر دانشگاه Chinese University of Hong Kong در کشور هنگ کنگ مشغول به کار بوده است. ایشان همچنین در سال 1395 به عنوان دانشیار پژوهشی در دانشگاه Hong Kong Polytechnic University در کشور هنگ کنگ اشتغال داشته است. ایشان هم اکنون در شرکت پردازش و ذخیره سازی سریع داده در مرکز خدمات فناوری دانشگاه صنعتی شریف به کار تحقیقات و توسعه اشتغال دارد. |
ساخت سامانه عاممنظوره برای افزایش تعامل کاربران با برنامهها دوشنبه، ۱۱ شهریور۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر      چکیده: پوشه یک زیرساخت ارتباط با کاربران اپلیکیشنها و وبسایتها با استفاده از اعلان است. اعلان یکی از قویترین ابزارهای ارتباط با کاربران است که میتواند در زمانهایی که کاربر از اپلکیشن یا وبسایت استفاده نمیکند هم با او ارتباط برقرار کرده و وی را به باز کردن اپلیکیشن یا وبسایت دعوت کند. با توجه به نفوذ و قدرت بالای این وسیله ارتباطی، لازم است با شناخت مناسب از کاربران و پیامها، مخاطب درست هر پیام مشخص شود و به کاربرانی که تمایل به دریافت آن را ندارند ارسال نشود، یا از طرف دیگر، پیشنهادات و تخفیفها به صورت هوشمند توزیع شود تا با صرف کمترین هزینه بیشترین جذب صورت گیرد. در این ارائه ما به چالشهای ساخت پروفایل کاربران بر اساس دادههای استفاده آنها از اپلیکیشن و تعامل آنها با اعلانها میپردازیم. به طور خاص بر مسئله تشخیص نظر فعلی کاربر در مورد کسب و کار مورد نظر (اپلیکیشن یا وبسایت) را بررسی میکنیم. این پیشبینی با دستهبندی کاربران بر اساس خطر ترک کسب و کار نحوه تعامل و ارائه پیشنهادات به هر کاربر را تعیین میکند. در این مسئله مجموعهای از چالشهای مسائل یادگیری ماشین وجود دارند که از میان آنها میتوان به این موارد اشاره کرد: ۱) حفظ حریم خصوصی کاربران در عین فراهم آوردن امکان شخصیسازی ۲) سطوح دسترسی مختلف اپلیکیشنها به دادهها و تفاوت انواع داده موجود برای هر کسب و کار ۳) تغییر کاربران در طول زمان ۴) تطبیق دامنه (domain adaptation) و تطبیق مدل بر انواع مختلف کسب و کارها. در این ارائه نحوه مدلسازی مسئله، راهحلها و رویکردهای مختلف برای پرداختن به چالشهای فوق شرح داده خواهد شد ارائه دهنده: سیدعلی اوصیا از سال ۱۳۸۹ تا ۱۳۹۳ دوری کارشناسی مهندسی نرمافزار را در دانشگاه صنعتی شریف گذراندهاند و از سال ۱۳۹۳ تاکنون دانشجوی دورهی دکتری هوش مصنوعی در این دانشگاه هستند. حوزهی تحقیقاتی ایشان یادگیری ماشین و شبکههای ژرف است و مقالههای معتبری در رابطه با چالش حفظ حریم خصوصی در روشهای یادگیری ماشین داشتهاند و از زمستان ۱۳۹۷ تاکنون در شرکت پوشه به عنوان دانشمند داده مشغول به کار هستند |
عبور از سیستم عامل: راهکاری برای پردازش سریعتر ترافیک شبکه دوشنبه، ۲۵ شهریور۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     اسلایدها چکیده: با ظهور نیازمندیهای جدید و پویا که در قالب شبکههای نرم افزار محور (Software Defined Networking) قابل پاسخگویی هستند و نیز پیشرفتهای چشمگیر در تولید سخت افزار (اعم از کارتهای شبکه، معماری پردازنده، ...) استفاده از سخت افزارهای معمولی و ارزان قیمت به شدت توسط سازندگان تجهیزات شبکه مورد اقبال قرار گرفته است. یکی از مهمترین چالشهای تجهیزات شبکه، سرعت دسترسی به حجم بسیار زیاد بستهها به منظور پردازش آنها (مانند مسیریابی، دیواره آتش، ...) است. در روش سنتی چنین دسترسی از طریق مکانیزمهای استاندارد سیستم عامل قابل انجام است ولی با افزایش پهنای باند کارایی خود را از دست میدهند و همچنین مقیاس پذیر نیستند. سیستم عاملهای همه منظوره به دلایل متعدد دارای پیچیدگیهای ذاتی هستند و طبعاً نمیتوانند برای چنین منظوری بهینه باشند. مثلاً پشتیبانی سیستم عامل از multi processing/threading ایجاب میکند تا دسترسی به منابع مشترک توسط پردازهها انحصاری شود و این کار با مکانیزم locking در سیستم عامل پیاده سازی میشود. حال شرایطی را در نظر بگیرید که دسترسیهای زیاد منجر به تعداد زیادی lock شده و بالطبع کارایی سیستم به شدت پایین میآید. به عنوان مثال دیگر میتوان به نحوه دسترسی اپلیکیشن (اجرا شده در فضای کاربر) به بستهها (قرار گرفته در فضای هسته سیستم عامل) اشاره کرد که لاجرم با کمک وقفههای نرم افزاری انجام میشود ولی تعداد وقفهها ارتباط مستقیمی با تعداد بستهها دارد و با افزایش پهنای باند و تعداد بسته، این نحوه دسترسی مقیاس پذیری خود را کاملاً از دست میدهد. برای حل این مشکلات از مکانیزمهای bypass کردن سیستم عامل استفاده میشود تا دسترسی مستقیم و بلادرنگ به بستهها حاصل شود و اپلیکیشن یا VNF از حداکثر ظرفیت پردازشی خود بهرهمند شود. با اینکه مکانیزمهای مختلفی برای این منظور توسعه داده شدهاند ولی کلیات آنها باهم مشابه است و در این ارائه قصد داریم کلیات نحوه انجام کار در سیستم عامل و همچنین راه حل اینتل با نام DPDK را معرفی کنیم. همچنین در انتها یک مثال از کاربرد آن را که منجر به بهبود کارایی شده است، ارائه خواهیم کرد. ارائه دهنده: حمیدرضا خیرآبادی مدرک کارشناسی و کارشناسی ارشد خود را به ترتیب در سالهای ۱۳۸۳ و ۱۳۸۵ از دانشگاه صنعتی امیرکبیر اخذ کرده است و دارای ۱۲ سال تجربه در زمینه تحقیق و توسعه تجهیزات امنیت شبکه میباشد. ایشان هم اکنون در شرکت مهسان مشغول به تحقیق و توسعه میباشند. |
پردازش متن در زبان فارسی با منابع محدود چهارشنبه، ۲۴ مهر ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰      پوستر     اسلایدها چکیده: با توسعه ی روز افزون سرویسهای مبتنی بر وب و مشارکت کاربران در تولید محتوای متنی، داده های حجیم برای توسعه ی سامانه های مبتنی بر یادگیری عمیق در دسترس قرار گرفته است. هرچند دادگان و ابزارهای توسعه ی الگوریتمهای پردازش زبان طبیعی در زبانهایی مانند انگلیسی به وفور یافت میشود، اما پژوهشگران در زبان فارسی با کمبود منابع متنی برچسبگذاری شده مواجه اند. در راستای مقابله با این چالش روشهای متعددی پیشنهاد شده است، که میتوانند با منابع محدود نتایج قابل قبولی را تولید کنند: ۱) آموزش شبکه های عصبی برای حل مسائلی مانند مدلسازی زبان که دادگان حجیم برای آن در زبان فارسی وجود دارد، و استفاده از بازنمایی های تولید شده و Fine Tune کردن آنها جهت حل سایر مسائل پردازش متن. ۲) توسعهی سیاستهای Active Learning در راستای بهینه سازی فرآیند برچسب گذاری و تولید دادگان آموزشی. در این روش، داده هایی که بیشترین اطلاعات را در اختیار مدل قرار میدهند انتخاب شده و توسط کاربر برچسب گذاری میشوند، بدین ترتیب با کمترین هزینه ی ممکن میتوان داده های آموزشی با بیشترین بازدهی را تولید کرد. در این ارائه چالشهای تیم میراث در توسعهی سرویسهای پردازش زبان فارسی، مانند تحلیل تمایل، تحلیل احساس، دسته بندی متن، تشخیص موجودیتهای نامدار و تشخیص ناسزا، مورد بررسی قرار گرفته و رویکردهای استفاده شده در جهت حل این مسائل معرفی میشوند. این رویکردها شامل استفاده از مدلهای از پیش آموزش داده شده ی چند زبانه مانند BERT، یادگیری چند منظوره و همچنین استفاده از Active Learning در فرآیند برچسب گذاری میشوند. ارائه دهنده: بهنام ثابتی در سال ۱۳۹۲ مدرک کارشناسی مهندسی کامپیوتر را از دانشگاه فردوسی مشهد و سپس در سال ۱۳۹۴ کارشناسی ارشد هوش مصنوعی را از دانشگاه صنعتی شریف اخذ کردهاند. ایشان از سال ۱۳۹۴ تا کنون دانشجوی دکتری هوش مصنوعی در دانشگاه صنعتی شریف هستند. حوزهی تحقیقاتی ایشان یادگیری ماشین و شبکههای ژرف و استفاده آنها در پردازش زبان طبیعی است. ایشان از زمستان ۱۳۹۵ تاکنون در شرکت میراث به عنوان دانشمند داده و مدیر محصول مشغول به کار هستند. |
یادگیری ماشین بزرگ مقیاس در تبلیغات دیجیتال چهارشنبه، ۶ آذر ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰      پوستر     اسلایدها چکیده: تبلیغات دیجیتال یکی از منابع اصلی درآمد شرکتهای بزرگی همچون گوگل و فیسبوک است. کارایی این نوع از تبلیغات کاملا به میزان هوشمندی این روشها وابسته است. به این معنی که باید بتوان بهترین تبلیغ را به مرتبطترین کاربر در بهترین زمان نمایش داد تا از این طریق، با کمترین تعداد دفعات نمایش، کاربران را به تبلیغات مورد علاقه آنها رساند و از طرفی اهداف تبلیغدهنده را برآورده کرد. برای این کار، نیاز است که سیستمهای تبلیغاتی با شناخت دقیق از کاربران، زمینهای که در آن به تماشای تبلیغ میپردازند و همچنین تبلیغات مختلف، احتمال تعامل کاربر با هر تبلیغ را پیشبینی کنند و بر این مبنا، بهترین تبلیغ را به کاربر نشان دهند. سیستمهای تبلیغاتی برای به دست آوردن چنین شناختی، باید حجم زیادی از دادههای کاربران را جمعآوری و پردازش کنند و ویژگیهای مختلفی را از تاریخچه کاربران، تبلیغات و وبسایتها استخراج کنند. علاوه بر چالشهای استخراج ويژگیهای موثر، طراحی مدلی که بتواند با استفاده از این ویژگیها رفتار کاربران را با دقت خوبی پیشبینی کند، چالشهای مختلفی دارد که از آن جمله میتوان به بُعد بالای ویژگیها، تُنُک بودن بردار ویژگیها، تغییر الگوی رفتار کاربران در طی زمان و همچنین cold start اشاره کرد. از طرفی، با توجه به حجم بسیار زیاد درخواستها به یک سامانه تبلیغاتی، مدل ما باید بهگونهای باشد که فرآیند تصمیمگیری برای یافتن بهترین تبلیغ در مدت زمان بسیار کوتاهی انجام شود. در این ارائه، به بررسی آخرین روشهای مبتنی بر یادگیری ماشین برای پیشبینی نوع برخورد یک کاربر با یک تبلیغ مورد بررسی قرار میدهیم. ارائه دهنده: سیدعباس حسینی، همبنیانگذار و مدیر فنی شرکت تپسل است. زمینه تحقیقاتی او طراحی مدلهای پیشگو در دادههای زمانی و مدلسازی رفتار انسانها در طی زمان با تحلیل دادههای حجیم است. او مدارک کارشناسی، کارشناسی ارشد و دکتری خود را به ترتیب در سالهای ۹۱، ۹۳ و ۹۷ از دانشکده کامپیوتر دانشگاه صنعتی شریف در گرایش هوش مصنوعی اخذ کرده است. |
تحلیلدادههای فوتبال به منظور آمادهسازی قبل از انجام یک مسابقه چهارشنبه، ۱۱ دی ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰      پوستر     اسلایدها     ویدیو چکیده: فوتبال یک ورزش تیمی و از محبوبترین و پردرآمدترین ورزشها در بیشتر کشورهای جهان می باشد. به این دلایل تیمهای فوتبال به دنبال استفاده از علوم مختلف برای افزایش کارایی و موفقیت تیم خود هستند. یکی از عوامل مهم در جهت موفق شدن در یک مسابقه، فعالیتهای قبل از مسابقه توسط کادرفنی به منظور آمادهسازی تیم خود و شناخت تیم حریف می باشد. در سالهای نهچندان دور تماشای ویدیو بازیهای حریف احتمالی جهت شناسایی نقاط قوت و ضعف آنها روش بسیار معمولی بود. این روش که به صورت انسانی انجام می شود، جدای از خطاهای انسانی ممکن، فرآیندی زمانبر و تکراری برای بازیهای مختلف پیش رو می باشد. در این ارائه به موضوع تحلیل داده و اهمیت آن در فوتبال امروز جهت آمادهسازی قبل از یک مسابقه پرداخته می شود، ابتدا انواع منابعداده موجود معرفی می شوند و مثالهایی از استفاده آنها و تحلیلهای ممکن همانند بررسی فرآیند مالکیت توپ و یا نحوه تحت فشار قراردادن بازیکنهای تیم حریف به صورت موفقیت آمیز مورد بررسی قرار می گیرند. در انتها تجربیاتی از نحوه ورود به این بازار به عنوان محقق داده (آکادمیک و صنعتی) به اشتراک گذاشته می شود. ارائه دهنده: مهندس هادی ستوده، فارغالتحصیل دوره کارشناسی فناوری اطلاعات دانشگاه صنعتی شریف و دانشجوی کنونی دوره دکتری حرفهای در مرکز علوم داده JADS هلند هستند. در مسابقه تحلیلدادههای ورزشی سال ۲۰۱۹ باشگاه پاریسن ژرمن فرانسه، ایشان موفق به راهیابی به فینال و کسب رتبه سوم از بین ۳۰۰۰ شرکتکننده شدند. هماکنون ایشان مشغول انجام پروژه نهایی خود به مدت یکسال برای دپارتمان آنالیز فدراسیون فوتبال هلند هستند. قبل از این دوره، ایشان به مدت ششماه در شرکت Celonis آلمان (مطرحترین نرمافزارفرایندکاوی در دنیا) به عنوان کارآموز مشغول نوشتن تز ارشد خود بودند. مدرک ارشد ایشان در رشته علوم داده، توسط دانشگاههای فنی آیندهون هلند و کیتیاچ سوئد با بورسیه اتحادیهاروپا اخذ شدهاست. |
طراحی همزمان نرم افزار و سخت افزار برای مقیاس پذیرساختن تکنیک های کاهش داده در سرور های مدرن ذخیره سازی داده چهارشنبه، ۲ بهمن ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰      پوستر     اسلایدها     ویدیو چکیده: در سال های اخیر، نرم افزارهای پردازش داده های بزرگ و دیتابیس های بزرگ به شدت گسترش یافته است. برای برطرف شدن نیاز این نرم افزارها، سرورهای مدرن برای مدیریت و ذخیره سازی داده دارای آرایه ای از SSD های سریع (به جای آرایه ای از HDD های با سرعت پایین) هستند. با توجه به گران بودن SSD ها و عمر محدود آنها، ، سرورها باید از تکنیک های کاهش داده (مانند فشرده سازی داده) استفاده کننند. دراین ارائه، ابتدا نشان می دهیم که روش های نرم افزاری و سخت افزاری موجود برای کاهش داده قابلیت استفاده در سرورهای مدرن را ندارند. سپس، با درنظرگرفتن محدودیت های این روش ها، معماری جدیدی برای کاهش داده ارائه می کنیم که شامل شتاب دهنده های سخت افزاری و نرم افزارهای پیشنهادی برای مدیریت منابع سخت افزاری است و می تواند تا توان عملیاتی چند Tbps و ظرفیت چند پتابایت مقیاس پذیر باشد. به طور دقیق تر، نشان می دهیم که معماری پیشنهادی ما در مقایسه با بهترین روش های نرم افزاری کاهش داده، تا حدود ۱۰ برابر سریع تر و هزینه های ذخیره سازی داده را تا حدود ۶۰٪ (در مقایسه با سرور بدون تکنیک های کاهش داده) کاهش می دهد. ارائه دهنده: دکترمحمد امین اژدری دارای حدود پنج سال تجربه ی کارهای تحقیقاتی و نیمه صنعتی در زمینه ی طراحی سرورهای نسل جدید با استفاده بهینه سازی های نرم افزاری و شتاب دهنده های سخت افزاری است. ایشان دارای چندین مقاله ی ارائه شده در کنفرانس های تراز اول دنیا در حوزه معماری کامپیوتر(مانند MICRO و ISCA) هستند. نامبرده، فارغ التحصیل دوره ی دکترای پیوسته ی مهندسی کامپیوتر از دانشگاه POSTECH کره ی جنوبی و کارشناسی مهندسی برق-الکترونیک از دانشگاه صنعتی شریف به ترتیب در سال های ۲۰۱۹ و ۲۰۱۳ بوده اند. دکتراژدری برنده ی چندین جایزه داخلی و بین المللی از جمله برنده بهترین پروژه ی کارشناسی دانشکده ی برق دانشگاه شریف در سال ۱۳۹۱ و نامزد بهترین مقاله در کنفرانس تراز اول HPCA در سال ۲۰۱۹ هستند. |
این لیست به روز رسانی میشود. ۱۳۹۸/۱۱/۲۹ |
|