IBM створила базу для навчання ІІ програмування

Компанія створила набір даних, який назвала Project CodeNet, в ньому є 14 млн зразків сумарним обсягом 500 млн

рядків коду більш як 55 мовами програмування: від Java, C і Go до COBOL, Pascal і FORTRAN. Однак основними мовами є С++ та Python: на них припадає три чверті коду. 

Автори використовували код з двох японськихконкурсів із програмування: Aizu та AtCoder. На них учасники повинні були написати код, необхідний для перетворення заданого набору вхідних даних на набір бажаних вихідних для 4000 різних завдань. В результаті вийшло 14 млн зразків коду, половина з яких була робочою.

У IBM планують зробити проект стандартним набором даних для навчання ІІ-моделей, здатних розпізнавати структуру програм.

CodeNet планується використовувати для створенняінтелектуальних інструментів розробки, які здійснюють пошук потрібних процедур в додатках і бібліотеках, переклад з однієї мови програмування на іншу, вибір правильних реалізацій і відсів помилкових, класифікацію коду і так далі.

Читати далі

У реакторі Чорнобильської АЕС посилилися ядерні реакції

Вчені показали, як чорна діра розриває зірку

Фізики створили аналог чорної діри і підтвердили теорію Хокінга. До чого це призведе?