张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《随便一记》 » 正文

项技术成果已入选人工智能国际顶级会议ICML 2022，并应用于今日头条App、大力智能灯等业务场景。

8 人参与 2022年06月17日 10:24 分类 : 《随便一记》评论

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022

近日，字节跳动AI Lab Research 团队推出一项视觉语言预训练模型，支持多模态的理解和生成，例如将画面转化为准确、流畅的描述文字，帮助视障人士“看见”图片。这项技术成果已入选人工智能国际顶级会议ICML 2022，并应用于今日头条App、大力智能灯等业务场景。

微信截图_20220617132916.png

据了解，这个名为X-VLM 的模型在业内首次提出学习多粒度的视觉和语言对齐，能为图片生成更为精准的描述，比如更正确地识别物体、描述物体间的关系。

信息无障碍研究会发布的报告显示，超过90%的视障人士会使用智能手机了解外面的世界。此前，手机系统自带的读屏软件已经实现把屏幕上的文字念出来，帮助视障人士“读”新闻、“看”文章。可遇到文章中的图片，读屏软件往往无法识别，只能播报“图片”二字。

采用了X-VLM 模型，今日头条App可以自动识别图片，还能将它们“翻译”成通顺流畅的语句，并通过语音播报出来，助力视障人士解决读图难题。

值得一提的是，X-VLM可在模型规模和预训练数据有限的情况下实现高效训练。数据显示：仅216M参数量的X-VLM模型就能在图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成等广泛的多模态任务上获得十分优秀的表现。目前，X-VLM 在字节跳动的真实应用场景上的表现已超过一些业界领先的最新模型。

近年来，人工智能在助推无障碍环境方面发挥了重要作用。利用技术持续改进无障碍与适老化体验是字节跳动在公益方面的重要方向。除了在抖音系产品中不断完善无障碍功能，字节跳动还通过面向企业用户的云服务平台火山引擎，以技术输出的方式，服务更广泛的社会群体。

点击全文阅读

本文链接：http://zhangshiyu.com/post/41520.html

评论（0）

赞助本站

search zhannei

最新文章
带相亲女友回家后，邻家姐姐急了 旧爱如梦皆随风 老婆孩子在急救，隔壁病房却在拍戏 全网黑的我，选秀一曲封神 病娇少女重生后黏上拽霸学神 重生后，我让继妹和渣男跪地求饶 顾总的婚前协议生个孩子再离婚 不肯把位让给助理后，霸总妻子将我踹下深海（叶清弦沈慕白）全书免费_（叶清弦沈慕白）不肯把位让给助理后，霸总妻子将我踹下深海后续（叶清弦沈慕白） 敢动我女儿？我让你在最风光时身败名裂！ 女友要88万彩礼，我转头娶了她闺蜜 又是一岁昨日秋 当了十七年假千金，我被亲生父母找到了

关于我们 | 我要投稿 | 免责申明

张士玉小黑屋

当前位置：首页 » 《随便一记》 » 正文

项技术成果已入选人工智能国际顶级会议ICML 2022，并应用于今日头条App、大力智能灯等业务场景。

8 人参与 2022年06月17日 10:24 分类 : 《随便一记》 评论

评论（0） 赞助本站

search zhannei

最新文章

8 人参与 2022年06月17日 10:24 分类 : 《随便一记》评论

评论（0）

赞助本站