天天观热点：AI 绘画引入人类反馈；微软多模态 ChatGPT？

2023-03-05 18:15:28 来源：机器之心

机器之心 & ArXiv Weekly

参与：楚航、罗若天、梅洪源

本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等。

【资料图】

目录：

Language Is Not All You Need: Aligning Perception with Language Models

Learning Harmonic Molecular Representations on Riemannian Manifold

Single-cell biological network inference using a heterogeneous graph transformer

Towards Stable Test-time Adaptation in Dynamic Wild World

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Aligning Text-to-Image Models using Human Feedback

Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation

ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Language Is Not All You Need: Aligning Perception with Language Models

作者：Shaohan Huang 等

论文地址：https://arxiv.org/pdf/2302.14045.pdf

摘要：微软团队介绍了一个多模态大型语言模型（MLLM）—— KOSMOS-1，它可以感知一般模态、遵循指令（零样本学习）以及在上下文中学习（少样本学习）。研究目标是使感知与 LLM 保持一致，模型能够看到（see）和说话（talk）。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。

推荐：微软多模态 ChatGPT 来了？16 亿参数搞定看图答题、智商测验等任务。

论文 2：Learning Harmonic Molecular Representations on Riemannian Manifold

作者：Yiqun Wang 等

论文地址：https://openreview.net/pdf?id=ySCL-NG_I3

摘要：分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中，常用的分子对接模型需要进行大量的构型采样与优化，并筛选出较为稳定的结构。这类策略效率较低，难以应用于高通量的蛋白质对接任务。

本文介绍的基于分子表面黎曼流形的深度学习表示方法 ( Harmonic Molecular Representation, HMR ) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面，结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较，进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 ( rigid protein docking ) 。实验表明，基于 HMR 的分子对接模型比当前深度学习 SOTA [ 1 ] 有更高的准确性，并且较传统分子对接方法提速 100 倍以上。

推荐：ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。

论文 3：Single-cell biological network inference using a heterogeneous graph transformer

作者：Anjun Ma 等

论文地址：https://www.nature.com/articles/s41467-023-36559-0#Sec9

摘要：单细胞多组学 ( scMulti-omics ) 技术允许同时量化多种模态，以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。

山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 —— DeepMAPS，用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模，并使用多头图（multi-head graph）Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。

推荐：山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。

论文 4：Towards Stable Test-time Adaptation in Dynamic Wild World

作者：Shuaicheng Niu 等

论文地址：https://openreview.net/pdf?id=g2YraF75Tj

摘要：测试时自适应（Test-Time Adaptation,TTA）方法在测试阶段指导模型进行快速无监督 / 自监督学习，是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中，稳定性不足仍是现有 TTA 方法的一大短板，严重阻碍了其实际部署。

为此，来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队，从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析，指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一，另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR，实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。

如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。

推荐：Batch Norm 层等暴露 TTA 短板，开放环境下解决方案来了。

论文 5：A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

作者：Ce Zhou 等

论文地址：https://arxiv.org/pdf/2302.09419.pdf

摘要：在最近的一篇综述文章中，来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文，主要聚焦文本、图像和图学习领域的预训练基础模型，值得一读。杜克大学教授、加拿大工程院院士裴健，伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶，Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。

推荐：从 BERT 到 ChatGPT，百页综述梳理预训练大模型演变史。

论文 6：Aligning Text-to-Image Models using Human Feedback

作者：Kimin Lee 等

论文地址：https://arxiv.org/pdf/2302.12192v1.pdf

摘要：语言建模领域，从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈，首先学习一个旨在反映人类在任务中所关心内容的奖励函数，通过一种强化学习算法（如近端策略优化 PPO）使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习（RLHF）已经成功地将大规模语言模型（例如 GPT-3）与复杂的人类质量评估结合起来。

近日，受 RLHF 在语言领域的成功，谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。

推荐：学习 ChatGPT，AI 绘画引入人类反馈会怎样？。

论文 7：Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation

作者：Ryota Kobayashi 等

论文地址：https://ieeexplore.ieee.org/document/10016717

摘要：在制造机器人的过程中，灵活、适当地组合各种性能是一项挑战任务，因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事，但也不是不可能。最近一项研究中，东京工业大学制造出了这样一种机器人，它具有高度灵活性，同时仍保持其「肌肉」内的高度张力，使其躯体能进行充分的扭转，从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。

推荐：拧瓶盖螺丝，高度灵活的柔性机器人为你开可口可乐。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的 ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括 NLP、CV、ML 领域各 10 篇精选 , 并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. ChatAug: Leveraging ChatGPT for Text Data Augmentation. ( from Wei Liu, Dinggang Shen )

2. Competence-Based Analysis of Language Models. ( from ChengXiang Zhai )

3. Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data. ( from Tong Zhang )

4. Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process. ( from Wei Liu )

5. Dependency Dialogue Acts -- Annotation Scheme and Case Study. ( from Martha Palmer, Marilyn Walker )

6. Augmented Transformers with Adaptive n-grams Embedding for Multilingual Scene Text Recognition. ( from Yaochu Jin )

7. Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. ( from Jianfeng Gao )

8. Interactive Text Generation. ( from Jianfeng Gao )

9. ProofNet: Autoformalizing and Formally Proving Undergraduate-Leel Mathematics. ( from Dragomir Radev )

10. Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis. ( from Yi Yang )

本周 10 篇 CV 精选论文是：

1. Decoupling Human and Camera Motion from Videos in the Wild. ( from Jitendra Malik )

2. Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning. ( from Ivan Laptev, Josef Sivic, Cordelia Schmid )

3. Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning. ( from Tinne Tuytelaars )

4. DA-BEV: Depth Aware BEV Transformer for 3D Object Detection. ( from Lei Zhang )

5. ESceme: Vision-and-Language Navigation with Episodic Scene Memory. ( from Dacheng Tao )

6. Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis. ( from Jianbo Shi )

7. PointFlowHop: Green and Interpretable Scene Flow Estimation from Consecutive Point Clouds. ( from C.-C. Jay Kuo )

8. Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting. ( from Deva Ramanan )

9. Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training. ( from Shaogang Gong, Yang Liu )

10. Monocular Depth Estimation using Diffusion Models. ( from David J. Fleet )

本周 10 篇 ML 精选论文是：

1. Consistency Models. ( from Ilya Sutskever )

2. PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction. ( from Christos Faloutsos )

3. Active Reward Learning from Multiple Teachers. ( from Stuart Russell )

4. D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory. ( from Shuicheng Yan )

5. On the Role of Emergent Communication for Social Learning in Multi-Agent Reinforcement Learning. ( from Katia Sycara )

6. Subspace based Federated Unlearning. ( from Dacheng Tao )

7. OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System. ( from Wei Liu, Dacheng Tao )

8. AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks. ( from Dacheng Tao )

9. High-dimensional analysis of double descent for linear regression with random projections. ( from Francis Bach )

10. Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from KKT Conditions for Margin Maximization. ( from Peter L. Bartlett, Nathan Srebro )

THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

天天观热点：AI 绘画引入人类反馈；微软多模态 ChatGPT？

上一篇:

中长期贷款利率是多少

下一篇:

王蒙多吃军粮系列_王蒙简介-百事通

合肥出台促进经济发展“20条”-当前快播

当前速看：超净台苏净安泰_超净台

“小眼睛”守护“大平安”

天海防务：公司及子公司累计担保情况 当前关注

人民建议|网友盼保护利用望远墩烽火台 甘肃兰州：已采取保护措施

北向资金净买入7.55亿元 交易活跃度上升

how often do you exercise教学设计_how often do you exercise课件

世界焦点！以公共文化服务点亮美好生活（人民时评）

“金三银四”求职旺季到来，这些新“坑”要避开

加强连万能钥匙_加强连|每日视讯

索尼MDR-XB950N1耳机怎么使用降噪功能 当前视讯

曲麻莱公安“跨省通办”解民忧，群众办事不奔波

Trigona勒索病毒正在传播，火绒可拦截 每日聚焦

【天天聚看点】41岁任家萱官宣怀孕，晒宝宝B超照满心喜悦，与小男友无结婚计划

可以识别图片文字的微信小程序_微信识别图片文字的小程序 前沿资讯

建设一批高水平公共卫生学院

人民币在俄罗斯出口结算中的份额飙升至16%，背后有何深意？_天天聚看点

君子之过 如日月之食焉也过 人皆见之更也仁济街养殖_君子之过也 如日月之食焉 中文翻译

沃尔沃V60地位难保？蔚来ET5旅行版实车曝光，价格能接受吗？

关于五官的作文_五官的作文精选

穿越湘江最大盾构隧道贯通|要闻速递

春秋至战国铜锛_对于春秋至战国铜锛简单介绍

OPPO A9：一款让你心动的中低端手机，1699元也太感人了！_当前快播

一天洗手四五十次，女子过度洗手反引发湿疹 环球播报

美国将公示丫丫的回国相关证明

“2023新疆电影周”启动 9部优秀作品集中展映 实时

单向镜和双向镜_单向镜和双向镜的区别-当前热文

廷迟月经的方法_延迟月经最好的方法-天天动态

时装模特表演

环球微头条丨美凯龙：3月10日融资净买入120.97万元，连续3日累计净买入1028.77万元

量力而行尽力而为（量力而行）-视讯

彩铅上色技巧_天天信息

当前视讯！新疆阿克苏市：节水助春耕 农民乐开颜

世界热议:720p是什么视频格式_720p是什么意思

【全球独家】acfun视频下载的方法_acfun弹幕

雪白雪白的类似词组有哪些_雪白

2023年商丘重点民生实事工作方案发布，新建2万个车位、改造老旧小区104个

【环球快播报】重庆北站至重庆西站有多远_重庆西站到北站有多远

僧人不露面是什么意思_僧人不露面打一字

邹城：农资储备足 春耕有保障

每日热讯!快讯2023-03-09 21:04:57

explorerexe下载xp_explorer exe下载

自称书香世家的黄磊一家尴尬了，黄多多被曝出不认识基本的汉字 世界最资讯

壹点发布｜德州市放心消费创建活动市场主体达到28.17万户_全球报道

短讯！Nuraphone的超棒耳机在黑色星期五特卖中跌至低价

四川省卫生统计数据平台_四川卫生计生统计数据采集系统|当前资讯

creeper原版音乐_creeper原曲

当前热点-山西省发改委参加全省服务业运行调度会

甘罗简介及人生经历_甘罗简介

面对市场寒冬，资本为何还在豪赌音乐版权？

全球时讯：中国银行(ADR)（BACHY.US）3月8日收盘报9.43美元/股，跌0.53%

夏威夷火山什么时候爆发 环球快资讯

【全球独家】杀生讲的什么没看懂_杀生结局什么意思

环球快报:湘乡：落实“四早” 助力春耕备耕

当前热讯：84消毒液为什么叫84?_84消毒液中的 ldquo 84 rdquo 是什么意思

环球要闻：最低还款怎么计息_最低还款额利息计算器

什么是服务外包产业|全球快资讯

广安爱众：聘任刘经文为副总经理 当前焦点

工程质量被起诉了该怎么办？-全球短讯

天天最新：崇义县

怎么备份手机的所有数据（怎么备份） 全球微动态

【天天新要闻】入伏从哪天算起

当前观点：如何设置WPS页眉页面的底线和顶线？

德语回信作文万能句型(优选17篇)

苡怎么读

中国奢侈品市场恢复速度或超预期，“数字化”转型成趋势

小马哥是谁

天天快讯:以奇迹见没有奇迹

世界今日报丨搞笑电视剧大全前十名之欢喜来逗阵

抛弃北上广，“用脚投票”的年轻人都走去了哪里？|环球今日讯

今日精选：南京邮电大学是211还是省重点_南京邮电大学是211还是985

观速讯丨张少军简历

世界新动态：长城小剧场·两会一家人③丨妈妈“就业”记

前什么后什么的成语_环球今日讯

RNG被逼入绝境，现场化身图书馆，Uzi直播放好日子，WEI也破防了_热消息

天海防务：公司及子公司累计担保情况当前关注

人民建议|网友盼保护利用望远墩烽火台甘肃兰州：已采取保护措施

北向资金净买入7.55亿元交易活跃度上升

索尼MDR-XB950N1耳机怎么使用降噪功能当前视讯

Trigona勒索病毒正在传播，火绒可拦截每日聚焦

可以识别图片文字的微信小程序_微信识别图片文字的小程序前沿资讯

君子之过如日月之食焉也过人皆见之更也仁济街养殖_君子之过也如日月之食焉中文翻译

一天洗手四五十次，女子过度洗手反引发湿疹环球播报

“2023新疆电影周”启动 9部优秀作品集中展映实时

当前视讯！新疆阿克苏市：节水助春耕农民乐开颜

邹城：农资储备足春耕有保障

自称书香世家的黄磊一家尴尬了，黄多多被曝出不认识基本的汉字世界最资讯

夏威夷火山什么时候爆发环球快资讯

广安爱众：聘任刘经文为副总经理当前焦点

怎么备份手机的所有数据（怎么备份）全球微动态

小鹏汽车公布最新销售数据 2月交付6010台新消息

和平精英官方充值_和平精英充值中心当前速读

接诉即办入法全程听民意全球热消息

最快今年内发布玛莎拉蒂GranCabrio Fologore纯电动版谍照曝光_每日精选