AI项目和框架

共 114 篇文章

MeteoRA

南京大学计算机科学与技术系的研究团队推出了一种名为MeteoRA的多任务嵌入框架,旨在优化大型语言模型(LLM)的性能。该框架将多个任务特定的LoRA(低秩适配器)整合到一个基础模型中,促进了高效的参数复用及自主任务切换。MeteoRA基于混合专家(MoE)架构,利用可训练的门控网络动态选择最适合当...
MeteoRA

Claude 3.7 Sonnet

Anthropic公司推出的Claude 3.7 Sonnet是全球首款混合推理模型,具备“标准模式”和“扩展思考模式”两种操作方式。其中,标准模式适用于快速响应、日常对话和简单任务;而扩展思考模式则通过逐步推理来解决更复杂的问题,特别在数学、物理和编程领域展现出色,并在编码能力方面遥遥领先。 Cl...
Claude 3.7 Sonnet

DeepSeek:DeepEP

DeepEP 是DeepSeek发布的专家并行(EP)通信库,专门设计用于MoE模型的训练和推理。该库具有高吞吐量和低延迟的全对全GPU内核,支持节点内和节点间的NVLink和RDMA通信。特别优化了DeepSeek-V3论文中的组限制门控算法,并引入了基于Hook的通信-计算重叠技术,以确保不占用...
DeepSeek:DeepEP

FantasyID

FantasyID是由阿里巴巴集团与北京邮电大学共同推出的创新身份保持视频生成框架(IPT2V)。该系统基于增强的人脸知识,旨在生成高质量且身份一致的视频。FantasyID运用了扩散变换器技术,并结合3D面部几何先验知识,以确保在视频合成过程中面部结构的稳定性和合理性。此外,采用了多视角人脸增强策...
FantasyID

SigStyle

SigStyle是由吉林大学和Adobe合作开发的一种新型签名风格迁移框架。该框架利用个性化文本到图像扩散模型,将单一风格图像中的独特视觉元素转移到内容图像中。SigStyle支持全局和局部风格迁移、纹理迁移、风格融合等多种应用,同时通过时间感知注意力交换技术保持内容一致性。 SigStyle的主要...
SigStyle

BioMedGPT-R1

清华大学AI产业研究院(AIR)与北京水木分子生物科技有限公司合作开发的BioMedGPT-R1是一款先进的多模态生物医药开源大模型。利用DeepSeek R1技术,该模型新增了文本基座模型并实现了跨模态特征对齐,使得生物模态(如分子、蛋白质)与自然语言得以有效融合。BioMedGPT-R1能够处理...
BioMedGPT-R1

GRUtopia 2.0

上海人工智能实验室推出的GRUtopia 2.0是一款先进的通用具身智能仿真平台,是对GRUtopia 1.0的全面升级。它包含三大核心创新:通用模块化框架、场景资产自动化生成和高效数据采集系统。用户能够借助简单的“三行代码”定义复杂任务,无需在多个平台间切换。平台集成了百万级标准化物体资产,支持复...
GRUtopia 2.0

SigLIP 2:全新版本发布!

SigLIP 2是由谷歌DeepMind推出的先进的多语言视觉-语言模型,是SigLIP的升级版本,其强化了图像与文本之间的对齐能力。通过创新的训练方法和架构,SigLIP 2在多语言理解、零样本分类以及图像-文本检索等任务中表现出卓越性能。 SigLIP 2具有以下主要功能: 多语言支持:能够处理...
SigLIP 2:全新版本发布!

AvatarGO

AvatarGO是南洋理工大学S-Lab、上海AI Lab和香港大学联合开发的创新框架,旨在通过文本描述直接生成可动画化的4D人体与物体交互场景。AvatarGO采用零样本方法,并基于预训练的扩散模型,解决了传统技术在生成日常人机交互(HOI)场景时面临的挑战。其核心技术包括LLM引导的接触重定位和...
AvatarGO

Moonlight-16B-A3B

Moonlight-16B-A3B是Moonshot AI开发的一款创新型Mixture-of-Expert(MoE)模型,拥有160亿总参数和30亿激活参数。使用优化后的Muon优化器进行训练,计算效率为传统AdamW的两倍。在英语语言理解(MMLU)和代码生成(HumanEval)等任务中表现出...
Moonlight-16B-A3B

FlashMLA

FlashMLA是DeepSeek开源的高效MLA(多头线性注意力)解码内核,专为NVIDIA Hopper架构GPU进行优化。该产品通过优化KV缓存机制和采用BF16数据格式,提升了内存和计算效率。在H800 SXM5 GPU上,FlashMLA可实现高达3000GB/s的内存带宽和580TFLO...
FlashMLA

MagicArticulate

MagicArticulate是由南洋理工大学与字节跳动Seed实验室合作开发的一项创新框架,旨在将静态3D模型自动转换为可用于动画制作的资源。该系统基于自回归生成骨架的方法,能够预测蒙皮权重,使得模型可以展现出更真实的动画效果。MagicArticulate引入了Articulation-XL数据...
MagicArticulate

TANGLED

"TANGLED" 是一种由上海科技大学、Deemos Technology 和华中科技大学联合研发的创新型3D发型生成技术。这项技术能够从各种风格和角度的图像中生成高质量的3D发丝。通过多样性的 MultiHair 数据集,TANGLED 提供丰富的发型样本,并通过三个核心步骤来实现:首先,利用多...
TANGLED

Llasa TTS

Llasa TTS是香港科技大学开发的一款基于LLaMA架构的开源文本转语音(TTS)模型。这一模型采用高质量的语音合成和克隆技术,在训练和推理阶段表现出色,并支持情感表达、音色克隆等多种功能。Llasa TTS提供不同参数规模的模型,包括1B、3B和8B,能够生成多语言合成。 主要功能包括高质量语...
Llasa TTS

EVO 2:下一代的革新

Evo 2 – Acr研究所联合英伟达、斯坦福等推出的生物学AI模型 Evo 2是由美国弧形研究所、英伟达和斯坦福大学等机构联合开发的前沿DNA语言模型,其目的在于为基因组建模和设计提供强大支持,并覆盖生命科学的各个领域。该模型基于StripedHyena 2架构,具备处理长达100万个碱基对的单核...
EVO 2:下一代的革新

OOMOL:基于VSCode构建的现代化集成开发环境(IDE)

OOMOL是一款基于VSCode构建的现代化集成开发环境(IDE),旨在简化工作流自动化的过程。借助其直观的拖拽式图形界面,用户可以轻松构建复杂的工作流,而无需具备编程背景。从预装的Python和Node.js环境,结合容器化技术,实现了开箱即用的体验,同时支持跨平台共享与数据安全隔离。它原生集成了...
OOMOL:基于VSCode构建的现代化集成开发环境(IDE)

Indic Parler-TTS

Indic Parler-TTS 是一个强大的多语言文本转语音(TTS)模型,由 Hugging Face 和 AI4Bharat 团队联合开发,专注于语言和英语的语音合成。作为 Parler-TTS Mini 的扩展版本,Indic Parler-TTS 支持 20 种语言及英语,提供 69 种独...
Indic Parler-TTS

Auto-Deep-Research

Auto-Deep-Research 是由香港大学黄超教授实验室开发的一款开源全自动个人AI助手,旨在为用户提供高效的深度研究支持。作为 OpenAI Deep Research 的开源替代品,该工具基于AutoAgent框架,采用模块化的多Agent结构,包含Web Agent、Coding Ag...
Auto-Deep-Research

ComfyUI-Copilot

阿里巴巴国际数字商业集团(AIDC-AI)推出了基于ComfyUI框架开发的AI智能助手——ComfyUI-Copilot。该智能助手采用自然语言交互的方式,为用户提供节点推荐、工作流构建协助和模型查询等功能,旨在降低ComfyUI的使用难度,提升开发效率。无论是初学者还是经验丰富的开发人员,Com...
ComfyUI-Copilot

Ovis2

阿里国际推出了最新的多模态大语言系列模型 Ovis2,旨在通过结构化嵌入对齐技术有效解决视觉与文本之间的差异。Ovis2是在前一代 Ovis 模型基础上进行了优化,增强了小规模模型的性能密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。 Ovis2采用结构化嵌入对齐方法,有效解决了视...
Ovis2

AgentSociety:清华大学开发的社会模拟工具

AgentSociety是一款由清华大学开发的社会模拟工具,基于大语言模型(LLM)构建。通过为智能体赋予情感、需求与认知能力,并模拟城市环境,实现复杂的社会行为和现象模拟。AgentSociety被广泛应用于社会现象分析、政策测试、危机预警及未来社会形态探索等领域。 AgentSociety的主要...
AgentSociety:清华大学开发的社会模拟工具

Sitcom-Crafter

《Sitcom-Crafter》是北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等多所高校共同研发的一款3D场景人类动作生成系统。该系统根据用户提供的剧情引导,能够智能生成丰富多样、符合物理规律的动作表现,包括人类行走、人与场景的互动以及人类之间的交互。八个模块构成了《Sitcom-...
Sitcom-Crafter

Migician

Migician是由北京交通大学、华中科技大学和清华大学的研究团队联合开发的多模态大语言模型(MLLM),旨在应对形式的多图像定位(Multi-Image Grounding,MIG)任务。该模型基于大规模训练数据集MGrounding-630k,能够根据不同形式的查询(如文本描述、图像或两者结合)...
Migician

HiveChat 专为中小型团队设计的AI应用

HiveChat是一款专为中小型团队设计的AI应用,它支持多种主流AI模型,包括OpenAI、Claude、Gemini和Deepseek等。除了提供LaTeX和Markdown渲染、图像理解、AI智能体等多种功能外,还提供云端数据存储解决方案。管理员可以轻松配置不同的模型和管理用户,而普通用户则可...
HiveChat 专为中小型团队设计的AI应用

协和·太初

“协和·太初”是北京协和医院与中国科学院自动化研究所合作开发的罕见病领域AI大模型。该模型结合了中国罕见病知识库和中国人群基因检测数据,是国内首个符合中国人群特征的罕见病AI模型。通过采用极小样本冷启动技术,即使在数据稀缺的情况下,也能结合少量数据与医学知识,提供全流程的辅助决策。 该模型的主要功能...
协和·太初

Crawl4LLM 清华大学与卡内基梅隆大学合作开发的智能系统

Crawl4LLM 是清华大学与卡内基梅隆大学合作开发的智能系统,旨在提高大语言模型(LLM)的预训练效率。该系统通过智能评估网页的预训练价值来优先抓取高价值内容,与传统技术相比,效率提升了近五倍。 Crawl4LLM 的主要功能包括: 智能化网页选择:根据评估网页对LLM预训练的贡献来优先抓取高价...
Crawl4LLM 清华大学与卡内基梅隆大学合作开发的智能系统

BioEmu 微软研究院开发的生成式深度学习系统

BioEmu是由微软研究院开发的生成式深度学习系统,旨在高效模拟蛋白质的动态结构及平衡态构象。通过整合大量蛋白质结构数据、分子动力学模拟数据和实验蛋白质稳定性数据,BioEmu能够精确预测蛋白质的平衡态构象,相对能误差控制在1 kcal/mol以内。 BioEmu的主要功能包括高效生成蛋白质结构样本...
BioEmu 微软研究院开发的生成式深度学习系统

AI co-scientist

谷歌推出的 AI 科研助手——AI co-scientist,是一款基于Gemini 2.0技术的多智能体人工智能系统,旨在协助科研人员应对繁琐的科研任务,如选题、文献检索和实验设计。该系统利用生成、反思、排序、进化等多智能体协作,模拟科研全流程,并通过“测试时间计算”提升推理能力。AI co-sc...
AI co-scientist

FlexTok

FlexTok是由瑞士洛桑联邦理工学院(EPFL)与苹果公司合作研发的一项创新图像处理技术。它利用将二维图像转换为一维离散标记序列的方法,能够以不同长度描述图像,从而实现高效的图像压缩和生成。FlexTok的关键技术包括动态像素重组,可提升图像压缩率达300%,同时支持实时渲染8K视频,显著减少功耗...
FlexTok

PaliGemma 2 Mix 升级版的高级多任务视觉语言模型(VLM)

谷歌DeepMind推出的PaliGemma 2 Mix是一款升级版的高级多任务视觉语言模型(VLM),集成了多种视觉和语言处理功能。该模型提供了图像描述、目标检测、图像分割、光学字符识别(OCR)、文档理解等多项功能,使用户能够在一个统一模型中应对不同任务需求。PaliGemma 2 Mix针对不...
PaliGemma 2 Mix 升级版的高级多任务视觉语言模型(VLM)

TongGeometry 由北京通用AI研究院与北京大学AI研究所合作推出

TongGeometry 是由北京通用AI研究院与北京大学AI研究所合作推出的高级几何模型,专门针对高水平几何问题,尤其适用于国际数学奥林匹克等竞赛。该系统基于效率高的树搜索算法和大规模并行计算技术,构建了全球最大的几何定理库,成功发现了67亿个需要辅助构造的几何定理,其中41亿个具有几何对称性。T...
TongGeometry 由北京通用AI研究院与北京大学AI研究所合作推出

流畅阅读开源的浏览器翻译插件

“流畅阅读”是一款开源的浏览器翻译插件,旨在为用户提供近乎母语水平的阅读体验。该插件依托先进的人工智能技术,支持多种翻译引擎,包括传统机器翻译和AI大模型翻译,同时允许用户自定义翻译服务。其核心功能包括智能翻译、双语对照显示以及数据在本地存储以确保用户隐私安全。 在“流畅阅读”中,用户可以选择不同的...
流畅阅读开源的浏览器翻译插件

全新发布:X-Portrait 2 改头换面,再创辉煌

X-Portrait 2是由字节跳动智能创作团队开发的一项先进技术,旨在利用一张静态照片和一段视频来生成高品质电影级视频内容。该技术能够准确保留原始图像的身份特征,捕捉微妙的表情和情感变化,并实现跨风格的动作迁移,适用于真实人像和卡通形象。 X-Portrait 2的特点包括表情与情感迁移、高保真度...
全新发布:X-Portrait 2 改头换面,再创辉煌

AlphaFold 3:革命性的蛋白质结构预测技术

AlphaFold 3是由谷歌DeepMind团队开发的一款先进的AI模型,专门用于预测各种生物分子的三维结构,包括蛋白质、DNA、RNA、小分子、离子、修饰残基等。该模型在结构预测准确性方面取得了突破性进展,显著推动了药物开发、科学研究和生物医学领域的发展。代表谷歌DeepMind团队独创开发的A...
AlphaFold 3:革命性的蛋白质结构预测技术
1 2 3