多语言支持

共 41 篇文章

Mistral OCR:快速准确识别文字的优秀工具

Mistral OCR 是 Mistral AI 最新推出的一款光学字符识别(OCR)工具,专为处理复杂文档而设计。该工具能够全面解析文档中的文本、图像、表格和数学公式,支持多种语言和字体,准确率高达99.02%。在各项基准测试中,Mistral OCR 的表现超越了 Google Document...
Mistral OCR:快速准确识别文字的优秀工具

SuperGPQA

SuperGPQA是由字节跳动豆包大模型团队与M-A-P联合推出的一个全面的知识推理基准测试集。该测试集涵盖了285个研究生级学科,包含26529道专业题目。项目旨在解决传统评测基准在学科覆盖不足、题目质量参差不齐及评测维度单一等问题。通过专家与大语言模型的协同构建,SuperGPQA保证了题目高质...
SuperGPQA

NotaGen

NotaGen – 音乐学院联合北航、清华等推出的音乐生成模型 NotaGen是音乐学院、北京航空航天大学和清华大学等机构合作开发的音乐生成模型。这一模型受到大型语言模型(LLM)训练方法的启发,旨在创作高质量的古典乐谱。NotaGen采用了预训练、微调和强化学习的结合方式,其预训练阶段吸收了超过1...
NotaGen

NextGenAI

NextGenAI为OpenAI发起的全球性合作项目,联合了15所著名高等学府和研究机构,旨在利用人工智能技术推动教育与研究的进展。这一联盟得到OpenAI提供的5000万美元资金支持、计算资源和API接口。各成员机构在医疗、教育和图书馆等领域展开多项创新应用,例如加速罕见疾病的诊断和数字化稀有文献...
NextGenAI

抓住平台商机:如何利用Platus实现商业增长?

Platus是一家专注于运用人工智能和无代码平台优化企业法律流程的创新法律科技初创企业。该平台为中小企业和法律团队提供高效且自动化的法律基础设施,涵盖了文件起草、审查、签署和公证等多项服务。用户可以通过直观的拖放界面快速构建和管理法律工作流,而AI工具则能自动识别重要条款和潜在风险,确保合规性。此外...
抓住平台商机:如何利用Platus实现商业增长?

Liquid

Liquid是一款由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架。该框架利用VQGAN技术将图像转换为离散的视觉token,并与文本token共享同一词汇空间,从而使得大型语言模型(LLM)在视觉生成和理解任务中发挥作用,而无需对模型结构进行修改。 Liquid的主要功能包括视觉生成、视...
Liquid

高效编辑文案:AVD2独家揭秘,新鲜资讯抢先知!

AVD2 是一个由清华大学与香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等多所机构共同开发的自动驾驶事故视频理解与生成框架。该框架旨在提高自动驾驶事故视频的理解能力,通过生成与详细自然语言描述相对齐的视频来增强对复杂事故场景的解析效果。AVD2整合了视频生成与事故分析技术,能够生成具...
高效编辑文案:AVD2独家揭秘,新鲜资讯抢先知!

Promptimize AI

Promptimize AI是一款专注于提升AI提示词质量的工具,旨在通过精准的提示词优化,帮助用户提高AI输出的效率和效果。作为一款浏览器插件,它兼容多种主流AI平台,如ChatGPT和Gemini,允许用户一键优化提示词,使其更具针对性和连贯性。该工具包括一键增强提示词、动态变量管理及提示词库保...
Promptimize AI

Manus

《Manus – Monica.im 推出的全球首款通用型 AI Agent》 Manus是由Monica团队开发的全球首款通用型AI Agent。相比传统人工智能,Manus不仅具备思考、规划和执行复杂任务的能力,还能够自主完成任务规划到执行的全过程,覆盖文件处理、数据分析、代码编写和内容创作等多...
Manus

MiniMax

MiniMax推出的Image-01是一款文本到图像生成模型,具备卓越的图像生成技术。用户提供文本描述后,该模型能够精确转化为高质量的图像,支持多种纵横比和高分辨率输出,适用于社交媒体、商业项目等多种场景。 Image-01是MiniMax推出的先进文本到图像生成模型,具备出色的图像生成能力。该模型...
MiniMax

PRefLexOR

MIT团队研发的新型自学习人工智能框架PRefLexOR融合了偏好优化和强化学习概念,通过推理提升自我学习能力。其核心算法是递归推理,模型通过多轮推理、反思和优化生成更准确结果。使用基于优势比偏好优化(ORPO)和直接偏好优化(DPO)的技术,协调推理路径并提升质量。 PRefLexOR的功能包括动...
PRefLexOR

MindLLM

MindLLM是由耶鲁大学、达特茅斯学院和剑桥大学共同研发的一种先进的人工智能模型,能够将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。通过结合主体无关的fMRI编码器和大型语言模型(LLM),以及引入脑指令调优(BIT)技术,MindLLM成功捕捉了fMRI信号中的丰富语义信息。在众多基...
MindLLM

AgiBot Digital World

智元机器人推出了一款名为AgiBot Digital World的机器人仿真框架,旨在支持机器人操作技能的研究与应用。这一框架结合了大量真实的三维资产、多样化的专家轨迹生成机制以及全面的模型评估工具,通过高度逼真的模拟和全链路的自动化数据生成,能够快速构建多样化的机器人训练场景。 AgiBot Di...
AgiBot Digital World

Shandu

Shandu是一款开源的人工智能研究自动化工具,融合了LangChain和LangGraph的先进技术,能够高效地进行多层次的信息挖掘与分析,从而生成结构化的研究报告。用户只需通过简单的命令行输入研究主题,并设定深度和广度参数,便能快速生成包含引用的Markdown格式报告。Shandu支持多个搜索...
Shandu

ViDoRAG

ViDoRAG是由阿里巴巴通义实验室与中国科学技术大学、上海交通大学共同开发的视觉文档检索增强生成框架。该框架利用多智能体协作及动态迭代推理技术,克服了传统方法在处理复杂视觉文档时面临的检索与推理的局限性。ViDoRAG通过高斯混合模型(GMM)实现多模态混合检索策略,能够动态调整检索结果的数量,从...
ViDoRAG

Mochii AI

Mochii AI是一款多功能智能助手,利用先进的人工智能技术来提高用户的工作效率和创造力。它整合了各种高级AI模型,如GPT-4、Claude 3.5和Gemini,可提供智能对话、语音交互、文档分析和网页总结等多项服务。用户可以通过浏览器插件、桌面应用或移动设备随时访问Mochii AI。 Mo...
Mochii AI

T2V-01-Director

海螺AI推出的 T2V-01-Director 是一款文本到视频生成工具,旨在通过自然语言指令实现精准的镜头控制。该工具使用户能够轻松创建电影级的视频效果,支持多种镜头组合,如左移、右摇、推进和拉远,满足复杂场景拍摄需求。 T2V-01-Director 是海螺AI(MiniMax)推出的创新性文本...
T2V-01-Director

Mobius

Mobius是一项由重庆邮电与美团等合作推出的无缝循环视频生成技术。这种先进技术利用人工智能算法,将文字描述转化为无限循环的视频内容。其关键在于强大的AI模型,能够自动识别视频中的关键元素,生成平滑过渡的循环片段,无需用户进行繁琐编辑。Mobius简化了视频创作过程,适合各种技能水平的创作者,并在广...
Mobius

HippoRAG

俄亥俄州立大学推出的检索增强生成框架HippoRAG 2旨在弥补传统RAG系统在模拟人类长期记忆动态性和关联性方面的不足。其使用个性化PageRank算法实现深度段落整合和更高效的在线大型语言模型(LLM)应用,使在知识检索和生成过程中更贴近人类记忆效果。 HippoRAG 2作为一种创新型的检索增...
HippoRAG

Baichuan-Audio

百川智能推出的Baichuan-Audio是一款先进的端到端音频大语言模型,具备无缝音频理解与生成的能力,能够实现高质量、可控的实时中英文对话。该模型采用多码本离散化技术,成功将音频信号转化为离散标记,保留语义和声学信息,并通过音频处理模块增强音频特征的识别能力。Baichuan-Audio基于双阶...
Baichuan-Audio

Pika 2.2

Pika 2.2是由Pika Labs最新推出的升级版AI视频生成工具。利用深度学习技术,将图像或文字提示转换为高质量的视频内容。与旧版本相比,Pika 2.2在功能和性能上都有显著提升。支持生成长达10秒的视频,并提供1080p的高清分辨率。此外,引入了"Pikaframes"功能,通过关键帧过渡...
Pika 2.2

3FS – DeepSeek

3FS – DeepSeek推出的高性能分布式文件系统是专为人工智能训练和推理任务而设计的效率高效的文件系统。利用现代SSD和RDMA网络技术,3FS能够整合大量SSD的吞吐量和存储节点的网络带宽,实现高达6.6 TiB/s的读取吞吐量。该系统具有强一致性并提供通用文件接口,用户无需学习新的存储AP...
3FS – DeepSeek

IndexTTS

IndexTTS 是 B 站推出的文本转语音模型,它结合了 XTTS 和 Tortoise 模型的先进技术,采用了 GPT 风格的生成技术。这个系统在将文本转换为自然流畅的语音方面表现出色,尤其擅长处理中文文本。IndexTTS 不仅支持拼音纠正汉字发音,还可以利用标点符号来精准控制停顿,有效解决多...
IndexTTS

Phi-4-Mini

Phi-4-Mini是微软推出的一款专注于文本任务的小型语言模型,是 Phi-4 系列的最新成员,拥有 38 亿参数。该模型建立在密集的解码器-only Transformer 架构之上,结合了分组查询注意力、20 万词汇量和输入输出嵌入的共享,旨在提高速度和效率。Phi-4-Mini 在文本推理、...
Phi-4-Mini

R1-Onevision

R1-Onevision是一款开源的多模态大语言模型,专注于处理复杂的视觉推理任务。它基于 Qwen2.5-VL 进行微调,能够有效整合视觉和文本数据,实现精准的多模态信息解析。在数学、科学、深度图像理解和逻辑推理等领域表现优秀,超越了竞争模型 Qwen2.5-VL-7B 和 GPT-4V。 R1-...
R1-Onevision

All Voice Lab

All Voice Lab是一个全球领先的AI语音创作平台,致力于为用户提供一站式的智能语音解决方案。该平台基于趣丸科技与香港中文大学(深圳)共同研发的MaskGCT语音大模型,旨在帮助全球创作者跨越语言和技术障碍,实现内容创作和国际传播的高效性。All Voice Lab支持中文、英语、法语、德语...
All Voice Lab

Flame

Flame是一款开源的多模态AI模型,专为将UI设计截图转化为高质量的现代前端代码而设计。该模型利用视觉语言建模、自动化数据合成以及结构化训练流程,能够生成符合React等现代前端框架标准的代码,支持组件化、状态管理及动态交互功能。相较传统模型仅生成静态代码的方式,Flame采用创新的数据合成方法,...
Flame

元镜

元镜是一款基于人机共生引擎的AI视频创作系统,旨在将创意构思快速转化为成品视频。该系统具有自动化脚本生成、统一角色风格、多模态融合和智能化工作流程等功能,能显著提升创作效率,满足短视频、广告、教育和影视等多个行业的需求。 元镜的主要功能包括:创意视频脚本生成,提供多模态创意分镜设计,以及分镜一键成片...
元镜

优雅YOYA

"优雅YOYA"是中科闻歌推出的一款音视频内容生成平台,旨在利用先进的人工智能技术提升视频内容创作的效率和质量。通过强大的大语言模型和多模态大模型支持,该平台具备文本生成视频、图像、数字人等多种功能,同时提供语音克隆、视频口型翻译、AI音乐创作等智能工具。用户只需简单输入主题要求,平台便能快速生成脚...
优雅YOYA

FlashMLA

FlashMLA是DeepSeek开源的高效MLA(多头线性注意力)解码内核,专为NVIDIA Hopper架构GPU进行优化。该产品通过优化KV缓存机制和采用BF16数据格式,提升了内存和计算效率。在H800 SXM5 GPU上,FlashMLA可实现高达3000GB/s的内存带宽和580TFLO...
FlashMLA

MagicArticulate

MagicArticulate是由南洋理工大学与字节跳动Seed实验室合作开发的一项创新框架,旨在将静态3D模型自动转换为可用于动画制作的资源。该系统基于自回归生成骨架的方法,能够预测蒙皮权重,使得模型可以展现出更真实的动画效果。MagicArticulate引入了Articulation-XL数据...
MagicArticulate

Llasa TTS

Llasa TTS是香港科技大学开发的一款基于LLaMA架构的开源文本转语音(TTS)模型。这一模型采用高质量的语音合成和克隆技术,在训练和推理阶段表现出色,并支持情感表达、音色克隆等多种功能。Llasa TTS提供不同参数规模的模型,包括1B、3B和8B,能够生成多语言合成。 主要功能包括高质量语...
Llasa TTS

Miss Dora

Miss Dora是针对3至8岁儿童设计的AI英文阅读应用,旨在通过个性化的故事讲述和互动问答激发孩子的阅读热情与想象力。该应用拥有丰富的故事库,覆盖多个阅读水平,旨在支持孩子的学习,减轻家长的讲故事负担。Miss Dora融合了传统阅读和现代科技,为孩子们提供有趣而具有教育意义的学习体验。 Mis...
Miss Dora

Indic Parler-TTS

Indic Parler-TTS 是一个强大的多语言文本转语音(TTS)模型,由 Hugging Face 和 AI4Bharat 团队联合开发,专注于语言和英语的语音合成。作为 Parler-TTS Mini 的扩展版本,Indic Parler-TTS 支持 20 种语言及英语,提供 69 种独...
Indic Parler-TTS

协和·太初

“协和·太初”是北京协和医院与中国科学院自动化研究所合作开发的罕见病领域AI大模型。该模型结合了中国罕见病知识库和中国人群基因检测数据,是国内首个符合中国人群特征的罕见病AI模型。通过采用极小样本冷启动技术,即使在数据稀缺的情况下,也能结合少量数据与医学知识,提供全流程的辅助决策。 该模型的主要功能...
协和·太初

HiveChat 专为中小型团队设计的AI应用

HiveChat是一款专为中小型团队设计的AI应用,它支持多种主流AI模型,包括OpenAI、Claude、Gemini和Deepseek等。除了提供LaTeX和Markdown渲染、图像理解、AI智能体等多种功能外,还提供云端数据存储解决方案。管理员可以轻松配置不同的模型和管理用户,而普通用户则可...
HiveChat 专为中小型团队设计的AI应用

Crawl4LLM 清华大学与卡内基梅隆大学合作开发的智能系统

Crawl4LLM 是清华大学与卡内基梅隆大学合作开发的智能系统,旨在提高大语言模型(LLM)的预训练效率。该系统通过智能评估网页的预训练价值来优先抓取高价值内容,与传统技术相比,效率提升了近五倍。 Crawl4LLM 的主要功能包括: 智能化网页选择:根据评估网页对LLM预训练的贡献来优先抓取高价...
Crawl4LLM 清华大学与卡内基梅隆大学合作开发的智能系统

靠岸妙写:先进的AI论文写作助手

“靠岸妙写”是一款先进的AI论文写作助手,旨在为学术写作提供高效便捷的支持。借助人工智能技术,该工具能够迅速生成各类论文的初稿,满足不同学术需求,覆盖理工科、文科和社科等多个学科领域。除了支持一键生成论文大纲、摘要和正文初稿外,还提供AI痕迹检测与降痕服务,以帮助用户减少AI生成内容的可识别性,确保...
靠岸妙写:先进的AI论文写作助手

流畅阅读开源的浏览器翻译插件

“流畅阅读”是一款开源的浏览器翻译插件,旨在为用户提供近乎母语水平的阅读体验。该插件依托先进的人工智能技术,支持多种翻译引擎,包括传统机器翻译和AI大模型翻译,同时允许用户自定义翻译服务。其核心功能包括智能翻译、双语对照显示以及数据在本地存储以确保用户隐私安全。 在“流畅阅读”中,用户可以选择不同的...
流畅阅读开源的浏览器翻译插件

ConverzAI 运用人工智能技术优化招聘流程平台

ConverzAI是一个运用人工智能技术优化招聘流程的平台。通过部署虚拟招聘人员(AI Agents),ConverzAI帮助企业在商业、医疗和专业领域实现招聘的自动化与优化。用户可将招聘任务或整个客户账户交由AI处理,虚拟招聘人员通过电话、电子邮件和短信等多种渠道与候选人互动,完成筛选和评估等环节...
ConverzAI 运用人工智能技术优化招聘流程平台
1 2