Total Pageviews

Wednesday 31 January 2024

《戏曲联唱》表演:张楚怡(六岁)

全是愛 - 鳳凰傳奇

 

Lepton Search-开源对话式AI搜索引擎


Lepton Search是一款开源对话式AI搜索引擎,使用不到 500 行代码构建的对话式AI搜索引擎,是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI推出的 AI 增强对话式搜索引擎,内置支持大语言模型(LLM)和搜索引擎,默认支持的搜索引擎:Bing 和 Google,能够为用户提供更加准确和深入的答案,Lepton Search 背后使用 MistralAI 开源的 Mixtral-8x7b 作为支撑模型,运行在 LeptonAI 的 playground 托管平台上 ,受到了 Perplexity AI 和 Phind 等由 LLM 驱动的搜索引擎的启发,可定制漂亮的UI界面,可共享的缓存搜索结果等等。

地址:https://search.lepton.run/

GitHub:https://github.com/leptonai/search_with_lepton

AI提示语

 
简介
无需代码,连接模型快速构建AI应用。让每个人都能轻松使用 AI,提高 10 倍生产力。
AI 提示语致力于为各类AI应用搭建、运行和推广的基础平台,让广大用户都能将AI的力量运用到实际的工作与生活场景中。

AI提示语特点与优势

    无需编程:就像开车一样,你不需要知道发动机的每一个零件是如何工作的,只需要用自然语言就可以操作我们的系统。
    接入AI大模型:你不需要手动配置,我们的系统会像一个超级AI导航仪一样,根据你的目标任务,为你选择和组合最合适的AI模型。
    实时数据训练:我们的系统可以像一个超级AI侦探一样,接入实时数据,根据你的行业和场景选择可靠的信息源,还可以结合你的个人信息和喜好进行训练。
    实时预览调试:我们的系统有一个友好且多样化的交互界面,像一个超级AI助手一样,实时反馈,让你可以轻松学习并创建属于自己的AI应用。
    分享复用:我们的系统可以为特定的场景创建一个模板,这就像一个超级AI秘书,帮你整理好所有的套路,让你在处理生活和工作中的问题时更加得心应手。而且,这些模板不仅可以分享,可以复用,还可以像一个宝贵的资源一样进行交易。

AI提示语网址
地址:https://tishi.top/

AI Code Converter/人工智能代码转换器,不会编程也可以写代码



AI Code Converter(人工智能代码转换器)是一个AI代码转换器,使用AI将代码或自然语言转换为编程语言代码,也就是说,可以将自然语言翻译成任何一种编程语言,或者将一门编程语言转换成另一种编程语言,不用代码编程知识的小白也可以写代称程序了,而且还是一个免费的工具。

地址:https://aicodeconvert.com/

Tuesday 30 January 2024

AIDesign:腾讯AI在线logo生成器 可商用 仅需10秒


AIDesign,腾讯AI在线logo生成器,是一个利用人工智能技术生成logo的腾讯自研的智能设计平台,致力于帮助个人用户高效率、低成本地激发品牌灵感。AIDesign使用简单,仅3步(输入品牌名、选择关键词、选择偏好色彩)即可获得多种logo方案,仅需要10秒即可免费在线生成品牌logo,而且可以商用。

内测期间,AIDesign免费开放全部功能,支持logo的智能设计、调优、VI生成、下载。推广期间,每个用户每日可免费下载10款logo及其衍生品,可下载内容包括:高清无水印的彩色logo图片、标准墨稿、标准反色稿、名片设计稿。

AIDesign的典型使用场景包括但不仅限于

– 线上产品 LOGO设计、启动图标设计…
– 实体产品 包装设计…
– 中小企业 品牌设计、VI设计…
– 小微商铺 店招设计、物料设计…
– 协会班级 徽标设计…
– 自媒体个人品牌、营销设计…

AIDesign:https://ailogo.qq.com/guide/brandname

Swapr相映-AI换脸,只需 一张图片,即刻换脸


Swapr相映是一款AI 换脸 App工具,基于AI技术的颠覆性换脸软件,与其他传统换脸应用不同的是,Swapr内置各种AI素材模板,只需要提供一张图片就可以实现任意两张图片的人脸交换。这使得使用Swapr变得非常简便,无需额外的照片素材,不过目前上架iOS测试版,测试期间每天都有免费测试额度,Mac版本和网页版正在开发中。

AI 换脸 App下载地址
iOS测试版(有名额):https://testflight.apple.com/join/6BRfou9V
官网:https://swapr.lol/

Ai画廊-AI绘画关键词生成器

 Ai画廊是一款在线AI绘画关键词生成器,帮助喜欢AI绘画或者小白用户、英文不好的同学快速生成AI绘画关键词,工具自带翻译中文描述、艺术家及风格可视化功能,内置各种AI绘画参数、镜头参数、出图参数和midjourney常用参数等,而且还有画廊和图片市集功能,可以查看众多AI绘画作品喝作品对应的关键词描述,让小白用户也可以快速上手AI绘画,不过使用需要登录。

地址:https://www.aigallery.top/

Fooocus-开源AI绘图工具 无需繁琐配置 一键下载安装


Fooocus是一款免费开源的AI绘画工具,基于SDXL模型在SD webui的基础上进行了改进,提供了一系列强大功能,并提供直观易懂的界面,离线、开源、免费,无需手动调整参数等等,一键下载安装,用户只需关注 prompts 和 images,目前支持Windows和Linux,而且Fooocus 包含并自动化了许多内部优化和质量改进,最低 GPU 内存要求为 4GB (Nvidia)。

安装使用方法

Windows用户下载:https://cors.isteed.cc/github.com/lllyasviel/Fooocus/releases/download/release/Fooocus_win64_1-1-10.7z

然后,解压缩,然后运行“run.bat”

第一次启动软件时,它会自动下载模型,下载完即可使用。

开源AI绘图工具地址
GitHub页面:https://github.com/lllyasviel/Fooocus

Monday 29 January 2024

Human Generator,AI人类生成器网站


Human Generator是一个在线AI人类生成器,使用人工智能在线生成不存在的人物,可以实时生成真实全身照,支持更换服装并修改面部和身体姿势、年龄、肤色、种族、发型、发色、服装等等参数,还可以上传自定义的脸型数据,生成的人物照片可以免费下载。

于是试了一下,效果果然可以。
 可生成真实全身照。

地址:https://generated.photos/human-generator

STABLE DOODLE是Stability AI 推出的一款智能AI手绘草图转真实图像工具

通过文本提示+草图可直接生成高精准真实的图片,由强大的图像合成模型Stable Diffusion 提供支持,它可以帮助用户将简单的草图变成逼真的图片,为普通用户、设计师、插画师等等节省宝贵的时间和提高效率,非常赞。

地址:https://clipdrop.co/stable-doodle

Segment Anything-在线AI抠图工具 能抠任何图像中的任何对象


Segment Anything,一款在线免费的AI抠图工具,是Meta AI研究团队开发的一种新的AI模型:Segment Anything Model (SAM),该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和“一键抠图”,上传图片点击物体即可识别。

试了一下在线的demo,可以直接在浏览器运行的,可以剪切图像中任何物体,非常强大。

在线演示:https://segment-anything.com/demo

GitHub地址:https://github.com/facebookresearch/segment-anything

MediSearch- 靠谱的AI医疗信息搜索引擎


MediSearch是一个比较靠谱的AI医疗信息搜索引擎,以科学为基础的医疗问题回答,搜索引擎允许用户提出健康或生物科学问题,并获取相关的摘要信息,并且每个回答都有权威的信息来源支撑,同时提供相关推荐的资源供进一步参考。

地址:https://medisearch.io/

Seamless


Seamless是最近宣布推出的AI模型,一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。能够自动语音识别近百种语言,支持近 100 种输入和输出语言的语音到文本翻译、语音翻译、文本到文本翻译、文本转语音翻译等等功能。

    自动语音识别近百种语言
    近 100 种输入和输出语言的语音到文本翻译
    语音翻译,支持近100种输入语言和35种(+英语)输出语言
    近 100 种语言的文本到文本翻译
    文本转语音翻译,支持近100种输入语言和35种(+英语)输出语言

Meta的新AI模型 Seamless,在线转录和翻译约100种语言

官网:https://seamless.metademolab.com/

演示应用:https://huggingface.co/spaces/facebook/seamless_m4t

开源人脸融合 AI换脸工具-FaceFusion


FaceFusion是一个免费开源的人脸融合 AI换脸工具,使用python开发,把项目下载到本地,然后安装必须的依赖包requirements.txt,然后运行run.py即可,安装需要一点点Python等等相关技术技能,不适合初学者哈,感兴趣的同学可以学习研究。

使用提示:依赖包requirements.txt,然后运行run.py即可

地址:https://github.com/facefusion/facefusion

AI无损放大位图图像为矢量图像工具-Vectorizer AI


Vectorizer AI是一个免费在线将位图图像转换为矢量图像工具,使用人工智AI能将JPEG 和PNG 位图转换为SVG 矢量,可无限量放大,目前支持的最大图像像素大小为2 万像素,最大图像文件大小为30 MB,测试期间可免费使用。

试了一下效果非常不错的,直接在浏览器即可完成,非常方便的。

地址:https://vectorizer.ai

Magickimg-AI图片增强工具 老照片修复 去背景 着色 变为卡通脸等等



Magickimg是一款基于AI的图片增强工具,利用深度学习的力量实现革命性的图像增强,先进的工具利用人工智能,帮助你转换和优化照片,目前支持老照片修复、图像去背景,老照片着色、照片转卡通脸等等功能,不过使用需要注册登录,用户每个月提供5个试用额度,感兴趣的同学可以试试。

Magickimg功能列表
    🏞️ 图片修复 – 重塑珍贵记忆
    🎭 面部卡通化 – 创作个性化卡通形象
    🧙‍ 魔法图像编辑器 – 文字即可编辑图片
    🎯 背景去除 – 完美抠图
    🎨 图像上色 – 给黑白照片增添生命力
    🔍 图像放大 – 提升画质,保持清晰度

地址:https://magickimg.com/

AI换脸工具-ChangeFaceAi


ChangeFaceAi是一个在线经典照片AI换脸工具,使用人工智能将你的脸放入 100 多张经典标志性照片中,只需上传一张照片即可,感兴趣的同学可以试试,工具仅供娱乐。

地址:https://www.changeface.ai/

免费AI图像生成器ideogram


Ideogram是一个免费的AI图像生成器,由前Google Brain研究人员创立,和其他AI图像生成器不同的是,其图像生成器在生成带有文本的图像方面具有独特优势,擅长于生成图像内文本(如LOGO上的字母、数字等等)方面,可以自定义不同的字体、大小、颜色、样式可靠地呈现图像中的字母、词汇和标志,内置其他预设风格包括3D 渲染、电影、绘画、时尚、产品、插图、概念艺术、浮世绘等,一键轻松搞定带文字、数字、logo等等图片设计,使用需要注册,目前公测免费使用无限制。

地址:https://ideogram.ai/

Recipe p- AI人物生成器



Recipe-p 是一个提供人工智能AI人物生成器和AI生成图像的库存图像平台。通过 Recipe-p,用户可以访问大量人工智能生成的库存图像,这些图像与现实生活中的照片非常相似。此外,Recipe-p 免费提供人工智能生成的图像,不过用户只可以从年龄和AI创意两个方面进行AI人物生成,生成的图片拥有完整的使用权。因此,所有形式的使用,包括商业和转售,都是允许的。此外,图像许可证没有有效期,使用户能够创建个性化且独特的库存图像。

地址:https://recipe-p.com/

百度免费AI助手工具inspiration


AI助手是有百度推出的免费AI助手工具,国内无需魔就可以使用的AI工具,而且无限制,和ChatGPT类似的人工智能聊天机器人差不多,内置了各种功能的快捷入口,直接点开即可使用,而且还可以ai作画。

AI助手-百度免费AI助手工具 无需魔法无限制

地址:https://inspiration.baidu.com/

智囊AI-基于 ChatGPT 的 AI工具产品 你的私人AI助手



智囊AI是一款基于 ChatGPT 的 AI 工具产品,主打免费、智能、方便,可以在此雇佣各种各样的免费智囊进行对话、自己创造和分享智囊、共享有趣有用的对话等。不过使用需要注册登录,可以使用自己的openai key或者使用网站提供的api key,国内网络可以直接使用,而且还可以使用浏览器插件,随时随地、任意页面随时随地召唤你的私人 AI 智囊,提高工作效路。

地址:https://zhinang.ai/

Awesome Domain LLM-收集和梳理垂直领域的开源模型、数据集及评测基准


Awesome Domain LLM是一个收集和梳理垂直领域的开源模型、数据集及评测基准等等内容的在线GitHub仓库,开源模型包括通用模型和领域模型,领域模型通常在通用模型的基础上进行持续预训练或指令微调得到,此处整理常用的开源通用模型。而领域模型则包括医疗、法律、金融、教育和其他等等领域的模型和详细数据。

地址:https://github.com/luban-agi/Awesome-Domain-LLM

-----------------------------------

Awesome Domain LLM

Awesome License: MIT GitHub Repo stars

自以ChatGPT为代表的大语言模型出现以后,掀起了新一轮研究和应用浪潮,出现了许多包括LLaMA、ChatGLM、Baichuan、Qwen等在内的通用模型。 随后,来自不同领域的从业人员在通用模型的基础上通过持续预训练/指令微调将其应用于垂直领域。

本项目旨在收集和梳理垂直领域的开源模型数据集评测基准。 欢迎大家贡献本项目未收录的开源模型、数据集、评测基准等内容,一起推动大模型赋能各行各业!

🔔 更新

  • [2023/11/26] 增强网络安全大模型SecGPT、医疗大模型ChiMed-GPT、金融大模型Tongyi-Finance-14B、金融评测基准FinanceBenchCFBenchmark
  • [2023/11/01] 增加由蚂蚁集团联合北京大学发布的DevOps领域大模型DevOps-Model和评测基准DevOps-Eval
  • [2023/10/28] 增加金融大模型DISC-FinLLM、医学大模型AlpaCare、海洋大模型MarineGPT
  • [2023/10/19] 增加心理大模型MentalLLaMA、双语生物医学大模型Taiyi (太一)、海洋大模型OceanGPT
  • [2023/10/10] 增加由云智慧智能研究院和北航联合研发的面向运维领域的大模型OWL和评测基准OWL-Bench。增加中文法律大模型评测基准LAiW
  • [2023/10/05] 增加心理大模型ChatPsychiatrist、金融大模型InvestLM、农业大模型AgriGPT和医疗大模型WiNGPT2
  • [2023/10/03] 增加两个法律评测基准,分别为面向中国法律体系的LawBench和美国法律体系的LegalBench
  • [2023/10/01] 增加DISC-LawLLM,由复旦大学开源的旨在为用户提供专业、智能、全面的法律服务的法律领域大模型。增加FinGLM,致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。
  • [2023/9/25] 更新Qwen,新增Qwen-14B和Qwen-14B-Chat模型,并更新Qwen-7B和Qwen-7B-Chat模型。相比原版Qwen-7B,新版使用更多训练数据 (2.4T token),序列长度从2048扩展至8192。整体中文能力以及代码能力提升较多。
  • [2023/9/22] 增加InternLM(书生•浦语),上海AI实验室与商汤科技联合香港中文大学和复旦大学开源的多语基座模型。
  • [2023/9/15] 增加Zhongjing-LLaMA (仲景),包含预训练、有监督微调和RLHF完整训练流程的中文医学大模型。
  • [2023/9/14] 增加WeaverBird (织工鸟),可接入本地知识与网络搜索能力的金融领域对话大模型。
  • [2023/9/13] 增加夫子•明察,由山东大学、浪潮云、中国政法大学联合研发的司法大模型。

📜 目录

🤖 模型

🌐 通用模型

领域模型通常在通用模型的基础上进行持续预训练或指令微调得到,此处整理常用的开源通用模型。

模型 大小 机构 论文
LLaMA2 7B/7B-Chat
13B/13B-Chat
70B/70B-Chat
Meta paper
ChatGLM3-6B 6B-Base/6B/6B-32K 清华大学 paper
Qwen 1.8B/1.8B-Chat
7B/7B-Chat
14B/14B-Chat
72B/72B-Chat
阿里云 paper
Baichuan2 7B/7B-Chat
13B/13B-Chat
百川智能 paper
InternLM 7B/7B-Chat
20B/20B-Chat
上海AI实验室 paper

🧩 领域模型

🏥 医疗

  • ChiMed-GPT [paper]

    • ChiMed-GPT 是一款基于 Ziya-v2 的中文医疗大模型。在Ziya-v2的基础上,综合进行了预训练、监督式微调(SFT)和来自人类反馈的强化学习(RLHF)。
  • AlpaCare [paper]

    • 该项目开源了医学大模型AlpaCare,在LLaMA上微调得到。
  • Taiyi (太一) [paper]

    • 该项目开源了中英双语生物医学大模型Taiyi (太一),旨在探索大模型在生物医学领域中双语自然语言处理多任务的能力。
  • MentalLLaMA [paper]

    • 该项目开源了心理大模型MentalLLaMA,可以用于社交媒体上可解释的心理健康分析。
  • WiNGPT2

    • WiNGPT是一个基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务,提高诊疗效率和医疗服务质量。
  • ChatPsychiatrist [paper]

    • 该项目开源了基于LLaMA-7B微调得到的心理大模型ChatPsychiatrist,该模型可以迅速识别心理问题,并提供量身定制的治疗建议。
  • Zhongjing-LLaMA (仲景) [paper]

    • 该项目开源了首个包含预训练、有监督微调和 RLHF 完整训练流程的中文医学大模型,展现出了很好的泛化能力,在某些对话场景中甚至接近专业医生的专业水平。此外,还开源了一个包含 70,000 条完全来源于真实医患对话的多轮对话数据集。该数据集包含大量医生主动提问的语句,有助于提升模型的主动医疗询问能力。
  • DoctorGLM [paper]

    • 基于ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。
  • BenTsao (本草) [paper]

    • 该项目开源了经过中文医学指令微调的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。我们基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。
  • Med-ChatGLM

    • 该项目开源了经过中文医学指令微调的ChatGLM-6B模型,微调数据与BenTsao相同。
  • BianQue (扁鹊) [paper]

    • 该项目开源了生活空间健康大模型。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus,基于扁鹊健康大数据BianQueCorpus,选择ChatGLM-6B作为初始化模型,经过全量参数的指令微调训练得到BianQue。
  • HuatuoGPT (华佗) [paper]

    • 该项目开源了医疗大模型HuatuoGPT,包括基于Baichuan-7B训练得到的HuatuoGPT-7B和基于Ziya-LLaMA-13B-Pretrain-v1训练得到的HuatuoGPT-13B。
  • QiZhenGPT

    • 该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果。
  • ChatMed

    • 该项目开源了中文医疗大模型ChatMed-Consult,以中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集,基于LlaMA-7b采用LoRA微调得到。
  • ShenNong-TCM-LLM (神农)

    • 该项目开源了中文中医药大模型ShenNong-TCM-LLM,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法,调用ChatGPT得到2.6w+中医药指令数据集ChatMed_TCM_Dataset,基于该数据集以LlaMA为底座,采用LoRA微调得到。
  • XrayGLM

    • 该项目开源了中文多模态医学数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。
  • MedicalGPT

    • 该项目开源了医疗大模型MedicalGPT,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。
  • Sunsimiao (孙思邈)

    • 该项目开源了中文医疗大模型Sunsimiao,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。
  • CareGPT

    • 该项目开源了医疗大模型CareGPT (关怀GPT),同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。
  • DISC-MedLLM [paper]

    • 该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到,有效地对齐了医疗场景下的人类偏好,弥合了通用语言模型输出与真实世界医疗对话之间的差距。
  • PMC-LLaMA [paper]

    • 该项目开源了医疗大模型PMC-LLaMA,包括预训练版本的MedLLaMA_13B和指令微调版本的PMC_LLaMA_13B。
  • ChatDoctor [paper]

    • 该项目开源了医疗大模型ChatDoctor,在LLaMA的基础上训练得到。
  • MING (明医)

    • 该项目开源了医疗大模型MING,基于bloomz-7b指令微调得到MING-7B,支持医疗问答、智能问诊等功能。
  • IvyGPT

    • 该项目开源了医疗大模型IvyGPT,它在高质量的医学问答数据上进行了监督微调,并使用人类反馈的强化学习进行了训练。
  • PULSE

    • 该项目开源了中文医疗大模型PULSE,该模型使用约4,000,000个中文医学领域和通用领域的指令微调数据进行微调,支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。
  • HuangDI (皇帝)

    • 该项目开源了中医大模型HuangDI (皇帝),该模型首先在Ziya-LLaMA-13B-V1基座模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练模型,之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调,使得模型具备中医古籍知识问答能力。
  • ZhongJing (仲景)

    • 该项目开源了中医大模型ZhongJing (仲景),该模型旨在阐明中医博大精深之知识,传承古代智慧与现代技术创新,最终为医学领域提供可信赖和专业的工具。
  • TCMLLM

    • 该项目拟通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐大模型TCMLLM-PR,通过整合真实世界临床病历、医学典籍与中医教科书等数据,构建了包含68k数据条目的处方推荐指令微调数据集,在ChatGLM大模型上进行微调得到。
  • MeChat [paper]

    • 该项目开源了中文心理健康支持对话大模型与数据集。模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话,该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
  • SoulChat (灵心) [paper]

    • 该项目开源了心理健康大模型SoulChat (灵心),该模型以ChatGLM-6B作为初始化模型,经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调得到。
  • MindChat (漫谈)

    • 该项目开源了心理大模型MindChat (漫谈),该模型采用了经过人工清洗的约20万条的高质量多轮心理对话数据进行训练,涵盖工作、家庭、学习、生活、社交、安全等多个方面,期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平。
  • QiaoBan (巧板)

    • 该项目开源了儿童情感对话大模型QiaoBan,基于开源通用大模型,使用通用域人机对话、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,研发出适用于儿童情感陪伴的大模型。

⚖ 法律

  • DISC-LawLLM [paper]

    • DISC-LawLLM 是一个旨在为用户提供专业、智能、全面的法律服务的法律领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源,包括 DISC-LawLLM-13B 模型 和 DISC-Law-SFT 数据集。
  • LawGPT_zh (獬豸)

    • 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
  • LaWGPT

    • 该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
  • LexiLaw

    • LexiLaw是一个经过微调的中文法律大模型,它基于ChatGLM-6B架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论是需要针对具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询,LexiLaw都能够提供有益的建议和指导。
  • Lawyer LLaMA [paper]

    • 该项目开源了法律领域的指令微调数据和基于LLaMA训练的中文法律大模型Lawyer LLaMA。Lawyer LLaMA首先在大规模法律语料上进行了预训练,让它系统的学习中国的法律知识体系。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
  • HanFei (韩非)

    • HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。
  • ChatLaw [paper]

    • 由北大开源的一系列法律大模型,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据,包括基于姜子牙-13B、Anima-33B训练而来的ChatLaw-13B和ChatLaw-33B。此外,还开源了ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。
  • Lychee (律知)

    • 开源了中文司法领域大模型Law-GLM-10B,基于GLM-10B模型,在30GB中文法律数据上进行指令微调得到。
  • wisdomInterrogatory (智海-录问)

    • 由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于Baichuan-7B进行了法律领域数据的二次预训练与指令微调,并设计了知识增强的推理流程。
  • JurisLMs

    • 该项目基于中文法学语料训练了一系列语言模型,包括: 1) 可解释法律判决预测模型AI Judge,由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到,不仅能够给出判决结果,还能给出相应的法院观点; 2) 智能法律咨询模型AI Lawyer,采用主动学习在少量数据上进行微调得到,可以根据用户咨询适用正确的法律法规回答问题。
  • 夫子•明察

    • 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。

💰 金融

  • Tongyi-Finance-14B

    • 通义金融-14B(Tongyi-Finance-14B)是针对对金融行业推出的大语言模型,基于通义千问基础模型进行行业语料增量学习,强化金融领域知识和场景应用能力,覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、Coding等能力象限。
  • DISC-FinLLM [paper]

    • DISC-FinLLM是一个金融领域的大语言模型,是由面向不同金融场景的4个模组:金融咨询、金融文本分析、金融计算、金融知识检索问答构成的多专家智慧金融系统。这些模组分别在金融NLP任务、人类试题、资料分析和时事分析等四个评测中展现出明显优势,证明了DISC-FinLLM能为广泛的金融领域提供强有力的支持。
  • InvestLM [paper]

    • 该项目开源了基于LLaMA-65B微调得到的英文金融大模型。
  • FinGLM

    • 致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。
  • WeaverBird (织工鸟) [paper]

    • 该项目开源了基于中英双语金融领域语料库微调的,同时可接入本地知识库以及网络搜索引擎的金融领域对话大模型。
  • BBT-FinCUGE-Applications [paper]

    • 该项目开源了中文金融领域语料库BBT-FinCorpus,知识增强型大模型BBT-FinT5及评测基准CFLEB。
  • Cornucopia (聚宝盆)

    • 该项目基于公开和爬取的中文金融领域问答数据构建指令数据集,并在此基础上对LLaMA系模型进行了指令微调,提高了LLaMA在金融领域的问答效果。
  • XuanYuan (轩辕) [paper]

    • 轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
  • PIXIU (貔貅) [paper]

    • 该项目开源了金融领域指令微调数据集FIT,大模型FinMA及评测基准FLARE。
  • FinGPT [paper1] [paper2]

    • 该项目开源了多个金融大模型,包括ChatGLM2-6B+LoRA和LLaMA2-7B+LoRA等金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。
  • FLANG [paper]

    • 该项目开源了金融大模型FLANG和评测基准FLUE。

🎓 教育

  • 桃李 (Taoli)

    • 该项目开源了适用于国际中文教育领域的大模型,基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。通过多种形式的指令构造了共计88000条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。
  • EduChat [paper]

    • 该项目开源了针对教育垂直领域的对话大模型,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。

➕ 其他

  • DevOps-Model

    • 该项目开源了由蚂蚁集团联合北京大学研发的DevOps领域大模型DevOps-Model。
  • OWL [paper]

    • 该项目开源了由云智慧智能研究院和北航联合研发的智能运维(AIOps)大语言模型,其在收集的 Owl-Instruct 数据基础上训练而成。此外,由于缺乏智能运维领域的大语言模型的 Benchmark,还建立了 Owl-Bench 评测基准。
  • MarineGPT [paper]

    • 该项目开源了首个专为海洋领域设计的视觉语言模型MarineGPT。
  • OceanGPT [paper]

    • 该项目开源了面向海洋学的大模型OceanGPT。
  • AgriGPT

    • 该项目开源了农业大模型MediaGPT。
  • MediaGPT

    • 该项目开源了中文自媒体大模型MediaGPT,首先在大规模自媒体语料上进行连续预训练,系统地学习自媒体的知识体系。然后,借助ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,使模型习得如何将自媒体知识应用到实际场景中。
  • EcomGPT [paper]

    • 该项目开源了电商大模型EcomGPT,基于BLOOMZ在电商领域指令微调数据集EcomInstruct进行微调,在12个电商评测数据集上的人工评估超过ChatGPT。
  • StarWhisper (星语)

    • 在天文科学教育联盟、集思谱文献平台、司天工程的支持下,基于天文大模型StarGLM开发经验,我们进一步训练了星语StarWhisper系列模型(包括6B,7B,13B,14B,20B)。以进一步缓解大模型在天文通用知识的幻觉现象,为接下来可处理天文多模态任务、部署于望远镜阵列的科学具身智能——司天大脑打下基础。
  • K2 [paper]

    • 该项目开源了地球科学大模型K2,该模型在LLaMA的基础上使用地球科学文献和维基百科数据进行预训练,然后使用GeoSignal数据集进行指令微调。
  • TransGPT (致远)

    • 该项目开源了交通大模型TransGPT (致远),主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。TransGPT作为一个通用常识交通大模型,可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。
  • SecGPT

    • 该项目开源了网络安全大模型SecGPT,该模型基于Baichuan-13B采用Lora做预训练和SFT训练,还开源了相关预训练和指令微调数据集。
  • AutoAudit

    • 该项目开源了网络安全大模型AutoAudit,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。
  • TechGPT

    • 该项目开源了科技大模型TechGPT,该模型面向计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域,涵盖了领域术语抽取、命名实体识别、关系三元组抽取、文本关键词生成、标题生成摘要、摘要生成标题、文本领域识别、机器阅读理解、基础常识问答、基于上下文的知识问答、建议咨询类问答、文案生成、中英互译和简单代码生成等多项自然语言理解和生成能力。
  • Mozi (墨子) [paper]

    • 该项目开源了科技论文大模型Mozi (墨子),可以用于科技文献的问答和情感支持。
  • OpenBioMed [paper1] [paper2] [paper3]

    • 该项目开源了若干多模态生物医学大模型,包括多模态生物医药大模型BioMedGPT、多模态小分子基础模型DrugFM和MolFM、细胞表示学习模型CellLM等。
  • YaYi (雅意)

    • 该项目开源了多领域大模型YaYi (雅意),该模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

📚 数据集

📏 评测基准

  • C-Eval [paper]

    • C-Eval是一个由上海交通大学发布的中文基础模型评测基准,包含了13948个多项选择题,涵盖了人文,社科,理工,其他专业四个大方向,52个学科,从中学到大学研究生以及职业考试。
  • AGIEval [paper]

    • AGIEval是一个由微软发布的评测基准,用于评估大模型在人类认知任务中的表现,包含了20个面向普通考生的官方、公开、高标准入学和资格考试,包括普通大学入学考试 (中国高考和美国SAT考试)、法学院入学考试、数学竞赛和律师资格考试、国家公务员考试等。
  • Xiezhi (獬豸) [paper]

    • Xiezhi是一个由复旦大学发布的综合的、多学科的、能够自动更新的领域知识评测基准,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,516个具体学科,249587道题目。
  • CMMLU [paper]

    • CMMLU是一个综合性的中文评测基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • MMCU [paper]

    • MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
  • CG-Eval [paper]

    • CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
  • CBLUE [paper]

    • CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
  • PromptCBLUE [paper]

    • PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
  • LAiW [paper]

    • LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律 NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别 5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答 5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询 3 个基础任务。
  • LawBench [paper]

    • LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
  • LegalBench [paper]

    • LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
  • LEXTREME [paper]

    • LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
  • LexGLUE [paper]

    • LexGLUE是一个英文法律评测基准。
  • CFBenchmark [paper]

    • CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
  • FinanceBench [paper]

    • FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含 10,231 个有关上市公司的问题,以及相应的答案。
  • FinEval [paper]

    • FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
  • FLARE [paper]

    • FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
  • CFLEB [paper]

    • CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
  • FLUE [paper]

    • FLUE是一个金融评测基准,包含5个金融领域数据集。
  • GeoGLUE [paper]

    • GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
  • OWL-Bench [paper]

    • OWL-Bench 是一个面向运维领域的双语评测基准。它包含 317 个问答题和 1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保 OWL-Bench 能够展现出多样性。
  • DevOps-Eval

    • DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。

🤝 友情链接

  • Awesome Code LLM
    • 该项目收集了代码大模型相关论文,并整理出一篇综述。
  • CodeFuse-ChatBot
    • CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
  • Awesome AIGC Tutorials
    • 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
  • Awesome Tool Learning
    • 该项目收集了关于工具学习的资源,包括论文、框架和应用。
  • Awesome LLM reasoning
    • 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。

 from https://github.com/luban-agi/Awesome-Domain-LLM