机器学习archive - Efficient Coder

Maṉa: AI-Driven Mental Health Analysis Platform via Social Media

1 days ago 高效码农

Introduction: Where Artificial Intelligence Meets Mental Wellness In the digital age, social media has become a vital channel for emotional expression. Maṉa innovatively combines natural language processing with mental health assessment, creating an intelligent support system through analysis of users’ social media interactions. This article comprehensively explores the platform’s design philosophy and technical implementation, from core algorithms to practical applications. Core Functional Architecture Dual-Mode Interaction System The platform features a unique two-channel design balancing immediate support and in-depth evaluation: MaṉaChat: Daily Mental Health Assistant Powered by the meta-llama/Llama-3.2-3B-Instruct model, this 24/7 conversational interface provides clinically validated strategies for queries like …

Unsloth vs PEFT

1 months ago 高效码农

Compare Unsloth and PEFT for fine-tuning large language models. Discover how PEFT Unsloth Parameter-Efficient Fine-Tuning optimizes speed, memory, and resources.

阿里通义万象Wan AI视频模型上线独立网站：零门槛创作，登录即享免费积分！

1 months ago 高效码农

近日，阿里旗下AI视频生成模型通义万象Wan迎来重大更新，正式推出独立官方网站，用户无需本地部署即可直接在线体验AI视频创作。这一升级不仅大幅降低了技术使用门槛，还为创作者提供了每日登录赠送积分的福利，进一步推动AI视频生成技术的普及化。以下是关于这一工具的详细解读与使用指南。通义万象Wan：重新定义AI视频生成通义万象Wan是阿里在AI多模态领域的重要布局，专注于通过自然语言指令生成高质量视频内容。其核心能力包括：文生视频：输入文字描述，AI自动生成匹配的动态画面。图生视频：上传静态图片，一键转化为生动视频。视频风格化：支持动漫、写实、抽象等多种艺术风格转换。智能编辑：自动补帧、修复画质、调整时长等后期功能。此前，这类工具多需依赖本地算力或开发者权限，而通义万象Wan的云端服务模式让普通用户也能轻松上手。三大亮点：为何选择通义万象Wan？零部署，即开即用用户只需访问官方网站，注册账号即可开始创作，无需下载软件或配置硬件环境。云端算力支持高清视频渲染，即使低配设备也能流畅运行。每日免费积分，降低体验成本新用户注册即赠初始积分，每日登录还可额外领取，积分可用于生成视频或解锁高级功能（如4K分辨率、长视频生成）。这一机制既降低了尝鲜门槛，也鼓励用户高频使用。多样化应用场景自媒体创作者：快速制作短视频素材，提升内容产出效率。电商行业：为商品生成动态展示视频，增强营销吸引力。教育领域：将文字教案转化为可视化动画，辅助教学。如何使用通义万象Wan？三步极简教程登录官网访问通义万象Wan独立网站（需通过阿里云账号或手机号注册），进入创作界面。输入指令选择“文生视频”或“图生视频”模式，输入描述文本（如“星空下的鲸鱼跃出海面，赛博朋克风格”），调整参数（时长、分辨率、风格滤镜等）。生成与下载提交任务后，系统将自动排队渲染，完成后可预览效果并下载视频。积分消耗按视频长度与复杂度计算，普通用户每日免费额度可满足基础需求。未来展望：AI视频创作的平民化时代通义万象Wan的独立上线，标志着AI视频技术从“实验室”走向“大众化”。随着积分激励机制的引入，更多用户将有机会探索视频创作的无限可能。尽管当前版本在细节处理和长视频连贯性上仍有优化空间，但其迭代速度与开放性已展现出巨大潜力。对于行业而言，这一工具的普及可能加速内容生产方式的变革——从“专业团队制作”转向“AI辅助个人创作”。无论是个人博主还是中小企业，都能以更低成本实现高质量视觉表达。立即行动：访问通义万象Wan官网，领取你的每日积分，开启AI视频创作之旅吧！无论是天马行空的幻想场景，还是商业项目的视觉需求，只需一句话，让AI为你呈现惊艳的动态画面。（注：具体功能以官网实际开放内容为准，建议关注官方公告获取最新动态。）

MTranServer：极速轻量级离线翻译服务器部署指南

1 months ago 高效码农

MTranServer：极速轻量级离线翻译服务器部署指南 🌟 项目亮点闪电速度：平均响应时间50ms，高端CPU每秒处理500+请求超低消耗：仅需1G内存即可运行，无需独立显卡全语言支持：覆盖全球主要语言互译（需下载对应模型）私有化部署：数据完全本地处理，保障隐私安全 🚀 性能对比（CPU环境：英译中场景） id: perf-comparison name: 性能对比图 type: mermaid content: |- graph TD A[MTranServer] –> B[50ms响应] A –> C[1G内存] A –> D[500+请求/秒] E[竞品A] –> F[300ms响应] E –> G[4G内存] E –> H[50请求/秒] 📥 一键式部署（桌面版） 1️⃣ 下载安装包国际用户：GitHub Release 中国大陆用户：飞书云文档 2️⃣ 解压运行 unzip MTranServer_Desktop.zip cd mtranserver docker compose up -d 3️⃣ 验证部署查看日志确认模型加载： Successfully loaded model for language pair: enzh [INFO] Max parallel translations: 32 🔧 服务器部署进阶模型配置示例 id: model-structure name: 模型目录结构 type: mermaid content: |- graph LR models/ ├── enzh(英译中) │ ├── lex.50.50.enzh.s2t.bin │ ├── model.enzh.intgemm.alphas.bin │ └── vocab.enzh.spm └── zhen(中译英) ├── lex.50.50.zhen.t2s.bin ├── model.zhen.intgemm.alphas.bin └── vocab.zhen.spm 安全配置建议 # compose.yml 安全增强配置示例 environment: – CORE_API_TOKEN=YourStrongPassword123 – MAX_PARALLEL=100 # 根据CPU核心数调整 – RATE_LIMIT=5000 # 每秒最大请求数 🛠️ 客户端配置指南沉浸式翻译设置打开插件设置 → 开发者选项 → 启用Beta功能自定义API地址：http://服务器IP:8989/imme 性能优化建议：并发请求数：5000 单次最大段落：10 开发者API调用 import requests headers = {“Authorization”: “YourToken”} payload = { “from”: “en”, “to”: “zh”, “texts”: [“Hello world”, “Quick translation”] } response = requests.post(“http://localhost:8989/translate/batch”, json=payload, headers=headers) print(response.json()[“results”]) 🔄 更新维护 # 保持最新版本 docker compose down docker pull xxnuo/mtranserver:latest docker compose up -d # 模型热更新（无需重启） cp new_model/* models/enzh/ 🚨 常见问题排查现象解决方案模型加载失败检查模型目录结构是否符合规范高并发时响应延迟调整MAX_PARALLEL参数值 …

探索 MTranServer —— 轻量级、高性能离线翻译服务器

1 months ago 高效码农

下面是一篇基于 README 文件内容撰写的博客文章示例，供你介绍和使用 MTranServer：探索 MTranServer —— 轻量级、高性能离线翻译服务器在如今追求高效、低资源占用的应用场景下，离线翻译解决方案越来越受欢迎。今天给大家介绍一款名为 MTranServer 的迷你翻译服务器，它仅需约 1G 内存即可运行，无需 GPU 支持，并能以极快的速度（单请求平均响应时间约 50ms）实现全球主要语言之间的翻译。本文将为你详细介绍 MTranServer 的亮点、性能对比、部署方法以及 API 接口使用等内容。citeturn0file0 一、MTranServer 简介 MTranServer 是一款超低资源消耗、极速响应的离线翻译服务器，特别适合私有部署与嵌入式场景。主要特点包括：低资源消耗：仅需 1G 内存，无需 GPU。极速响应：单个请求平均响应时间 50ms，适合高并发需求。多语言支持：覆盖全世界主要语言，翻译质量与 Google 翻译相当，但定位在速度和轻量级部署上。离线运行：无需依赖在线 API，保障数据隐私和稳定性。尽管翻译效果略逊于那些采用大型模型的在线服务，但 MTranServer 凭借其低硬件要求和极速响应，在很多应用场景下都能发挥巨大优势。二、性能对比与应用场景在众多翻译工具中，MTranServer 与其他项目（如 Facebook 的 nllb、LibreTranslate 以及 OPUS-MT）相比，具有如下优势：内存占用：极低，相比其他项目的“很高”或“高”，对硬件要求更友好。并发性能：支持高并发请求，适合处理大量翻译任务。速度：极速响应，适用于对响应时间要求苛刻的场景。这些优势使得 MTranServer 成为边缘计算、私有服务器以及对翻译响应速度要求较高的企业和个人的理想选择。三、部署指南 MTranServer 支持基于 Docker 的部署，目前主要支持 amd64 架构 CPU。部署方式主要分为桌面端一键包和服务器 Docker 手动部署两种。 3.1 桌面端 Docker 一键包准备工作确保已安装 Docker Desktop。下载与解压中国大陆用户可通过中国大陆一键包下载地址获取一键包。国际用户可前往 GitHub Release 页面下载。目录结构解压后的目录结构大致如下： mtranserver/ ├── compose.yml ├── models/ │ ├── enzh │ │ ├── lex.50.50.enzh.s2t.bin │ │ ├── model.enzh.intgemm.alphas.bin │ │ └── …

Manus：全球首款通用AI智能体如何掀起人机协作革命？

1 months ago 高效码农

2025年3月，一款名为Manus的AI产品刷爆全球科技圈。这款由中国团队开发的“通用型AI智能体”，不仅被冠以“全球首款”之名，更因其能独立完成复杂任务并交付成果的特性，被誉为“AI领域的ChatGPT时刻”。本文将从技术突破、应用场景、创始团队及行业影响等角度，解析Manus为何成为现象级产品。一、技术突破：从“思考”到“行动”的跨越与传统聊天机器人（如ChatGPT、Claude）不同，Manus的核心价值在于“知行合一”——它不仅生成建议，还能调用工具自主完成任务，最终交付用户可直接使用的成果。其技术亮点包括： 1. 自主规划与执行能力 Manus能拆解复杂任务为多个步骤，调用浏览器、代码编辑器、数据分析工具等，独立完成从信息搜集、代码编写到成果部署的全流程。例如，用户输入“制作《毁灭战士》网页版游戏”，Manus会自主编写代码、测试并部署可玩版本。 2. 云端异步协作用户无需全程监督，Manus在云端独立运行任务，完成后通过通知交付结果。例如，上传25份简历后，Manus可异步筛选并生成候选人评估表，支持用户中途修改需求。 3. 多领域通用性在GAIA基准测试（评估AI解决现实问题的能力）中，Manus在三个难度级别均超越OpenAI的同类产品，展示出跨领域的适应性。这种“委托-交付”模式，标志着AI从辅助工具向“虚拟同事”的质变。二、应用场景：解放生产力的50个用例 Manus的官方用例库覆盖教育、金融、生活、数据分析等数十个场景，以下是代表性案例： 1. 教育：从教案到互动课件一位物理老师仅用一句提示词，即获得包含动量守恒定律动画的HTML课件。Manus自动生成演示动画、整理知识结构，甚至设计互动问答模块。 2. 金融：媲美专业分析师的报告用户输入“特斯拉股票全面分析”，Manus在数小时内输出涵盖财务数据、市场情绪、技术分析、SWOT分析的百页报告，并附可视化图表与投资建议。 3. 生活：个性化旅行规划师一对情侣的日本求婚旅行需求，被拆解为行程安排、景点推荐、预算分配、日语短语手册等任务。Manus甚至建议了奈良公园的隐秘求婚地点，并生成带地图的HTML旅行手册。 4. 数据分析：从Kaggle竞赛到商业洞察 Manus可自动参加Kaggle竞赛，编写代码并跻身前10%；也能分析电商销售数据，生成可视化图表与运营优化策略。这些案例验证了Manus“一句话需求，全流程交付”的核心价值，覆盖从琐碎事务到专业决策的多元场景。三、创始团队：90后连续创业者的AI野心 Manus的背后是一支低调却战绩斐然的中国团队： – 肖弘（Red Xiao）：毕业于华中科技大学，连续创业者。其早期项目“微伴助手”服务超200万企业用户，2022年创立的AI助手Monica全球用户破千万。他擅长捕捉技术风口，将Manus定位为“AI应用生态的基础设施”。 – 季逸超（Peak Ji）：首席科学家，斯坦纳推理模型开发者，曾登《福布斯》封面。他主导的Magi搜索引擎以语义理解见长，为Manus的复杂任务处理奠定技术基础。团队选择以“浏览器插件”为切口（如Monica），降低用户使用门槛，同时积累多场景需求数据，最终孵化出通用型Agent Manus。四、行业影响：AI平权与超级个体的崛起 Manus的爆火折射出两大趋势： 1. 技术平权：普通人无需编程或专业知识，即可完成股票分析、合同审查等专业任务，“技能鸿沟”被进一步弥合。 2. 超级个体赋能：个人可借助Manus同时处理市场调研、内容创作、数据分析等工作，效率堪比团队协作，推动“一人公司”模式普及。然而，争议亦存： – 饥饿营销质疑：内测邀请码被炒至5万元，引发“炒作”争议。 – 实际效果待验证：尽管基准测试领先，但复杂任务（如财报深度分析）仍需人工复核。五、未来展望：AI Agent的“电力革命” 如果说大模型是“发电厂”，Manus则像“电器”——将底层能力转化为实际生产力。其意义堪比电力时代电灯的普及：让AI从实验室走入日常。随着多模态能力增强，Manus可能进一步整合设计、3D建模等工具，成为真正的“数字员工”。对中国AI产业而言，Manus的诞生证明：在应用层创新上，本土团队完全可能领先全球。正如肖弘所言：“世界不是线性外推的，要让自己成为博弈中的重要变量。” 访问Manus官网：https://manus.im/ （注：截至2025年3月6日，需邀请码方可体验内测功能）

RNN tensorflow 集锦问题汇总

1 years ago 高效码农

一、建Embeddin层优化 1、报错信息：Unrecognized keyword arguments passed to Embedding:{‘batch_input_shape’: [64, None]} 2、模型配置可优化在创建Embedding层时，使用了batch_size作为参数。这在某些情况下可以加速初始化过程，但不是必须的，且可能会导致在不同batch大小上重复使用模型时出现问题。通常，我们建议不指定batch_size，让Keras在运行时根据实际情况决定。 3、解决方案：移除batch_size参数 # 创建模型 model = tf.keras.Sequential([ tf.keras.layers.Embedding(vocab_size, embedding_dim), tf.keras.layers.GRU(rnn_units, return_sequences=True, stateful=False, recurrent_initializer=’glorot_uniform’), tf.keras.layers.Dense(vocab_size, activation=None) # 可根据任务调整激活函数，默认为None ]) 二、错误信息 When using save_weights_only=True in ModelCheckpoint, the filepath provided must end in .weights.h5 (Keras weights format). Received: 解决方案：根据错误提示，当在 tf.keras.callbacks.ModelCheckpoint 中设置 save_weights_only=True 时，保存路径（filepath）应以 .weights.h5 结尾。为了修正这个问题，请修改检查点文件名格式。以下是修复后的代码： # %% # 进行训练 # 检查点保存至的目录 checkpoint_dir = ‘/training_checkpoints’ # 检查点的文件名格式，确保以 .weights.h5 结尾 checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_{epoch:02d}.weights.h5") # 训练的回调 checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_prefix, save_weights_only=True) # 进行训练 history = model.fit(dataset, epochs=20, callbacks=[checkpoint_callback])

ChatGPT 会取代搜索引擎吗？或者它只是一个具有高级功能的花哨的聊天机器人？

2 years ago 高效码农

ChatGPT 风靡互联网。在发布的五天内，用户数量高达 100 万。 OpenAI 团队很快意识到需要进行制衡。因为人们在询问 AI 工具方法如何制作燃烧弹。有人要求该工具编写 SQL 注入，好吧，一个特别的灵魂要求该工具列出世界各地存在漏洞的银行网站以及如何利用它们！因此，难怪上周，科技界最有影响力的人物之一桑达尔·皮查伊 (Sundar Pichai)向谷歌发布了“红色代码”，要求其几名团队成员重新将精力集中在其 AI 功能上。几位技术布道者已经声称谷歌的日子已经屈指可数了。Gmail 的创始人保罗·布赫海特 (Paul Buchheit) 站在这些预测的最前沿，他的推文广为传播。这是那条推文：那么，我们在这里看到结束的开始吗？就像谷歌的世界末日一样？ ChatGPT 真的像他们声称的那样棒吗，更重要的是，它会让你我成为知识工作者，与谷歌一起醒来和睡觉（没有双关语）？我们将 AI 平台拿出来试一试，向它提出各种问题并让其完成测试。至少可以说，结果令人印象深刻。但是如果我们说明天你可以期待这个人工智能工具已经占据了你在你的组织中的位置并且你不再可以整天坐在你的小隔间里看着猫的 Gifs，我们会稍微推动它。第一件事：ChatGPT 不是搜索引擎，因此也不是 Google 杀手，至少现在不是我们已经习惯了在线搜索信息，以至于 Google 搜索栏上的小白线现在几乎已成为我们生活的一部分。想知道湾区最好的墨西哥餐厅吗？去谷歌上查询。东京今天的天气怎么样？把它输入谷歌，傻瓜。苹果股票的价格？Netflix 上最值得狂欢的节目？2022年间谍小说榜单？人们在 Google 上搜索的内容列表会不断增加。事实上，根据这份报告，每天大约有 85 亿次 Google 搜索，该网站的访问量高达 873 亿次。现在，这是 ChatGPT 反对的一些严肃的竞争。那么，它是否辜负了炒作？好吧，我们输入“湾区最好的墨西哥餐厅”，这就是 AI 返回的内容。但答复仅限于五个数字，这是列表中的精华。湾区可能有数十甚至数百家墨西哥餐馆，人工智能无法像谷歌那样列出这些餐馆。谷歌已经占据了搜索市场的巨大份额，这要归功于它的网页排名搜索系统迅速将雅虎推到了搜索列表的第二位。这就是谷歌所做的。它需要一种已经存在的创新，然后让它变得更好。请记住，Google 从未想出搜索。是雅虎。但谷歌的“始终处于测试阶段”的产品迭代方法和更短的开发周期意味着 Alphabet Inc. 始终在游戏中领先一步。所以你不能像搜索引擎一样使用 ChatGPT，因为它只收集到 2021 年的数据。ChatGPT 不知道阿根廷在 FIFA 世界杯上击败了法国，也不能给你 Glass Onion 的评论，这是荒野行动的谜团. 可是等等… 仅仅因为它还没有连接到互联网，并不意味着 ChatGPT 不擅长给你答案。事实上，在某些情况下，我们发现 ChatGPT 做事比“谷歌搜索”要好得多。例如，我想计划在瑞士度假五天，然后向谷歌和 ChatGPT 询问了同样的问题。以下是来自谷歌的结果：我问了 ChatGPT 完全相同的问题，结果让我们站起来注意到： ChatGPT 实际上为我在瑞士创建了一个详细的五天行程，让我不再对做什么感到困惑，并开始实际计划旅行。而这一切发生在不到 10 秒的时间内。如您所见，ChatGPT 的偏见较小，并且由于尚未货币化，因此不会在您键入查询时弹出那些烦人的广告。 …

Google vs. ChatGPT：这场技术大战会重塑万维网吗？

2 years ago 高效码农

人工智能驱动的ChatGPT无疑是过去几周的讨论中心。与我互动的每个人，我关注的每个社交媒体帖子，以及我滚动浏览的每个热门话题都在谈论这个流行语 ChatGPT。（不夸张，我保证。）人们正在分享不同的提示，讨论它的优点，批评它等等。话虽如此，我怎么能不写关于镇上的话题，唯一的 ChatGPT，以及科技巨头如何与它进行一场激烈的战斗呢？尽管我完全同意技术正在发展并将在未来几年继续发展的事实，但它似乎已经准备好迎接房间里的大象：谷歌搜索。因此，事不宜迟，让我们切入正题并深入研究。 ChatGPT 用户数量突破 1 亿 “早在 2022 年 11 月推出，OpenAI 著名的人工智能机器人 ChatGPT 在两个月内就拥有了1 亿用户。” -守护者 Facebook 用了四年时间，Snapchat 和 Myspace 用了三年时间，Instagram 用了两年时间，Google 用了大约一年时间用户数突破 1 亿。最新的基准描述了聊天机器人自推出以来迅速流行，将龙卷风带入网络空间。最新的发展使ChatGPT成为互联网历史上增长最快的消费者应用程序。从解决复杂的编码问题到回答简单的问题，这个人工智能聊天机器人是最近最大的突破之一。考虑到广泛的收购，Microsoft Teams 倾向于将 ChatGPT 集成到他们的界面中。此外，据报道，BuzzFeed 等新闻机构已与 Meta 签署了一项价值 1000 万美元的协议，以提供 Instagram 和谷歌人工智能生成的内容，这些内容将利用 ChatGPT 的技术。谷歌对人工智能的谨慎态度谷歌于 2023 年 1 月 17 日分享了一篇博文，证明在推出基于 AI 的新创新时采取较慢的方法是合理的。许多人称其为谷歌在搜索领域的统治地位的终结，并且有报道称，由于 ChatGPT，这家科技巨头敲响了警钟。该公司还一直在进行持续的对抗性和相关形式的测试。它采取了差异化和谨慎的方法来访问和部署新系统，例如 Waymo、PaLM 和 LaMDA。一篇论文指出，谷歌正在实施人工智能研发的科学方法，包括准备情况审查、研究严谨性、同行审查和负责任的方法，以提供创新的外部化和利用。博文写道：“我们还认为，要使人工智能正确运行，必须让我们和其他人参与进来，包括研究人员、开发人员、用户、政府、监管机构和公民。集体赢得公众信任至关重要，这样 AI 才能在人类和社会中发挥关键作用。我们很高兴有机会与其他公司合作，让 AI 变得正确。” 这篇博文归功于 Demis Hassabis（Alphabet 拥有的 DeepMind 的首席执行官兼联合创始人）、Jeff Dean（谷歌人工智能部门负责人）、Marian Croak（谷歌工程副总裁）、James Manyika（谷歌高级副总裁），以及 Google 和 Alphabet 的首席执行官 Sundar Pichai。 Google 会推出 ChatGPT 克隆版吗？谷歌计划在 2023 年 2 月 8 日举办一场活动，届时它将展示其如何利用人工智能的力量探索数据并与之交互，并重新构想人们的搜索方式，从而比以往任何时候都更自然、更直观地找到您正在寻找的内容为了。 Google 的工作人员正在开发“ Apprentice Bard ”以与 ChatGPT 竞争。基于该公司 LaMDA 技术构建的聊天机器人有望在多个方面优于 ChatGPT。据 CNBC …

Tensorflow报错信息修改

5 years ago 高效码农

一、Please use tf.compat.v1.get_variable instead 确切的说不是报错，是警告⚠️；原因：为了使TensorFlow在版本2.0中更加“Pythonic”，根据设计，TF 2.0没有tf.Session。修改方法： import tensorflow as tf tf = tf.compat.v1 或者： import tensorflow.compat.v1 as tf

阿里云优惠信息展示

5 years ago 高效码农

【主机爆款特惠】限时优惠低至3折【助力企业上云】性能级主机2-5折【全民云计算】云主机低至4折【阿里云新用户】云通信专享8折【商标注册服务】低至680元

Kaggle、Python数据可视化seaborn(六)：自定义图表

5 years ago 高效码农

到目前为止，您已经学习了如何创建许多不同的图表类型。现在，再学习一些可以用来改变图表样式的快速命令。你学到了什么? 由于决定如何最好地讲述数据背后的故事并不总是很容易，因此我们将图表类型分为三大类来帮助解决这个问题。趋势——趋势被定义为变化的模式。 sns.lineplot-线状图最适合显示一段时间内的趋势，多条线可以用来显示多个组中的趋势。关联 – 您可以使用许多不同的图表类型来理解数据中变量之间的关系。 sns.barplot– 条形图用于比较不同组对应的数量。 sns.heatmap– 热力图采用颜色的深浅、点的疏密以及呈现比重的形式。 sns.scatterplot – 散点图显示了两个连续变量之间的关系;如果用颜色标识，我们还可以显示与第三个分类变量的关系。 sns.regplot – 在散点图中包含一条回归线可以更容易地看到两个变量之间的任何线性关系。 sns.lmplot – 如果散点图包含多个颜色编码的组，此命令对于绘制多个回归线很有用。 sns.swarmplot – 分类散点图显示连续变量和分类变量之间的关系。分布 – 我们可视化分布，以显示我们可以期望在变量中看到的可能值，以及它们的可能性。 sns.distplot – 直方图表示单个数值变量的分布。 sns.kdeplot – KDE图(或2D KDE图)显示了单个数值变量(或两个数值变量)的估计、平滑分布。 sns.jointplot – 此命令对于同时显示2D KDE图以及每个单独变量对应的KDE图非常有用。改变风格所有的命令都为每个图提供了一个漂亮的默认样式。但是，您可能会发现定制您的图的外观很有用，幸运的是，只需添加多一行代码就可以实现这一点! 与往常一样，我们需要从设置编码环境开始。 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete") 我们将使用与在前一个教程中创建折线图相同的代码。下面的代码加载数据集并创建图表。 # Path of the file to read spotify_filepath = "../input/spotify.csv" # Read the file into a variable spotify_data spotify_data = pd.read_csv(spotify_filepath, index_col="Date", parse_dates=True) # Line chart plt.figure(figsize=(12,6)) sns.lineplot(data=spotify_data) 输出： <matplotlib.axes._subplots.AxesSubplot at 0x7f07838a9e10> 我们可以使用一行代码快速将图形的样式更改为不同的主题。 # Change the style of the figure to the …

Kaggle、Python数据可视化seaborn(五)：直方图和密度图

5 years ago 高效码农

在本教程中，您将学习有关直方图和密度图的所有信息。准备好笔记本和往常一样，我们从设置编码环境开始。 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete") 选择一个数据集我们将使用一个包含150种不同花的数据集，或来自三种不同鸢尾属的各50种花的数据集。加载并检查数据数据集中的每一行对应于不同的花。有四种测量方法:萼片的长度和宽度，以及花瓣的长度和宽度。我们也跟踪相应的物种。 # Path of the file to read iris_filepath = "../input/iris.csv" # Read the file into a variable iris_data iris_data = pd.read_csv(iris_filepath, index_col="Id") # Print the first 5 rows of the data iris_data.head() 输出：直方图假设我们想要创建一个直方图来查看鸢尾花的花瓣长度是如何变化的。我们可以用sns.distplot命令来做。 # Histogram sns.distplot(a=iris_data[‘Petal Length (cm)’], kde=False) 输出： /opt/conda/lib/python3.6/site-packages/scipy/stats/stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error …

Kaggle、Python数据可视化seaborn(四)：散点图

5 years ago 高效码农

在本教程中，您将学习如何创建高级散点图。准备好笔记本和往常一样，我们从设置编码环境开始。 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete") 加载并检查数据我们将使用一个(合成的)保险费用数据集，看看我们是否能理解为什么有些客户比其他人支付更多。如果您愿意，您可以在这里阅读关于数据集的更多信息。 # Path of the file to read insurance_filepath = "../input/insurance.csv" # Read the file into a variable insurance_data insurance_data = pd.read_csv(insurance_filepath) 与往常一样，我们通过打印前五行来检查数据集是否正确加载。 insurance_data.head() 散点图要创建简单的散点图，我们使用sns.scatterplot命令并指定以下值：水平x轴（x = insurance_data [‘bmi’]），和垂直y轴（y = insurance_data [‘charge’]）。 sns.scatterplot(x=insurance_data[‘bmi’], y=insurance_data[‘charges’]) 输出： <matplotlib.axes._subplots.AxesSubplot at 0x7f19008afd68> 上面的散点图表明，体重指数（BMI）和保险费用正相关，而BMI较高的客户通常也倾向于支付更高的保险费用。（这种模式是有道理的，因为高BMI通常与慢性疾病的高风险相关。）要仔细检查此关系的强度，您可能希望添加回归线或最适合数据的线。我们通过将命令更改为sns.regplot来完成此操作。 sns.regplot(x=insurance_data[‘bmi’], y=insurance_data[‘charges’]) 输出： /opt/conda/lib/python3.6/site-packages/scipy/stats/stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either …

Kaggle、Python数据可视化seaborn(三)：柱状图和热力图

5 years ago 高效码农

现在您可以创建自己的折线图了，现在让我们学习更多的图表类型了! 顺便说一下，如果这是您第一次使用Python编写代码，那么您应该为到目前为止所完成的一切感到非常自豪，因为学习一项全新的技能从来都不是一件容易的事!如果您坚持使用微课程，您会注意到所有事情只会变得更简单(而您将构建的图表将会更令人印象深刻!)，因为所有图表的代码都非常相似。像任何技能一样，随着时间的推移和重复，编码变得很自然。在本教程中，您将了解柱状图和热力图。准备好笔记本和往常一样，我们从设置编码环境开始。 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete") 选择一个数据集在本教程中，我们将使用来自美国交通部的数据集来跟踪航班延误。在Excel中打开这个CSV文件，会显示每个月的一行(其中1 = January, 2 = February等)和每个航空公司代码的一列。每个记录显示不同航空公司和月份的平均到达延迟（以分钟为单位）（均为2015年）。负数记录表示（平均）倾向于提前到达的航班。例如，1月份美国航空公司的平均航班（航空公司代码：AA）迟到了大约7分钟，4月阿拉斯加航空公司的平均航班（航空公司代码：AS）提前大约3分钟到达。加载数据和前面一样，我们使用pd.read_csv命令加载数据集。 # Path of the file to read flight_filepath = "../input/flight_delays.csv" # Read the file into a variable flight_data flight_data = pd.read_csv(flight_filepath, index_col="Month") 您可能会注意到代码略短于我们在上一个教程中使用的代码。在这种情况下，由于行标签（来自’Month’列）与日期不对应，因此我们不在括号中添加parse_dates = True。但是，我们像以前一样保留前两个文本，以提供两者：数据集的文件路径（在本例中为flight_filepath）和将用于索引行的列的名称（在本例中，index_col =’Month’）。检查数据由于数据集很小，我们可以轻松地打印它的所有内容。这是通过编写只有数据集名称的一行代码来实现的 # Print the data flight_data 柱状图假设我们想创建一个柱状图，显示精灵航空(航空公司代码:NK)航班的平均到达延迟，按月显示。 # Set the width and height of the figure plt.figure(figsize=(10,6)) # Add title plt.title("Average Arrival Delay for Spirit Airlines Flights, by Month") # Bar chart showing average arrival …

Kaggle、Python数据可视化seaborn(二)：折线图

5 years ago 高效码农

现在您已经熟悉了编码环境，接下来学习如何制作自己的图表! 在本教程中，您将学习怎样用Python来创建专业的线形图。在接下来的练习中，您将使用您的新技能来处理真实世界的数据集。准备好笔记本我们首先设置编码环境。 import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete") 选择一个数据集本教程的数据集是采用音乐流服务Spotify上的全球每日流行歌曲。我们专注于2017年和2018年的五首流行歌曲： “Shape of You”, by Ed Sheeran “Despacito”, by Luis Fonzi “Something Just Like This”, by The Chainsmokers and Coldplay 4.”HUMBLE.”, by Kendrick Lamar “Unforgettable”, by French Montana 请注意，第一个出现的日期是2017年1月6日，与Ed Sheeran的《Shape of You》的发行日期相对应。而且，通过这个表格，你可以看到《Shape of You》在发行当天在全球被播放了12,287,078次。请注意，其他歌曲在第一行中缺少值，因为它们发布比较晚! 加载数据正如您在上一篇教程中了解到的，我们使用pd.read_csv命令加载数据集。 # Path of the file to read spotify_filepath = "../input/spotify.csv" # Read the file into a variable spotify_data spotify_data = pd.read_csv(spotify_filepath, index_col="Date", parse_dates=True) 运行上述两行代码的最终结果是，我们现在可以通过使用spotify_data访问数据集。检查数据我们可以使用您在上一个教程中学习的head命令打印数据集的前五行。 # Print the first 5 rows of the data spotify_data.head() 输出：现在检查前五行是否与上面数据集的图像一致(从我们看到它在Excel中的样子时开始)。空条目将显示为NaN，这是“Not a Number”的缩写。我们还可以通过做一个小的修改(其中.head()变成.tail())来查看数据的最后五行: # …

Kaggle、Python数据可视化seaborn(一)：你好，seaborn

5 years ago 高效码农

欢迎使用数据可视化：在这个动手实践的微课程中，您将学习如何使用seaborn（一种功能强大但易于使用的数据可视化工具）将您的数据可视化提升到新的水平。要使用seaborn，您还将学习如何使用Python（一种流行的编程语言）编写代码。那说，微课程针对那些没有任何编程经验的人，每个图表使用简短的代码，使得seaborn比许多其他数据可视化工具（例如Excel）更快更容易使用。所以，如果你从未编写过一行代码，并且想要了解最低限度，以便开始制作更快，更具吸引力的情节，那么你就是在正确的地方！要查看您将要制作的一些图表，请查看下面的图表。编码环境现在花点时间在这个页面上快速滚动。您会注意到有很多不同类型的信息，包括：文字（就像你现在正在阅读的文字一样！），代码（始终包含在称为代码单元格的灰色框内），以及代码输出（或运行代码的打印结果，始终显示在相应代码的正下方）。我们将这些页面称为Jupyter笔记本（或者通常只是笔记本），我们将在整个微课程中使用它们。笔记本的另一个例子可以在下面的图像中找到。在您正在阅读的笔记本中，我们已经为您运行了所有代码。很快，您将使用可以编写和运行自己的代码的笔记本！设置笔记本您需要在每个笔记本的顶部运行几行代码来设置编码环境。现在理解这些代码行并不重要，因此我们暂不讨论细节。（请注意，它将作为输出返回：Setup Complete。） import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # Set up code checking from learntools.core import binder binder.bind(globals()) from learntools.data_viz_to_coder.ex1 import * print("Setup Complete") 本地无法运行？加载数据在这个笔记本中，我们将使用六个国家的历史FIFA排名数据集：阿根廷（ARG），巴西（BRA），西班牙（ESP），法国（FRA），德国（GER）和意大利（ITA）。数据集存储为CSV文件（逗号分隔值文件的缩写）。在Excel中打开CSV文件会显示每个日期的行，以及每个国家/地区的列。要将数据加载到笔记本中，我们将使用两个不同的步骤，在下面的代码单元中实现，如下所示：首先指定可以访问数据集的位置（或文件路径），然后使用文件路径将数据集的内容加载到笔记本中。 # Path of the file to read fifa_filepath = "../input/fifa.csv" # Read the file into a variable fifa_data fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True) 请注意，上面的代码单元有四条不同的行。评论其中两行前面有一个井号（＃），并包含显示为褪色和斜体的文本。运行代码时，计算机完全忽略了这两行，并且它们只出现在此处，以便任何读取代码的人都可以快速理解它。我们将这两行称为注释，并且最好包含它们以确保您的代码易于解释。可执行代码另外两行是可执行代码，或由计算机运行的代码（在这种情况下，用于查找和加载数据集）。第一行将fifa_filepath的值设置为可以访问数据集的位置。在这种情况下，我们为您提供了文件路径（在引号中）。请注意，此行可执行代码正上方的注释提供了它的功能的快速描述！第二行设置fifa_data的值以包含数据集中的所有信息。这是通过pd.read_csv完成的。紧接着是三个不同的文本（上图中带下划线），括在括号中并用逗号分隔。这些用于在数据集加载到笔记本中时自定义行为： fifa_filepath– 始终需要首先提供数据集的文件路径。 index_col ="Date" – 当我们加载数据集时，我们希望第一列中的每个条目表示不同的行。 …

Kaggle、Python机器学习教程（六）：随机森林

5 years ago 高效码农

介绍决策树会让您很难做出决定。一棵有很多树叶的深树将会过度拟合，因为每个预测都来自其叶子上只有少数房屋的历史数据。但是叶子很少的浅树会表现不佳，因为它无法捕获原始数据中的那么多区别。即使在今天，最复杂的建模技术也面临着欠装和过度装配之间的这种张力。但是，许多模型都有聪明的想法，可以带来更好的性能。我们将以随机森林为例。随机森林使用许多树，并通过平均每个组件树的预测来进行预测。它通常比单个决策树具有更好的预测准确性，并且与默认参数一起使用效果很好。如果您继续建模，您可以学习更多具有更好性能的模型，但其中许多模型对获取正确的参数很敏感。举例您已经看过几次加载数据的代码。在数据加载结束时，我们有以下变量： train_X val_X train_y val_y import pandas as pd # Load data melbourne_file_path = ‘melb_data.csv’ melbourne_data = pd.read_csv(melbourne_file_path) # Filter rows with missing values melbourne_data = melbourne_data.dropna(axis=0) # Choose target and features y = melbourne_data.Price melbourne_features = [‘Rooms’, ‘Bathroom’, ‘Landsize’, ‘BuildingArea’, ‘YearBuilt’, ‘Lattitude’, ‘Longtitude’] X = melbourne_data[melbourne_features] from sklearn.model_selection import train_test_split # 将数据拆分为训练和验证数据，用于功能和目标 # 拆分基于随机数生成器。提供数值 # inndom_state参数保证我们每次都得到相同的分割 # 运行此脚本。 train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0) from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_absolute_error forest_model = RandomForestRegressor(random_state=1) forest_model.fit(train_X, train_y) melb_preds = forest_model.predict(val_X) print(mean_absolute_error(val_y, melb_preds)) 我们构建一个随机森林模型，类似于我们如何在scikit-learn中构建决策树 …

Kaggle、Python机器学习教程（五）：过拟合和欠拟合

5 years ago 高效码农

在这一步结束时，您将了解欠拟合和过度拟合的概念，并且您将能够应用这些想法使您的模型更准确。尝试不同的模型既然您有一种可靠的方法来测量模型精度，那么您可以尝试使用其他模型，并查看哪种模型可以提供最佳预测。但是你应该怎样选择模型？您可以在scikit-learn的文档中看到决策树模型有很多选项（比您长期想要或需要的更多）。最重要的选项决定了树的深度。回想一下这个微课程的第一课，树的深度是衡量它在进行预测之前分裂的数量。这是一棵相对较浅的树在实践中，树在顶层（所有房屋）和叶子之间有10个分裂并不罕见。随着树木越来越深，数据集被切成了更少房屋的树叶。如果树只有1个分割，则将数据分为2组。如果每组再次拆分，我们将获得4组房屋。再次拆分每个将创建8个组。如果我们通过在每个级别添加更多分组来保持组的数量翻倍，那么当我们到达第10级时，我们将拥有210组房屋。这是1024片叶子。当我们将房屋分成许多树叶时，每片叶子中的房屋数量也会减少。拥有极少数房屋的树叶将做出与房屋实际值非常接近的预测，但它们可能会对新数据做出非常不可靠的预测（因为每个预测仅基于少数房屋）。这是一种称为过度拟合的现象，其中模型几乎完美地匹配训练数据，但在验证和其他新数据方面表现不佳。另一方面，如果我们使树很浅，它不会将房屋分成非常不同的组。在极端情况下，如果一棵树将房屋分成2或4，每个房屋仍然有各种各样的房屋。对于大多数房屋来说，结果预测可能相差甚远，即使在训练数据中也是如此（由于同样的原因，验证也会很糟糕）。当模型无法捕获数据中的重要区别和模式时，即使在训练数据中它也表现不佳，这称为欠拟合。由于我们关注新数据的准确性，我们根据验证数据估计，我们希望找到欠拟合和过度拟合之间的最佳点。在视觉上，我们想要（红色）验证曲线的低点举例有一些控制树深度的替代方案，并且许多允许通过树的一些路线具有比其他路线更大的深度。但是max_leaf_nodes参数提供了一种非常合理的方法来控制过度拟合与欠拟合。我们允许模型生成的叶子越多，我们从上图中的欠拟合区域移动到过度拟合区域。我们可以使用效用函数来帮助比较max_leaf_nodes的不同值的MAE分数： from sklearn.metrics import mean_absolute_error from sklearn.tree import DecisionTreeRegressor def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y): model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0) model.fit(train_X, train_y) preds_val = model.predict(val_X) mae = mean_absolute_error(val_y, preds_val) return(mae) 使用您已经看过的代码（以及您已经编写过的代码）将数据加载到train_X，val_X，train_y和val_y中。 # Data Loading Code Runs At This Point import pandas as pd # Load data melbourne_file_path = ‘../input/melbourne-housing-snapshot/melb_data.csv’ melbourne_data = pd.read_csv(melbourne_file_path) # Filter rows with missing values filtered_melbourne_data = melbourne_data.dropna(axis=0) # Choose target and features y = filtered_melbourne_data.Price melbourne_features = [‘Rooms’, ‘Bathroom’, ‘Landsize’, ‘BuildingArea’, ‘YearBuilt’, ‘Lattitude’, ‘Longtitude’] X = filtered_melbourne_data[melbourne_features] from sklearn.model_selection import train_test_split # split data …

Kaggle、Python机器学习教程（四）：验证模型

5 years ago 高效码农

你已经建立了一个模型。但它是否可用？在本课程中，您将学习如何使用模型验证来衡量模型的质量。测量模型质量是迭代改进模型的关键。什么是模型验证您将要评估您构建的几乎所有模型。在大多数（尽管不是全部）应用中，模型质量的相关度量是预测准确性。换句话说，模型的预测是否接近实际发生的情况。在测量预测准确性时，许多人犯了一个大错误。他们使用他们的训练数据进行预测，并将这些预测与训练数据中的目标值进行比较。你会看到这种方法的问题以及如何在一瞬间解决它，但让我们先考虑一下我们如何做到这一点。您首先需要将模型质量概括为可理解的方式。如果您比较10,000个房屋的预测和实际房屋价值，您可能会发现好的和坏的预测混合。查看10,000个预测值和实际值的列表将毫无意义。我们需要将其汇总为一个指标。总结模型质量有许多指标，但我们将从一个称为平均绝对误差（也称为MAE）开始。让我们从最后一个单词error开始分解这个指标。每个房子的预测错误是： error=actual−predicted 因此，如果房子花费150,000美元并且您预计它将花费100,000美元，那么错误就是50,000美元。使用MAE指标，我们获取每个错误的绝对值。这会将每个错误转换为正数。然后我们取这些绝对误差的平均值。这是我们衡量模型质量的标准。用简单的英语，可以说是 On average, our predictions are off by about X. 要计算MAE，我们首先需要一个模型。 #!/usr/bin/python3 # -*- coding: utf-8 -*- import pandas as pd # Load data melbourne_file_path = ‘melb_data.csv’ melbourne_data = pd.read_csv(melbourne_file_path) # 过滤缺少价格值的行 filtered_melbourne_data = melbourne_data.dropna(axis=0) # 选择目标和功能 y = filtered_melbourne_data.Price melbourne_features = [‘Rooms’, ‘Bathroom’, ‘Landsize’, ‘BuildingArea’, ‘YearBuilt’, ‘Lattitude’, ‘Longtitude’] X = filtered_melbourne_data[melbourne_features] from sklearn.tree import DecisionTreeRegressor # 定义模型 melbourne_model = DecisionTreeRegressor() # Fit model melbourne_model.fit(X, y) print("首次样本内预测:", melbourne_model.predict(X.head())) print("实际目标值:", y.head().tolist()) 一旦我们有了模型，这就是我们计算平均绝对误差的方法： from sklearn.metrics import mean_absolute_error predicted_home_prices = melbourne_model.predict(X) print(mean_absolute_error(y, predicted_home_prices)) “样本内”分数的问题我们刚刚计算的度量可以称为“样本内”得分。我们使用单个房屋“样本”来构建模型并对其进行评估。这是很糟糕的。想象一下，在大型房地产市场，门颜色与房价无关。但是，在用于构建模型的数据样本中，所有带绿色门的房屋都非常昂贵。该模型的工作是找到预测房价的模式，因此它将看到这种模式，它将始终预测绿色房屋的高价格。 …