利润预测不再困难,scikit-learn线性回归法让你事半功倍


1、简介

生成式人工智能无疑是一个改变游戏规则的技术,但对于大多数商业问题来说,回归和分类等传统的机器学习模型仍然是首选。

重写后的内容:设想一下私募股权或风险投资等投资者如何利用机器学习。要回答这个问题,首先需要了解投资者关注的数据以及数据的使用方式。投资公司的决策不仅仅基于可量化的数据,例如支出、增长和烧钱率等,还包括创始人的记录、客户反馈和产品体验等定性数据

本文将介绍线性回归的基础知识,可以在这里找到完整的代码。

需要重写的内容是:【代码】:https://github.com/RoyiHD/linear-regression

2、项目设置

本文将使用Jupyter Notebook进行这个项目。首先导入一些库。

导入库

# 绘制图表import matplotlib.pyplot as plt# 数据管理和处理from pandas import DataFrame# 绘制热力图import seaborn as sns# 分析from sklearn.metrics import r2_score# 用于训练和测试的数据管理from sklearn.model_selection import train_test_split# 导入线性模型from sklearn.linear_model import LinearRegression# 代码注释from typing import List

3、数据

为了简化问题,本文将使用区域数据。这些数据代表了公司的支出类别和利润。可以看到一些不同数据点的示例。本文希望使用支出数据来训练一个线性回归模型并预测利润。

重要的是要理解本文所描述的数据是关于一家公司的支出情况。只有当将支出数据与收入增长、当地税收、摊销和市场状况等数据结合起来时,才能得出有意义的预测能力

R&D Spend

行政管理

Marketing

投资收益

需要进行重写的内容是:165349.2

136897.8

需要重写的内容是:471784.1

需要改写的内容是:192261.83

162597.7

需要被重写的内容是:151377.59

443898.53

191792.06

153441.51

101145.55

需要重新写作的内容是:407934.54

需要重写的是:191050.39

加载数据

companies: DataFrame = pd.read_csv("companies.csv", header = 0)

4、数据可视化

了解数据对于确定要使用的特征、需要进行归一化和转换的特征、从数据中删除异常值以及对特定数据点进行的处理是很重要的。

目标(利润)直方图

可以直接使用DataFrame绘制直方图(Pandas使用Matplotlib来绘制数据帧),可以直接访问利润并绘制它。

companies['Profit'].hist( color='g', bins=100);

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

从数据中可以清楚地看出,利润超过20万美元的异常值非常罕见。这表明本文所涉及的数据代表的是规模较大的公司。鉴于异常值数量较少,可以将其保留

特征(支出)直方图

在这里,本文旨在使用特征的直方图,并观察其分布情况。Y轴表示数字频率,X轴表示支出

companies[["R&D Spend", "行政管理", "Marketing Spend"]].hist(figsize=(16, 20), bins=50, xlabelsize=8, ylabelsize=8)

图片

可以观察到一个健康的分布,只有很少的异常值。根据直觉,可以预期投入更多资金在研发和市场营销上的公司会获得更高的利润。从下面的散点图中可以看出,研发支出和利润之间存在明显的相关性

profits: DataFrame = companies[["Profit"]]research_and_development_spending: DataFrame = companies[["R&D Spend"]]figure, ax = plt.subplots(figsize = (9, 9))plt.xlabel("R&D Spending")plt.ylabel("Profits")ax.scatter(research_and_development_spending, profits, s=60, alpha=0.7, edgecolors="k",color='g',linewidths=0.5)

图片

可以使用相关的热图来进一步探索支出和利润之间的关系。从图中可以观察到研发和市场营销支出与利润之间的相关性比行政支出更高

sns.heatmap(companies.corr())

图片

5、模型训练

首先需要将数据集分割为训练集和测试集两部分。Sklearn提供了一个辅助方法来完成这个任务。鉴于本文的数据集很简单且足够小,可以按照以下方式将特征和目标分离开来。

数据集

features: DataFrame = companies[["R&D Spend", "行政管理", "Marketing Spend",]]targets: DataFrame = companies[["Profit"]]train_features, test_features, train_targets, test_targets = train_test_split(features, targets,test_size=0.2)

大多数数据科学家会使用不同的命名约定,如X_train、y_train或其他类似的变体。

模型训练

现在可以创建并训练模型了。Sklearn使事情变得非常简单。

model: LinearRegression = LinearRegression()model.fit(train_features, train_targets)

6、模型评估

本文希望对模型的性能及其可用性进行评估。首先查看一下计算得到的系数。在机器学习中,系数是用来与每个特征相乘的学习到的权重或数值。期望看到每个特征都有一个学习系数。

coefficients = model.coef_"""We should see the following in our consoleCoefficients[[0.55664299 1.08398919 0.07529883]]"""

正如上述所看到的,有3个系数,每个特征对应一个系数(“研发支出”、“行政支出”、“市场营销支出”)。还可以将其绘制成图表,以便更直观地了解每个系数。

plt.figure()plt.barh(train_features.columns, coefficients[0])plt.show()

图片

计算误差

希望了解模型的误差率,我们将使用Sklearn的R2得分

test_predictions: List[float] = model.predict(test_features)root_squared_error: float = r2_score(test_targets, test_predictions)"""floatWe should see an ouput similar to this0.9781424529214315"""

离1越近,模型就越准确。实际上可以用一种非常简单的方式对这一点进行测试。

使用下面的支出模型来预测利润,并希望得到一个接近192261美元的数字,可以提取数据集的第一行

"R&D Spend" |"行政管理" |"Marketing Spend" | "Profit"需要进行重写的内容是:165349.2 136897.8需要重写的内容是:471784.1需要改写的内容是:192261.83

接下来创建一个推理请求。

inference_request: DataFrame = pd.DataFrame([{"R&D Spend":需要进行重写的内容是:165349.2, "行政管理":136897.8, "Marketing Spend":需要重写的内容是:471784.1 }])

运行模型。

inference: float = model.predict(inference_request)"""We should get a number that is around199739.88721901"""

现在可以看到的误差率是abs(199739-192261)/192261=0.0388。这是非常准确的。

7、结论

处理数据、搭建模型和分析数据有很多方法。没有一种解决方案适用于所有情况,当用机器学习解决业务问题时,其中一个关键过程是搭建多个旨在解决同一个问题的模型,并选择最有前途的模型



# 的是  # 图中  # 可以直接  # 可以看到  # 数据管理  # 更高  # 将其  # 在这里  # 行政管理  # pandas  # 重写  # https  # sklearn  # 人工智能  # 线性回归  # jupyter  # github  # matplotlib 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Depseek怎么设置总结汇报重点_Depseek重点突出与关键词标注方法【步骤】  使用 Claude 4 和 n8n 实现 AI 工作流自动化  AI时代生存指南:掌握软实力,成为不可替代的人  自动化AI汽车生成挑战赛1966 Gasmea回顾与评分  AI女友:时尚穿搭与美丽瞬间的完美融合  AI面试作弊与反作弊:求职者与企业的博弈  寻宝者的发现:古董探测与文物挖掘揭秘  微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】  如何用文心一言写简历 快速生成高含金量求职简历方法  AI简历生成工具有哪些_一键生成专业简历的AI工具推荐  豆包 AI 辅助进行精简版个人周报撰写技巧  如何用AI一键生成求职简历?AI简历优化与制作工具推荐【干货】  即梦AI怎样生成产品描述_即梦AI产品描述生成与卖点提炼【实操】  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  泰米尔电影猜谜游戏:挑战你的电影知识极限!  DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南  普通人如何用DeepSeek月入过万?2026最新赚钱路径全解析!  消除噪音,提升音质:Audo.ai终极指南  DeepSeek 辅助进行 Linux 内核参数调优教程  扣子AI能否连接企业微信_扣子AI企业微信对接与接口配置【攻略】  Canva AI 辅助 KDP 封面设计:轻松创建畅销书笔记本  2025年冷邮件营销:技巧、工具和成功案例分享  历史影像解密:唇语专家如何还原一战士兵对话?  AI写作避坑指南:小说家应避免的AI使用与创作技巧  Vivo V50e 5G AI功能:最佳AI特性深度解析  QuickBooks Desktop 到 Online 迁移指南:轻松转移您的公司数据  AI婴儿播客视频制作终极指南:免费工具与步骤  2025年QA工程师必备:五款AI自动化测试工具深度解析  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  挖掘用户数据:洞察与策略,提升播客全球影响力  亚马逊KDP电子书掘金:月入1万美元的秘密策略  谷歌 Nano Banana:免费AI图像生成的强大工具  ChatGPT官方入口 ChatGPT官网网页版访问步骤详解  AI如何一键生成PPT大纲_利用AI工具制作演示文稿方法【教程】  Depseek如何让提示词包含上下文_Depseek上下文补充提示词写法【步骤】  Claude官网在线对话地址 Claude官方网站直接使用  优化《现代战争2》色彩:提升游戏视觉体验终极指南  如何用AI一键生成手机壁纸?4K高清AI壁纸生成关键词【分享】  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  n8n教程:如何用AI自动生成个性化简历  Kaiber AI视频制作教程:轻松打造吸睛AI视频  AI写作鱼怎么一键生成朋友圈文案_AI写作鱼文案风格切换与字数设置【指南】  银行对账单解读完全指南:掌握财务状况,优化资金管理  AI落地页优化:3个技巧,转化率飙升!  AI聊天机器人会取代人类吗?深度剖析与未来展望  通义千问网页版怎么用模板_通义千问模板使用方法【方法】  Logic Pro 11更新全面解析:免费升级、AI功能与音乐制作流程  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  Android图像翻译器应用:技术、应用与未来展望 

 2023-11-13

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.