90 行代码实现问答型商品推荐系统

发表于 2024-01-13 分类于不务正业的 R

本文可以帮助大家理解 ChatGPT 这类的大语言模型是如何在我们的日常生活中发挥作用。

1. 解决的是什么问题？

假如你叫刘弱(强)西(东)，现在经营一家售卖食品的电商平台 Bmazon，拥有 70000 件各类食品（包括零食、糕点、巧克力、糖果、猫粮、狗粮……）。这些商品对应有自己的描述和顾客购买使用后的评价。如果有一个机器人，它能通过和客户对话，总结顾客的潜在购买意图，给出推荐商品。这样聪明的机器人能不能来一个呢？

先随便来一个用户购买咨询：

有什么好吃的坚果推荐购买吗？

先别看答案，闭上眼睛暂停十秒钟！如果你是客服导购，你会怎么回答？

....

这个机器人这样回答的：

这些商品是各类坚果产品，包括混合坚果、坚果棒和单品种坚果如碧根果和夏威夷果等。它们的特点是：品质上乘，口感绝佳，深受大人小孩喜爱；部分产品采用完美配比，融合了杏仁、蜂蜜烤花生、芝麻棒、黑巧克力裹 soy 坚果以及软糯的核桃和山核桃，甜度适中；部分坚果无盐且新鲜美味，特别适合健康饮食需求，如控制血压者食用；有些产品提供大包装，经济实惠；还有自制混合坚果与干果，适合早餐搭配，营养丰富。另外，部分品牌因其出色的产品线和快速免费送货服务而受到高度推荐。总体而言，这些坚果产品不仅美味可口，还具有多种健康益处，是聚会、节日礼物或日常零食的理想选择。

以及相关的商品推荐，您可以在 Bmazon 上购买：

这三款产品，它们长这个样子：

是不是很神奇？这个问答型引擎可以用 90 行代码实现。喔？有点意思……且听我讲讲如何实现。

阅读全文 »

时空数据科学概念和技术

发表于 2023-07-11 分类于数据思维

叶文洁是第一个通过太阳向宇宙发出了信号的地球人，从而暴露了地球在茫茫宇宙中的坐标，成为了三体人进攻和侵略地球的开始。

《三体》小说贡献了太多的经典桥段，“不要回答，不要回答，不要回答”的黑暗丛林法则也让人印象深刻。不过，我们较个真，从科学的角度聊聊需要具备怎样的条件，才能把地球的坐标发出去。为了类比，我们小处着眼，先理解一下在地球上的坐标是咋出来的？

1. 坐标系

世界大地测量系统（World Geodetic System, WGS）是一种用于地图学、大地测量学和导航（包括全球定位系统）的大地测量系统标准。WGS 包含一套地球的标准经纬坐标系、一个用于计算原始海拔数据的参考椭球体，和一套用以定义海平面高度的引力等势面数据。

地球的形状不是完美的球形。因此，当我们试图近似地球的形状时，需要一个更好的模型。这个模型就是 WGS84 坐标系：它的坐标中心点为地球质心，采用一个十分近似于地球自然形状的参考椭球体，作为描述和推算地面点位置和相互关系的基准面。

有了这个椭球体，地球上任意一个点就可以在这个体系中有唯一投影。这个投影一般使用经度和纬度两个数据，表达该点的位置（也可以有高度）。

WGS84 是世界上第一个统一的地心坐标系（最后修订于 2004 年），因此也被称为大地坐标系、原始坐标系。不同的地区地理信息差别较大（海拔、地表趋势等），为了更精确的表达信息，各地使用的参考椭球体（或参数）不同。欧洲石油调查组织（EPSG）的成员在 1985 年发起了一个介于1024 和 32767 之间的 EPSG 注册表，这个注册表包含了大地基准面、空间参考系统、地球椭球体、坐标变换和相关测量单位等信息。

阅读全文 »

合成双重差分法

发表于 2023-05-20 分类于算法

1. 研究背景

1988 年 11 月，California 发起了一项名为”99 号提案“的选民倡议，该提案是美国第一个现代大规模烟草控制项目（次年 1 月正式生效）。在该法案的有两项主要内容：

California 的每包香烟香烟的消费税（cigarette excise tax）提高了 25 美分；
法案的所得收入专项用于控烟的教育与媒体宣传。

P.S. California 香烟消费税现在是每包 87 美分，为美国最高的州之一。

该法案在后续引发了一系列关于室内清洁空气的地方立法。那问题来了：

在 California 该项法案的实施，对烟草控制是积极的还是消极的？影响有多大？

阅读全文 »

混合整数规划常用方法 R 实现

发表于 2022-11-13 分类于算法

运筹学（Operational Research）是一门应用于管理有组织系统的科学，最早的朴素思想在中国的古文献中多有记载，比如耳熟能详的田忌赛马的故事。运筹的一般思想是：在各项资源条件优先的情况下，如何确定一个方案，使得预期目标最优；或者为了达到预期目标，确定资源消耗最小的方案。在二次世界大战之后，组织和企业的活动规模更大，信息系统化空前完备（想象一下水晶报表的诞生多么让人兴奋），加之各类数学算法模型层出不穷，研究如何做好决策的运筹学也有了极大的发展。

运筹学方向很多，比如线性规划、非线性规划、整数规划、目标规划、动态规划、排队论、对策论等。笔者偷个懒，找一些在整数规划体系下的例子，让大家感受一下在日常企业中这些方法的应用。

1. 一个简化问题

公司有 4 条生产线，每条生产线的月产量分别为 0.56, 3.11, 3.04, 2.11。近期因为经济不景气，需要将月产量总和控制在 5 以内，但出于总成本摊销的考虑，又要保证产出尽可能的大，那么哪几条产线需要被关闭。我们盲猜结果：3 和 4 需要被关闭。当然这个问题手指头可以掰过来，超过十个手指头怎么办？

阅读全文 »

数据科学家能力素质模型

发表于 2021-09-28 分类于数据思维

话说在遥远的 2012 年的某天，我突然感慨：作为一名数据挖掘工程师，要做好本职工作非常不易。于是在微博上吐槽了一句，刚好被“数据挖掘和数据分析”的大 V 转发，引发了数据科学圈的广泛转发和讨论，很多位大佬都给出了自己对于数据科学所需要能力的理解。

话题的争议性体现在一千多个转发上，放在今天必然是一篇 10 万+ 的文章。不扯别的，看看当时吐槽的是什么？

几个关键词：技术、市场、工具、战略、管理、沟通影响力…… 当然数据挖掘的内核已经随着 21 世纪最性感的数据科学家这一职业变的更加与时俱进了，然而我们依然还是有困惑。

阅读全文 »