Beta

It’s a beautiful thing when free data meets free algorithm.

本文可以帮助大家理解 ChatGPT 这类的大语言模型是如何在我们的日常生活中发挥作用。

1. 解决的是什么问题?

假如你叫刘弱(强)西(东),现在经营一家售卖食品的电商平台 Bmazon,拥有 70000 件各类食品(包括零食、糕点、巧克力、糖果、猫粮、狗粮……)。这些商品对应有自己的描述和顾客购买使用后的评价。如果有一个机器人,它能通过和客户对话,总结顾客的潜在购买意图,给出推荐商品。这样聪明的机器人能不能来一个呢?

先随便来一个用户购买咨询:

有什么好吃的坚果推荐购买吗?

先别看答案,闭上眼睛暂停十秒钟!如果你是客服导购,你会怎么回答?

....

这个机器人这样回答的:

这些商品是各类坚果产品,包括混合坚果、坚果棒和单品种坚果如碧根果和夏威夷果等。它们的特点是:品质上乘,口感绝佳,深受大人小孩喜爱;部分产品采用完美配比,融合了杏仁、蜂蜜烤花生、芝麻棒、黑巧克力裹 soy 坚果以及软糯的核桃和山核桃,甜度适中;部分坚果无盐且新鲜美味,特别适合健康饮食需求,如控制血压者食用;有些产品提供大包装,经济实惠;还有自制混合坚果与干果,适合早餐搭配,营养丰富。另外,部分品牌因其出色的产品线和快速免费送货服务而受到高度推荐。总体而言,这些坚果产品不仅美味可口,还具有多种健康益处,是聚会、节日礼物或日常零食的理想选择。

以及相关的商品推荐,您可以在 Bmazon 上购买:

这三款产品,它们长这个样子:

是不是很神奇?这个问答型引擎可以用 90 行代码实现。喔?有点意思……且听我讲讲如何实现。

阅读全文 »

叶文洁是第一个通过太阳向宇宙发出了信号的地球人,从而暴露了地球在茫茫宇宙中的坐标,成为了三体人进攻和侵略地球的开始。

《三体》小说贡献了太多的经典桥段,“不要回答,不要回答,不要回答”的黑暗丛林法则也让人印象深刻。不过,我们较个真,从科学的角度聊聊需要具备怎样的条件,才能把地球的坐标发出去。为了类比,我们小处着眼,先理解一下在地球上的坐标是咋出来的?

1. 坐标系

世界大地测量系统(World Geodetic System, WGS)是一种用于地图学、大地测量学和导航(包括全球定位系统)的大地测量系统标准。WGS 包含一套地球的标准经纬坐标系、一个用于计算原始海拔数据的参考椭球体,和一套用以定义海平面高度的引力等势面数据。

地球的形状不是完美的球形。因此,当我们试图近似地球的形状时,需要一个更好的模型。这个模型就是 WGS84 坐标系:它的坐标中心点为地球质心,采用一个十分近似于地球自然形状的参考椭球体,作为描述和推算地面点位置和相互关系的基准面。

有了这个椭球体,地球上任意一个点就可以在这个体系中有唯一投影。这个投影一般使用经度和纬度两个数据,表达该点的位置(也可以有高度)。

WGS84 是世界上第一个统一的地心坐标系(最后修订于 2004 年),因此也被称为大地坐标系、原始坐标系。不同的地区地理信息差别较大(海拔、地表趋势等),为了更精确的表达信息,各地使用的参考椭球体(或参数)不同。欧洲石油调查组织(EPSG)的成员在 1985 年发起了一个介于1024 和 32767 之间的 EPSG 注册表,这个注册表包含了大地基准面、空间参考系统、地球椭球体、坐标变换和相关测量单位等信息。

阅读全文 »

1. 研究背景

1988 年 11 月,California 发起了一项名为”99 号提案“的选民倡议,该提案是美国第一个现代大规模烟草控制项目(次年 1 月正式生效)。在该法案的有两项主要内容:

  1. California 的每包香烟香烟的消费税(cigarette excise tax)提高了 25 美分;
  2. 法案的所得收入专项用于控烟的教育与媒体宣传。

P.S. California 香烟消费税现在是每包 87 美分,为美国最高的州之一。

该法案在后续引发了一系列关于室内清洁空气的地方立法。那问题来了:

在 California 该项法案的实施,对烟草控制是积极的还是消极的?影响有多大?

阅读全文 »

运筹学(Operational Research)是一门应用于管理有组织系统的科学,最早的朴素思想在中国的古文献中多有记载,比如耳熟能详的田忌赛马的故事。运筹的一般思想是:在各项资源条件优先的情况下,如何确定一个方案,使得预期目标最优;或者为了达到预期目标,确定资源消耗最小的方案。在二次世界大战之后,组织和企业的活动规模更大,信息系统化空前完备(想象一下水晶报表的诞生多么让人兴奋),加之各类数学算法模型层出不穷,研究如何做好决策的运筹学也有了极大的发展。

运筹学方向很多,比如线性规划、非线性规划、整数规划、目标规划、动态规划、排队论、对策论等。笔者偷个懒,找一些在整数规划体系下的例子,让大家感受一下在日常企业中这些方法的应用。

1. 一个简化问题

公司有 4 条生产线,每条生产线的月产量分别为 0.56, 3.11, 3.04, 2.11。近期因为经济不景气,需要将月产量总和控制在 5 以内,但出于总成本摊销的考虑,又要保证产出尽可能的大,那么哪几条产线需要被关闭。我们盲猜结果:3 和 4 需要被关闭。当然这个问题手指头可以掰过来,超过十个手指头怎么办?

阅读全文 »

话说在遥远的 2012 年的某天,我突然感慨:作为一名数据挖掘工程师,要做好本职工作非常不易。 于是在微博上吐槽了一句,刚好被“数据挖掘和数据分析”的大 V 转发,引发了数据科学圈的广泛转发和讨论, 很多位大佬都给出了自己对于数据科学所需要能力的理解。

话题的争议性体现在一千多个转发上,放在今天必然是一篇 10 万+ 的文章。不扯别的,看看当时吐槽的是什么?

几个关键词:技术、市场、工具、战略、管理、沟通影响力…… 当然数据挖掘的内核已经随着 21 世纪最性感的数据科学家这一职业变的更加与时俱进了,然而我们依然还是有困惑。

阅读全文 »
0%